Вы здесьМастер-класс по сканированию
Опубликовано сб, 23/07/2011 - 05:48 пользователем Антонина82
Сразу расставлю точки над ё: я выступаю в роли прилежной ученицы. Учителей будет, как мне представляется, несколько. шаг второй. Шаг четвёртый. По совету Голмы режим сканирования установила для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi. Сразу скажу, скорость при втором режиме резко падает. Шаг пятый: сканирование, самый трудоёмкий и несколько нудный и однообразный процесс. Кладёшь на стекло страницу, затем устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве (что может не совпасть с мнением бывалых людей) жму на кнопку -сканировать Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей. Теперь вопросы, которые у меня возникли: Моя первая отсканированная книжка детская Я.Акима – с символичным названием «Неумейка» файл лежит здесь здесь Можно указывать, на что надо обращать внимание и на ошибки используя «Неумейку», как пример.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 3 часа
konst1 RE:Катя Водянова - Дом и два жениха в придачу 14 часов Aleks_Sim RE:Прошу переформатировать, распознать, etc... 7 часов kopak RE:Таинственная личность админа Флибусты 4 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 дней Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 3 недели zlyaka RE:С Новым годом! 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 4 недели SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц Впечатления о книгах
Синявский про Николай Егорович Дронников
28 01 На 95-м году жизни скончался Николай Дронников - советский и французский художник, график, скульптор, прозаик и издатель авторских книг, "летописец русской эмиграции".
ve51 про Чейз: Плоть орхидеи [The Flesh of the Orchid ru] (Крутой детектив)
27 01 Книга не входит в цикл "Дэйв Фэннер
Skyns71 про Гузман: Тропой священного козерога, или В поисках абсолютного центра (Современная проза, Биографии и Мемуары)
27 01 Господи... Жизнеописание наркомана.
sigor2000 про Бакман: Вторая жизнь Уве [En Man Som Heter Ove ru] (Современная проза)
27 01 Книга просто шикарна. По моему мнению в книге нет повесточки. Персонажи геи, мигранты это по факту то, что осталось от Швеции. Вместе со смерьтю ГГ умерла и та Швеция, которую мы знали, вот о чем пишет автор. Самое смешное, ……… Оценка: отлично!
mysevra про Лэнган: Рыбак [The Fisherman ru] (Ужасы)
27 01 Хороший язык. Но, во-первых, рассказ выжившего - а как же интрига? А во-вторых - и это самое главное - к середине книги до жути я так и не добралась, зато узнала подробно о жене, алкоголизме и рыбалке. Подробно, многословно ……… Оценка: плохо
Gilean про Бесноватый цесаревич
26 01 Тяжело читается, бросил на второй книге. Приехал в столицу - нагрубил, сослали. На придумывал ништяков позвали в столицу - нагрубил, сослали. Так и хочется вспомнить фразу - "украл, выпил в тюрьму" и так по кругу. Раньше ………
Barbud про Ратманов: Вперед в прошлое 7 (Попаданцы, Самиздат, сетевая литература)
26 01 ГГ тычется, как слепой щенок, пытаясь сделать что-то, что должно отсрочить или отменить войну в будущем. Не маялся бы дурью, а ехал в Питер - там в 93-м заммэра еще без серьезной охраны ходит.
Wik@Tor про Назимов: Имперский хакер (Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
26 01 Морские волны мерно ударялись о бунгало. Это как? Б/О
Skyns71 про Тютелов: Славянская здрава (Эзотерика, Здоровье)
25 01 Еще одна отчаянная попытка высосать из пальца "великое прошлое" и "тайны национальной эзотерики" - причем повторяя типично западноевропейскую моду. Только с отставанием примерно лет на сто.
Саша из Киева про Муранов: У світі водоспадів (Легенди і правда про водоспади) [uk] (Геология и география)
25 01 Эта книга в оригинале написана на русском языке. Неужели она была издана только в переводе на украинский?
Sello про Акопян: Кавалер Ордена Золотого Руна (Юмористическая проза)
24 01 Читать не буду, даже если выяснится, что написано божественным языком. Меня интересует другое: что за жлобство наблюдается в последнее время, привлекать к себе внимание, используя известные имена в литературе, тех, кто прославился ……… Оценка: нечитаемо
decim про Шамбаров: Почему мы дошли до Берлина? Параллельная история Второй мировой войны (Исторические приключения, О войне)
24 01 Популярно стало мымыкать от имени отцов и дедов - они сами уже ничего не скажут. И выглядит это как "позор джунглям!" из-за спины Шер-Хана... |
Комментарии
Отв: Мастер-класс по сканированию
1 - то, что количество страниц не совпадает с книгой, имхо, не страшно.
3 - любой, чтобы встал между двумя имеющимися. Скажем, пропущена страница между 12 и 13 - значит, ее номер должен быть 12a (а латиская, разумеется). ИМХО, опять же.
Книжку сейчас погляжу :)
Да, Антонина, правильная ссылка на файл будет выглядеть как http://ifolder.ru/24838124 :)
Потому что иначе ее не увидят те, у кого нет акканута на mail.ru :)
Скачала :)
первое и самое важное, имхо :)
при сканировании можно выделить "область сканирования" - этим надо пользоваться. Чтобы на получившейся картинке была только страница книги и не было черных полей сканера. Иначе обработка, особенно если речь идет не о FB2, а о djvu или pdf, становится неоправданно времязатратной. Ну и в такую книгу я бы подкладывала не черный, а белый лист. Иначе, опять же, чистить картинки от просвечивающего черного - дополнительная работа. ИМХО, в именно этом случае белый был бы лучше. Хотя это на любителя. :)
Книжку сделать? :) Или Вы ее просто для примера выложили?
Отв: Мастер-класс по сканированию
Я сначала подкладывала белый лист, но он не помог. Страницы просвечивали.
Если не трудно сделайте, пожалуйста книгу. Я сканировала, но те ми же ошибками, очень хорошую книжку Если у вас есть возможность, я бы дала ссылку. Мне удивительно, что книги такого замечательного автора в сети отсутствуют
Отв: Мастер-класс по сканированию
А картинок во второй много? Если не очень, то сделаю, не проблема, она небольшая :) Сканы у Вас хорошие получаются :) Эту сделаю сегодня :)
Отв: Мастер-класс по сканированию
Лично я подкладываю черный лист (на лазерном принтере "залил" черным страницу) - получается гораздо лучше - слабо-сероватый фон легко убирается в графических редакторах.
Отв: Мастер-класс по сканированию
Да, вот что еще забыла сказать :)
Чаще всего, оптимальным является сканирование не постранично, а разворота. Если размер книги позволяет, разумеется. В этом случае не приходится каждый раз устанавливать область сканирования, а просто возвращаете книгу в то же место и сканируете :))
Отв: Мастер-класс по сканированию
После сканирования я использую СканКромсатор. Он Обрезает поля и заменяет их чистым белым цветом. Просвечивающийся текст с обратной страницы убирается автоматически.
Отв: Мастер-класс по сканированию
А мне кажется, что такие книги стоит делать в djvu, но никак не в fb2. По весу будет тоже самое, а зачем такие тяжелые fb2? Плюс книга от формата djvu только выиграет.
Антонина, загляните сюда, очень грамотный мануал по сканированию. Ну, а, если захочется, потом по djvu и pdf - сюда.
Отв: Мастер-класс по сканированию
Спасибо за ссылки. Давний мой друг Лорд делится опытом :) Обязательно изучу.
Отв: Мастер-класс по сканированию
Я посмотрела, как Лорд советует делать pdf. Мне не понятно - с форматом djvu надо делать также как с pdf? Я отсканировала книжку Маршака "Рассказ о неизвестном герое" там всего 18 листов. (цвет 600- tiff). Какой следующий шаг?
Отв: Мастер-класс по сканированию
(схватила себя за голову; долго думала) Ё-моё... Хорошо, что я нифига таких умных слов не знала, когда взялась сканировать понравившуюся книжку. (с умной мордой) Надо просто делать, спрашивая по ходу дела мэтров. :))))
Отв: Мастер-класс по сканированию
1. Конкретно для этой книги сделано более чем достаточно, что бы передать ее на дальнейшую обработку другим спешиалистам.
2. Сканы после сканирования лучше все-таки обрезать. Делается так. Перед этим надо создать копию пакета на всякий случай. Затем выбрать в "Файнридере" "Редактор изображений, и:
3. Но в вашем случае это не получится. Потому что вы не прижимали при сканировании к одному и тому же углу. Или прижимали к одному и тому же, но то вверх ногами, то вниз. Подозреваю, что из-за подкладывания черной бумаги.
4. Надо ли вообще подкладывать? Давайте разберемся. Выложите пожалуйста одну и ту же страницу - без, с черной и с белой подкладкой.
Вот одна из ваших картинок, обработанная быстро в Photoshop:
Хочу посмотреть, удастся ли приемлемо убрать просветку.
5. Коллеги, а для чего сканировать в 600, если при дальнейшей обработке картинка все равно будет ужиматься?
Отв: Мастер-класс по сканированию
Так велит великий и ужасный РТ.
))))
Наверно, с несжатым материалом лучше работать.
Отв: Мастер-класс по сканированию
Стоит ли оно того, что бы сканировщик в два раза дольше корпел над книгой? Большие есть сомнения у меня.
Отв: Мастер-класс по сканированию
Для цветных картинок - стоит точно. Я сейчас их обрабатываю - и так зачищаю, что на мелком скане будут просто проблемы. Покажу через полчасика результат.
Отв: Мастер-класс по сканированию
Я за 2,5 года что сканирую, не отсканил ни одной книги с цветными картинками. Поэтому тут я не спец конечно.
Но, с другой стороны, постоянно сканю и обрабатываю обложки. И чем плохи мои обложки, отканенные в 300 dpi и ужатые до 600 точек по горизонтали?
Например:
http://lib.rus.ec/node/310119
http://lib.rus.ec/node/310129
http://lib.rus.ec/node/320807
Отв: Мастер-класс по сканированию
До 600 точек - никакой разницы :) А я сейчас делаю детскую книжку - начнаю с 4000 пикселей по высоте :)))) С учетом того, что требуется зачистка фона - очень правильное разрешение... :)
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
1) Проще чистить - хорошо видно, где мусор, где потёртая краска или соринка в бумаге, а где деталь изображения. Особенно если сканер не ахти (вроде моего HP 2410) и/или раздолбанный.
2) Если это растровая печать (в т.ч. цветная) - c 300 dpi очень трудно убирать муар, разве что чрезмерным размытием; с 600 dpi - downsize'ом в 4-5 раз убирается на ура. Примеры навскидку: http://lib.rus.ec/node/277231
Отв: Мастер-класс по сканированию
Это не из-за невнимательности, а из-за особенности сканера. Он позиционируется как книжный. И книга кладется по-разному, четные страницы - к одному краю сканера, а нечётные к другому. Программа переворачивает изображение в одну сторону, но к разным краям страницы. На этом сканере еще есть возможность "book pilot", там обрабатывается целиком книга, но я эту функцию ещё не освоила. В инструкции очень корявый перевод.
Отв: Мастер-класс по сканированию
Сканер с моего юзерпика :)
У Лорда вроде такой же. Тогда надо его пытать как сделать так, что бы можно было после сканирования автоматом ровно обрезать. Это важно - ровно обрезать. 16 страничную книгу порезать можно и руками, а 400 страниц - вряд ли это весело.
Отв: Мастер-класс по сканированию
Что за игры с обрезанием? Зачем? Уже не в первый раз слышу. Сама ничего такого никогда не делала.
Отв: Мастер-класс по сканированию
Наверно только я так делаю. Все предпочитают задавать область сканирования. Буду пробовать как все.
Отв: Мастер-класс по сканированию
Ты сканируешь на всю длиноширину стекла, не оглядываясь на размеры книги?
Отв: Мастер-класс по сканированию
Совершенно правильно. И совершенно не правильно. В смысле понято правильно, а делаю неправильно. :)
Отв: Мастер-класс по сканированию
Хм. Совсем не обязательно гонять книгу по стеклу. Скажем, выбираем правую сторону сканера, кладем книгу (разворот из середины) вплотную к границе сканирования (стык пластика и стекла), запускаем предварительный просмотр и фиксируем в программе область сканирования. Всё. Дальше кладем книгу только в эту область, выравнивая по границе справа. Естественно страницы будут чередоваться: то правильно, то вверх ногами. Файнридеру можно поставить задачу определять ориентацию страницы, ПО вашего сканера тоже это умеет.
Я так сканировала большие книги, которые разворотом отсканировать было нельзя, только постранично.
Отв: Мастер-класс по сканированию
Я это поняла сама, но после того как раз сто или больше переместила книгу из угла в угол :)
Отв: Мастер-класс по сканированию
А я вообще использую горизонтально закреплённый над столом фотоаппарат Ricoh CX1. В настройках есть съёмка с заданным интервалом, снимает каждые пять секунд. Всё, что требуется - каждые пять секунд, услышав бибикание, переворачивать страницу. 10 мегапикселей вполне хватает для распознавания. 100 страниц сканируются примерно за 4 минуты. Важно выставить экспокоррекцию на +1
Отв: Мастер-класс по сканированию
Еще лучше - с иллюстрациями и образцами "фотосканов"... :)
Я намереваюсь отразить Ваш опыт в ЧаВо по книгам и ограничился бы обычной вставкой линка... но Ваш здешний пост, увы, не фокусируется... :(
Отв: Мастер-класс по сканированию
ППКС. Есть еще пара коллег, предпочитающих фото. Надо будет их пригласить в тему.
Отв: Мастер-класс по сканированию
Ну я предпочитаю)))
Поскольку верстаю сама и сканы неземной красоты мне не нужны, особо не заморачиваюсь.
Штатива нет, на книгу уходит минут 20-30, с учетом копирования на комп и замены батареек.
Фаня-10 распознает без проблем.
Сканер есть, но используется для обложек и цветных иллюстраций.
Отв: Мастер-класс по сканированию
Несколько поздно. Отрабатывал технологию.
Итак, сделал раму на стойках высотой с полметра. На раме закрепил две лампы дневного света и фотоаппарат Ricoh CX1, объективом вниз. Выставил автоматическую съёмку каждые пять секунд, экспокоррекцию +1, чтобы лист на снимке выглядел белым, а не серым. Самую узкую диафрагму, ISO 100 (чтобы было выше разрешение).
После того как фотоаппарат снимает разворот страницы (сопровождается бибиканием), есть пять секунд, чтобы перевернуть страницу. Номера страниц закрываются указательными пальцами, хотя вроде Finereader 11 умеет их убирать и самостоятельно.
После того, как съёмка закончена, все JPEG-и загружаются в Finereader 11. Из его плюсов - справляется с искажениями текста на развороте книги.
Из примеров книг, отсканнированных по этой технологии: Анастасия Цветаева "Воспоминания" (http://lib.rus.ec/b/355407). Книга на 800 страниц сканнировалась 45 минут. Юрий Ерзинкян "Невыдуманные истории. Веселые страницы из невеселого дневника кинорежиссера" (http://lib.rus.ec/b/353523) - книга сканнировалась 15 минут.
Отв: Мастер-класс по сканированию
Спасибо. Не могли бы выложить на обменник парочку сканов для посмотреть?.. :)
Отв: Мастер-класс по сканированию
Ответ неверный!
В свое время niksi уже спорил со мной по этому поводу. Спор заключался вот в чем: как нам говорит вики и другие авторитетные источники, формат JPEG НЕ предназначен для распознавания текстов и что для этих целей больше подходит TIFF. niksi же утверждал, что я неправ и формат JPEG практически почти не дает искажений и в то же время файл в формате jpeg занимает в 1.5 раза меньше места. Он обозвал меня идиотом и создал новую тему под названием JPEG vs TIFF. В этой теме было предложено сканировать в формате дежавю. Я творчески переработал эту мысль и написал сообщение JPEG vs DJVU, где сказал
И вот с этим niksi внезапно согласился.
Кроме того, если собираетесь делать дежавю никогда не сканируйте в JPEG, потому что этот JPEG, чтобы вставить в DjVu, придется сперва перекодировать в TIFF, а уж потом прога вставит полученный TIFF как страничку в дежавю.
Отв: Мастер-класс по сканированию
Лично ты можешь сканировать в чем угодно, как угодно, где угодно. Как я и говорил, меня убедит только статистика, доказывающая, что тифы распознаются лучше, чем джпеги. Размышления о том, что лучше в сферическом вакууме не имеют отношения к реальной практике.
Насчет сохранения в дежавю - для моих регулярных задач это все-таки экзотично. В итоге я предпочел не воспользоваться этим советом.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Спасибо что успокоил. А то я уж испереживался, что неправильно сохраняю отсканированное. Нервный стал, злой, и чуть в запой не ушел.
Отв: Мастер-класс по сканированию
Такой статистики не будет по очевидным причинам. Никто не будет сканировать одну и ту же книгу одновременно и в jpg и в tiff, после чего оба варианта распознавать. Причем проделывать это не с одной книгой, иначе ни о какой статистике речь идти не может. Точно так же вы бы не нашли статистики, гласящей почему для забивания гвоздей лучше молоток, а не микроскоп.
Если все-таки чуть-чуть знать особенности компрессии, выйдет что особенности JPG, которые так замечательно подходят для полноцветных фото, на тексте проявляют свои худшие стороны:
1. Артефакты по краям букв (чем больше контраст между соседними пикселями, тем больше искажения).
2. Крайняя нежелательность редактирования. Каждое новое сохранение jpg дает помехи.
3. На однобитных изображениях jpg бессмысленен из-за больших артефактов и неважной компрессии. Тогда уж лучше tif, gif, png, да что угодно, лишь бы без потери качества. TIFF с lzw компрессией практически идеален.
Понятно что распознавалки текста умеют как-то бороться с артефактами jpg-компрессии. Это как в анекдоте: "ему было легче отдаться, чем разъяснить почему не хочу".
Вот перевод отличного примера от XCKD, как раз в тему
http://joyreactor.ru/post/8157
Отв: Мастер-класс по сканированию
По условиям задачи двойное сканирование не требуется. Сканируем в FR. Затем сохраняемся в тифы и джпеги. Остальное - справедливо.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Минздрав предупреждает: DJVU - это вариация на тему JPEG!
Т.е. сжатие с потерями.
Без потерь (в общем случае) - это TIFF, PNG, GIF...
Для распознавания, как такового, наличие потерь при сжатии несущественно!
Главное - "чёткость" изображения текста.
Объём файлов можно снизить, например, за счёт оптимизации палитры (делайте в 256 градаций серого и LZV-сжатие в том же TIFF'е).
Хотите JPEG - не экономьте на пиксельном разрешении (главное - не переуседствовать и особенно не лезть в интерполяцию, задирая циферки выше физических способностей сенсора).
И вообще, это тут [:]|||[:] уже - и захожу нечасто, но каждый раз натыкаюсь на эти споры...
Отв: Мастер-класс по сканированию
Надоело слушать баян? – Милости просим на Флибусту)))
Вам достаточно произнести «Ля-ля» и ансамбль балалаечников подхватит мелодию. Репертуар, исполняемый признанными мастерами, просто огромен. Они могут исполнить всё - начиная с гимна
заканчивая шлягером – на кулинарные темы :
Большим успехом у слушателей пользуются народные песни:
И эта –
Вне конкуренции – русская народная песня «Во поле березка стояла». Один исполнитель очень здорово выводит –
В руках у него в это время что-то блестит, знающие люди говорят – рашпиль. А ещё он замечательно исполняет песню –
У слушателей - слёзы умиления выступают.
Ансамбль может исполнить и лизгинку, и народные мелодии Ливии, Сирии и т.п. Никаких ограничений в репертуаре. Впрочем, если надоест слушать современные мелодии, солист ансамбля, подыгрывая себе на кифаре, споет вам что-нибудь из Гомера или Виргилия.
Вход на Флибусту абсолютно бесплатный. Только выйти оттуда достаточно сложно. Кругом болота – погрязнуть в них –ничего не стоит.
ЗЫ: на Либрусеке
Отв: Мастер-класс по сканированию
Мать... мать... мать... - привычно откликнулось эхо. © поручик Ржевский.
Отв: Мастер-класс по сканированию
Вы немного не в теме ;)
Вы наверно, не слышали о сканировании в DjVu без потерь. Удивительно, но факт! Я уже об этом писал, так что принимайте очередной боян [:]|||[:]
В программе DjVuExpressEditor есть разные профили кодирования DjVu. Большинство из них с потерями, но есть один профиль, который называется фотография, так вот, в этом профиле TIFF кодируется без потерь, а DjVu при этом занимает меньше места, чем TIFF и/или JPEG.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Вот только про GIF не надо тут ля-ля
Я вот, когда сохраняю в GIF, мне Paint сразу предупреждение:
Цитата не точная, но смысл такой. И действительно, цвет делается 8-битным, картинка ухудшается, многие цвета имитируются разным цветом рядом стоящих пикселов.
Отв: Мастер-класс по сканированию
Это так да не так. По сути DjVu как раз изначально сделан для книг. Изображение обрабатывается и разделяется на слоя, у каждого слоя в зависимости от особенностей выбирается свой тип компрессии. Т.е. для контрастного текста идет компрессия без потерь, для фона - с потерями, какие-то участки становятся однобитными, какие-то остаются 24-битными. Что позволяет получить очень маленький объем при максимальной сохранности оригинала. Кстати, в PDF какое-то время тоже научились делать подобные трюки.
В целом я с вами согласен, просто хочу стать на защиту отличного DjVu. Кстати, него есть еще OCR Layers, т.е. текст местами может быть распознан и идти поверх оригинального оформления.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Короче, нету там Светличков-Близненцов.djvu
Хотя есть вероятность, что есть, но только для украинцев, а меня из России просто не пускает.
Отв: Мастер-класс по сканированию
Грабли заметны на 11-й странице, например.
Отв: Мастер-класс по сканированию
А что, именно эта книга нужна? Можно поискать.
Книга с "Читанки". Книг там много, но хоть бери и пересканируй.
IMXO такую детскую литературу в Djvu хранить не стоит. Потом ничего не переделаешь. Но с другой стороны... Сканы занимают столько места... И сильно не ужмешь. Свои храню в JPG 60%, и то выходит от 1 до 3 метров на страницу. А в TIFF цветные - есть и 25 метров.
Страницы