Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Прошу переформатировать, распознать, etc... 3 дня
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 неделя konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 неделя fixel RE:Пропал абонемент 1 неделя sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 3 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 4 недели sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:абонемент не обновлен 2 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 2 месяца sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 месяца Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца tvv RE:DNS 2 месяца Впечатления о книгах
valeryma про Савицкий: Идеальный танк для «попаданцев» (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
27 03 Очередной поток бессознательного от знаменитого на весь жанр альтернативной истории ресурса "В вихре говна". Редкостное убожество, которому до шедевров Поселягина - как до Луны пешком. Оценка: нечитаемо
Barbud про Шопперт: Польская карта [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
25 03 Автора отличает какая-то лютая, пещерная полонофобия. Создается впечатление, что над ним в детстве-юности поляки надругались, вот он теперь и мстит им всем таким образом) Оценка: нечитаемо
Александр Лагода про Амлинский: Тучи над городом встали (Советская классическая проза)
24 03 В числе того, что следует прочесть из военной прозы -- эта повесть. Читая, дышите глубже.
nik_ol про Полякова: Племя Майи (Детективы: прочее)
24 03 На Флибусте уже давно лежит новая книга, а тут почему нет? Правда, я уже прочитала, и рада, что дело Татьяны продолжает Анна, люблю Полякову и очень оггорчилась, когда та скончалась. Оценка: отлично!
mysevra про Нэйлер: Гора в море [litres] (Научная фантастика)
23 03 Как по мне, маловато триллера и слишком много размышлений о природе сознания и экологии. Вот всё то же самое, только поживее – было бы интереснее. Оценка: неплохо
mysevra про Карризи: Воспитание бабочек [L'educazione delle farfalle ru] (Триллер, Детективы: прочее)
23 03 Пока всё, что читала у этого автора, на уровне. Замечательный полёт фантазии и умение плести интригу. Оценка: отлично!
mysevra про Иванов: Вегетация (Киберпанк, Постапокалипсис)
23 03 Приятный язык, и события присутствуют. Но до чего же унылый и угнетающий мир описан в книге. Конечно же, понравилось, но хотелось бы больше драйва и лёгкости. Оценка: отлично!
udrees про Джадсон: Каждой твари – по паре: Секс ради выживания (Биология, Научпоп)
21 03 Очень интересная научно-популярная книга, давно такой не читал, посвященная теме размножения и секса в дикой природе. Написана в живом и юморном стиле, в каждой главе начало показано как обращение какого-нибудь живого существа ……… Оценка: отлично!
udrees про Брукс: Лелит Гесперакс: Королева Ножей [ЛП] (Эпическая фантастика)
21 03 Не очень люблю читать истории про темных эльдаров с их сумасшедшими загонами насчет пыток и постоянных убийств. Тут относительно небольшая история одной великой суккубы – Лелит, как всегда интрига с борьбой с потенциальной ……… Оценка: неплохо
udrees про Френч: Ариман: Вечный (Эпическая фантастика)
21 03 Читать истории про легионеров Тысячи Сынов немного сложновато из-за их погруженности в книги, заклинания и метания в паутинах варпа. Простых добрых сражений с мечом и болтером, как у других легионов, куда как меньше, и много ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 11 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 03 Как понятно из 10й книги, эта посвящена полностью войне с Китаем, империей Хань. Как и вся книга, которая предельно несерьезная, примитивная, то и война такая же несерьезная, как детская войнушка. На нее собираются совершенно ……… Оценка: неплохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.