Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 1 час
Aliki RE:Подайте бедному копеечку на книжку с литреса... 5 часов Isais RE:Древняя Греция. Читаем... 5 часов laurentina1 RE:Ирина Александровна Велембовская - Немцы 2 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 дней Саша из Киева RE:Избранное 1 неделя Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 2 недели kopak RE:Таинственная личность админа Флибусты 2 недели blahblahblah2024 RE:Беженцы с Флибусты 2 недели sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 2 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 4 недели Oleg V.Cat RE:B343695 Александр. Книга 1 1 месяц Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц Впечатления о книгах
Isais про Крылова: Сказки Деда Мороза (Сказка, Самиздат, сетевая литература)
01 12 На Либрусеке нет тэга "Творчество умственно отсталых графоманов"? Только "Творчество душевнобольных"? Ради такого вот стоило бы завести... Оценка: нечитаемо
Iron Man про Ахмадулина: Свеча (Поэзия: прочее)
01 12 Из интервью с Беллой Ахмадулиной: «— Вы знаете, что останется от моих стихов? Останутся только... письма читателей. Своего литературного значения я никогда не преувеличивала. Я знаю, что была человеком своего времени и ………
S@iRus про Иноходец (Рымжанов)
01 12 У меня сложилось такое же впечатление, как и у Олега, о данной серии.
андрей169 про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
29 11 Забавная книга. Мне лично зашло хорошо. С продолжением обязательно ознакомлюсь. Оценка: хорошо
udrees про Баковец: Не тот господин 3 (Порно, ЛитРПГ, Самиздат, сетевая литература)
29 11 Книга строго для отдыха мозгов, тем кому нравится читать про влажные подростковые фантазии про гарем, воплощенные в реальность, и сексуальные подвиги, перемешанные с фэнтези. Герой настолько крут, что особо не заморачивается ……… Оценка: неплохо
udrees про Михайлов: Без пощады. Книга 3 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
29 11 Последняя книга из серии, но не последняя книга про месть киборга Вертинского. Написано в том же стиле, что и предыдущие книги. Описание во многом уделено экшену, поэтому всегда держит в тонусе, сражения, драки, убийства и ……… Оценка: отлично!
lukmak про Сочинения Иосифа Бродского в 7 томах
29 11 Бродский - гений. А кто его не понимает - что ж... Он непрост. Но, ребята, если вы его не понимаете - может, это ваша проблема?.. И пиндосы тут ни при чём.
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.