Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 1 час
Моржехрен RE:DNS 7 часов sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 11 часов MrMansur RE:<НРЗБ> 3 дня Stager RE:Беженцы с Флибусты 5 дней Tramell RE:Серия "Библиотека французской литературы" (Макбел) 5 дней sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sem14 RE:Современная корейская литература. Книжная серия... 1 неделя sem14 RE:Серия "Символы времени" издательства "Аграф" 2 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 2 недели sem14 RE:«Юмористическая серия» 2 недели larin RE:Оплатил. Абонемент не отображается 2 недели larin RE:Оплатил, но абонемент не отображается 3 недели alexk RE:Багрепорт - 2 1 месяц Isais RE:Семейственность в литературе 1 месяц Violontan RE:Жан Батист Мольер воскрешенный 1 месяц sem14 RE:Гонкуровская премия 1 месяц Саша из Киева RE:Приключения белочки Рыжки 1 месяц Впечатления о книгах
hocmun про Ливадный: Дорога к фронту (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 К сожалению автор скатился в чуть ли не обычную пропаганду замаскированую под лит рпг и аля попаданцы . все решат ... После такой шедевральной серии как ,,Истоирия галактики,, к этому ? Простите друзья но это путь почившего ……… Оценка: плохо
lorealke про Тен: Шайтан Иван. Книга 1 [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 Лютая графомания с чудовищной орфографией, от которой буквально вытекают глаза. Герой — картонный нагибато» в вакууме: и спецназовец, и певец, и оружейник, решающий любые проблемы щелчком пальцев одной левой. Сюжета нет, сплошное ……… Оценка: плохо
lorealke про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Типичная пропагандистская агитка. Мусор. Оценка: нечитаемо
Дей про Провинциалка в высшем свете
02 01 Существует ли хоть один детективно-любовный роман, в котором бы гг не была дурой? Влюбляется, как кошка - не успела уйти от одного (обманувшего её), как тут же увлеклась другим (пренебрежительно к ней относившемся), а потом ………
Лысенко Владимир Андреевич про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Все предсказуемо, только русские могут быть правы, а весь мир против них. Оценка: нечитаемо
Олег Макаров. про Васильев: По государеву указу (Городское фэнтези, Рассказ, Самиздат, сетевая литература)
02 01 Удивительно слабая вещь для Васильева. Или как будто "на отвяжись" написана. Оценка: плохо
Oleg68 про Иванов: Дебри (История, Публицистика)
31 12 Исторические зарисовки на тему Сибири от авторов Оценка: неплохо
tvv про Никитин: Вадбольский – 6 (Фэнтези, Попаданцы)
29 12 Лилия Никитина выложила этот роман на АТ с посвящением: Роман Юрия Никитина. Публикация приурочена ко дню рождения Автора. Уважаемые читатели, поклонники, друзья! Сегодня, в день рождения Юрия Александровича ………
mysevra про Кассе: Третья мировая психотронная война (Публицистика)
29 12 Предсказуемо: Штаты – колыбель зла, все остальные в белом, особенно некоторые. Наймиты империализма хотят захватить независимую Беларусь и свободную Северную Корею – это же шедевр советской передовицы. Ни один политический ……… Оценка: плохо
mysevra про Лондон: Сердца трех [Hearts of Three ru] (Классическая проза ХX века, Приключения)
29 12 Отличный приключенческий роман, поднимает настроение. Оценка: отлично!
mysevra про Ми   : Седьмой читатель [litres] [Seventh Reader ru] (Триллер)
29 12 Читать интересно благодаря нездешнему колориту. Необычно. Оценка: хорошо
Sello про Фель: Волки у дверей [Les Loups à leur porte ru] (Триллер)
29 12 Не знаю, чья тут бöльшая "заслуга" - автора, переводчика, или того и другого, но текст, похожий на информативный листок, переполненный детализацией каждого движения, причем порой прямо-таки чувствуется смакование, когда дело ……… Оценка: плохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.