Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
macs1112 RE:Подайте бедному копеечку на книжку с литреса... 2 дня
medved RE:Предупреждение: "зеркала" флибусты 5 дней Isais RE:Соседи 1 неделя babajga RE:Как сова отправилась в отпуск 1 неделя Саша из Киева RE:Горящие паруса 2 недели Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 3 недели commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 1 месяц Саша из Киева RE:Книги на латышском языке 1 месяц stevecepera RE:Список современных французских писателей? 1 месяц etorus2008 RE:Отв: Помогите найти книгу по описанию 2 месяца lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 2 месяца Wedmak RE:Помогите найти!.. #2 2 месяца sem14 RE:Координация сканирования и вычитки 2 месяца babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца Isais RE:Мои открытия 2 месяца kopak RE:О группе Дятлова. О той самой, того самого... 2 месяца Впечатления о книгах
Green Bug про Ланцов: Железный лев (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
06 07 Марти Сью пополам с политической пропагандой. Как по мне, не стоит читать даже если за это будут платить. Оценка: плохо
irukan про Виталий Семенович Макаренко
06 07 Воспоминания о Антоне Макаренко его брата. Молодой Макаренко оставляет неприятное впечатление: эгоизм, нарциссизм, социальная глухота. Совершенно не тот человек, которого мы видим в «Педагогоческой поэме». Но ведь смог же ………
udrees про Панчин: Защита от темных искусств. Путеводитель по миру паранормальных явлений (Научная литература: прочее, Научпоп)
04 07 Очень хорошая книга, развенчивающая много мифов, витающих вокруг сверхъестественных способностей, врачевания, магии, астрологии, предсказаний и прочего прочего. Множество чудес опровергается или подвергается справедливому ……… Оценка: отлично!
udrees про Вальтер: Мерцающий город (Боевая фантастика, Самиздат, сетевая литература)
04 07 Как-то слабовато получилось. Очередной попаданец, ну и еще куча людей вместе с ним, проваливаются во времени в какой-то мир динозавров. А динозавры организованно атакуют поселение людей. В общем и вся завязка. Все смахивает ……… Оценка: плохо
udrees про Вальтер: Жажда III [СИ] (Боевая фантастика, Триллер, Постапокалипсис, Самиздат, сетевая литература)
04 07 Хорошее продолжение серии про войну людей и вампиров, теперь еще приправленную вмешательством иных цивилизаций. Из-за этого поворот сюжета в конце книги становится радикальным, все переворачивается с головы на ноги. Главный ………
mysevra про Александрова: Амулет сибирского шамана (Детективы: прочее)
04 07 Ни детектива, ни особого триллера, больше похоже на женскую прозу – качественную, с загадочными событиями, но я надеялась, что будет поживее. Оценка: неплохо
mysevra про Парнов: Ларец Марии Медичи (Полицейский детектив, Исторический детектив)
04 07 Хорошая вещь, очень уютное описание, столько всего нового-интересного. Правда, хотелось бы чуть больше динамики.4 Оценка: хорошо
mysevra про Бобылёва: Наш двор (Ужасы)
04 07 Язык изложения – не оторвёшься. Занятные оригинальные истории, есть жутенькие, есть и просто грустные. Финал порадовал. Оценка: отлично!
Лысенко Владимир Андреевич про Усманов: Шутки богов. Поспешное решение (Боевая фантастика, Героическая фантастика)
03 07 Еле прочитал десяток страниц, дальше не смог. Оценка: неплохо
dimaeg про Проект «Ковчег»
03 07 Люблю читать произведения автора, но это серия самая худшее издание автора.
dimaeg про Регрессор в СССР
03 07 Раздражает главный герой, чуть что сразу плакать. ГГ мой ровесник, ну не видел я таких плакс в то время и восторженные дебилизм главного героя раздражает. Пытаюсь уже 4 или 5 раз начать читать 2 том и бросаю.
Wik@Tor про Порошин: Гость из будущего. Том 1 [СИ] (Юмор: прочее, Самиздат, сетевая литература)
02 07 Неинтересная сказка про вора из будущего Оценка: плохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.