Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день
Саша из Киева RE:Горящие паруса 3 дня Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 неделя commodore RE:Письма 2 недели Саша из Киева RE:Три минуты истории 2 недели nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 1 месяц Саша из Киева RE:Книги на латышском языке 1 месяц stevecepera RE:Список современных французских писателей? 1 месяц etorus2008 RE:Отв: Помогите найти книгу по описанию 1 месяц lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 месяц Wedmak RE:Помогите найти!.. #2 1 месяц sem14 RE:Координация сканирования и вычитки 1 месяц babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца Isais RE:Мои открытия 2 месяца kopak RE:О группе Дятлова. О той самой, того самого... 2 месяца A5. RE:Не присылает пароль на почту 2 месяца babajga RE:Плюмаж 2 месяца babajga RE:Блошкинс и Фрю. Опасное путешествие 2 месяца Впечатления о книгах
Drangool про Шайтан Иван
20 06 Идея не нова, текст на уровне ученика 5 класса. Осилил треть первой книги, далее не смог. Автор, научись нормально выделять диалоги в соответствии с правилами русского языка.
udrees про Лей: Выжившие [СИ] (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
20 06 Кому нравится сюжет про выживание в мире когда начался зомби-апокалипсис, книга наверное зайдет. Главные герои не супермены, но с оружием обращаться умеют, страйкболисты, так что шанс выжить умеют. Но конечно психологически ……… Оценка: хорошо
udrees про Вальтер: Я должен её найти 2 (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
20 06 Мир напоминает чем-то мир Каменистого Артему – STICKs, только примитивнее. Сама книга написана достаточно примитивно, автор спешил уложить все приключения в одну книгу. Герои все одинаковые в ином мире – бродяги, алкоголики, ……… Оценка: неплохо
udrees про Вальтер: Жажда [СИ] (Боевая фантастика, Триллер, Постапокалипсис, Самиздат, сетевая литература)
20 06 Хорошая книга про пост-апокалипсис, только не с зомби, а вампирами. Автор ничего не стал нового выдумывать – просто в одну ночь одна часть переродилась в вампиров и напала на другую часть людей. Главный герой хоть не супермен, ……… Оценка: хорошо
udrees про Зандер: Королева праха и боли [litres] (Ужасы, Фэнтези, Любовная фантастика, Попаданцы)
20 06 Вторая книга порнографического романа про связь женщины и дьявола – бессмертного существа, повелевающего мертвыми. В этой связи все сцены в книге замешаны на некрофилии, раз секс происходит с мертвой женщиной. Можно оценить ……… Оценка: неплохо
FVlad про Дэвид Гриннэл
20 06 Нужно его объединить с http://lib.rusec.net/a/316447. Это тот же автор - https://fantlab.ru/work226289
Lan2292 про Богдашов: Реинкарнация архимага (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
20 06 Скучновато, без огонька, не стала дочитывать. Оценка: неплохо
alexk про Роллинс: Павшая луна: комплект из 2 книг [сборник litres] (Героическая фантастика, Фэнтези)
19 06 Можете мне объяснить, зачем сюда тащить литресовские "комплекты из двух книг"? это же то же самое, что здесь лежит по отдельности.
Олег Макаров. про Номен: Внучь олегарха (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
18 06 > Почему олЕгарх, не понимаю в упор а читать не пробовали? там на первых же страницах объясняется ("Ну а так как по паспорту его звали все же Олег Архипов, то совершенно естественно все в городе его иначе, как «олегархом» ………
ProstoTac про Номен: Внучь олегарха (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
18 06 Почему олЕгарх, не понимаю в упор. Либо идиотский прокол автора, либо нечто, что автор поленился объяснить. Но глаз режет непадецки.
Lena Stol про Борзых: Жрец Хаоса. Книга I (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
17 06 Понравилось, интересное фэнтези, сюжет не отпускает до самого конца, а конец такой, что надо обязательно прочитать продолжение. Оценка: хорошо
mysevra про Тулуб: Людолови (Том 2) [uk] (Историческая проза)
15 06 Пам’ятаю, як вперше побачила цю книжку в дитинстві на полиці батьківської шафи. Назва була така моторошна, так лоскотала уяву! Але зовсім не про те, на що я сподівалася:) Власне книжка розкішна, особливо перший том. Величне ……… Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.