Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 2 дня
Саша из Киева RE:Горящие паруса 4 дня Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 неделя commodore RE:Письма 2 недели Саша из Киева RE:Три минуты истории 3 недели nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 1 месяц Саша из Киева RE:Книги на латышском языке 1 месяц stevecepera RE:Список современных французских писателей? 1 месяц etorus2008 RE:Отв: Помогите найти книгу по описанию 1 месяц lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 месяц Wedmak RE:Помогите найти!.. #2 1 месяц sem14 RE:Координация сканирования и вычитки 1 месяц babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца Isais RE:Мои открытия 2 месяца kopak RE:О группе Дятлова. О той самой, того самого... 2 месяца A5. RE:Не присылает пароль на почту 2 месяца babajga RE:Плюмаж 2 месяца babajga RE:Блошкинс и Фрю. Опасное путешествие 2 месяца Впечатления о книгах
Лысенко Владимир Андреевич про Аzнеп: Вагнер. Дорога на Бахмут. 300! 30! 3! (О войне)
21 06 У наемников нет Родины, только бабки, им все равно кого убивать, лишь бы платили. Оценка: нечитаемо
trampak про Хоскинг: Россия: народ и империя, 1552–1917 [Russia: People and Empire, 1552–1917 ru] (История)
21 06 Сам себя не похвалишь - день зря прошёл. "Величайшей в истории" ну-ну.Вот оригинальная аннотация английского издания:Знаменитая книга Джеффри Хоскинга дает нам новую призму, через которую можно рассматривать русскую историю, ………
mysevra про Рампо: Чудовище во мраке (Классический детектив)
21 06 Прелесть какая! Есть фильм с Бенуа Мажимелем, адаптированная для западных людей версия, но мне она показалась более прямолинейной и грубой. К тому же в ней нет таких диковинок, как, например, восхищение чувственностью красных ……… Оценка: отлично!
mysevra про Гранже: Обещания богов (Полицейский детектив, Триллер, Детективы: прочее)
21 06 Прочитала запоем, очень необычная подача. Предвоенная паранойя и люди, ещё не отошедшие от последствий первой войны – тревожно-будоражащее впечатление, зато книга не оставляет равнодушной. Никогда не задумывалась, а как себя ……… Оценка: отлично!
mysevra про Дивов: Ночной смотрящий (Фэнтези)
21 06 Выразительный язык, яркие персонажи. Возможно, перебор с чернушным натурализмом и бытовухой. В общем, если вы ждёте привычного романтического взгляда на вампиризм, то лучше читайте Вампирские хроники Райс или Киндрэт. Оценка: отлично!
Drangool про Шайтан Иван
20 06 Идея не нова, текст на уровне ученика 5 класса. Осилил треть первой книги, далее не смог. Автор, научись нормально выделять диалоги в соответствии с правилами русского языка.
udrees про Лей: Выжившие [СИ] (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
20 06 Кому нравится сюжет про выживание в мире когда начался зомби-апокалипсис, книга наверное зайдет. Главные герои не супермены, но с оружием обращаться умеют, страйкболисты, так что шанс выжить умеют. Но конечно психологически ……… Оценка: хорошо
udrees про Вальтер: Я должен её найти 2 (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
20 06 Мир напоминает чем-то мир Каменистого Артему – STICKs, только примитивнее. Сама книга написана достаточно примитивно, автор спешил уложить все приключения в одну книгу. Герои все одинаковые в ином мире – бродяги, алкоголики, ……… Оценка: неплохо
udrees про Вальтер: Жажда [СИ] (Боевая фантастика, Триллер, Постапокалипсис, Самиздат, сетевая литература)
20 06 Хорошая книга про пост-апокалипсис, только не с зомби, а вампирами. Автор ничего не стал нового выдумывать – просто в одну ночь одна часть переродилась в вампиров и напала на другую часть людей. Главный герой хоть не супермен, ……… Оценка: хорошо
udrees про Зандер: Королева праха и боли [litres] (Ужасы, Фэнтези, Любовная фантастика, Попаданцы)
20 06 Вторая книга порнографического романа про связь женщины и дьявола – бессмертного существа, повелевающего мертвыми. В этой связи все сцены в книге замешаны на некрофилии, раз секс происходит с мертвой женщиной. Можно оценить ……… Оценка: неплохо
FVlad про Дэвид Гриннэл
20 06 Нужно его объединить с http://lib.rusec.net/a/316447. Это тот же автор - https://fantlab.ru/work226289
Lan2292 про Богдашов: Реинкарнация архимага (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
20 06 Скучновато, без огонька, не стала дочитывать. Оценка: неплохо |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?