Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 5 часов
sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 день aldan RE:Подайте бедному копеечку на книжку с литреса... 1 день larin RE:абонемент не обновлен 2 дня sem14 RE:За иллюминатором (серия) - чего не хватает? 5 дней sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 5 дней sem14 RE:Серия книг «Судьбы книг» издательства «Книга» 5 дней Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 неделя larin RE:Пропал абонемент 1 неделя tvv RE:DNS 2 недели MrMansur RE:<НРЗБ> 2 недели Stager RE:Беженцы с Флибусты 3 недели Tramell RE:Серия "Библиотека французской литературы" (Макбел) 3 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 недели sem14 RE:Современная корейская литература. Книжная серия... 3 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 1 месяц sem14 RE:«Юмористическая серия» 1 месяц Впечатления о книгах
Sello про Санд: Том 1. Индиана. Валентина (Классическая проза, О любви)
17 01 В пятнадцать лет, читая Санд, испытывал другие чувств: все казалось внове и интересным. Ныне замечаешь то, на что в прошлом и внимания не обратил бы: что же главных героев, по-родственному между собой связанных, писательница ………
Дей про Чернованова: Повелитель тлена [СИ] (Детективная фантастика, Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
16 01 Неоднозначное впечатление. Сначала мрачновато и страшновато, но в итоге нормальная целостная картина получилась. И наконец-то хоть одна ГГ дамского романа среди алчущих её внимания выбрала нормального, что большой плюс автору. Оценка: отлично!
udrees про Шиленко: Искатель - 3 [СИ] (Фэнтези, Эротика, ЛитРПГ, Самиздат, сетевая литература)
16 01 В целом написано просто, но увлекательно про приключения в мире литРПГ – Валинор. В гарем героя добавляется кошко-девочка. Для этого в книге выделена одна иллюстрация, описывающая еще одну пассию. Книга обильно сдобрена ……… Оценка: плохо
udrees про Морале: Проклятье, с*ка! Книга 5 (Городское фэнтези, Самиздат, сетевая литература)
16 01 Хмм, заключительная книга про приключения парня с проклятиями. Правда расхождение по способностям первой книги и последней колоссальное. В пятой книги проклятиями он наверное совсем не пользуется, да и противники у него сплошь ……… Оценка: плохо
udrees про Володин: Газлайтер. Том 3 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
16 01 Могу сказать, что неплохое продолжение истории. Написано конечно просто, описания скудные, очень много времени уделено гаремнику, но в целом читается достаточно легко и интересно. Сюжет тоже не дает пока заскучать. У автора ……… Оценка: хорошо
udrees про Атаманов: Стратег из ниоткуда (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
16 01 Автор пиши еще. Книга очень захватывающая, в жанре попаданца. Введение как водится, короткое, я даже сначала думал, начало будет как у Эдмонда Гамильтона про город, который провалился в будущее. Но тут мир фэнтезийный, и хоть ……… Оценка: отлично!
udrees про Мантикор: Покоривший СТЕНУ 20: Истинный враг (Боевая фантастика, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
16 01 Хорошее повествование, главный герой-друид все продолжает движение вниз по Стене. На сей раз большую часть книги занимает выход из ловушки Оазиса, кажущийся логически невозможным. Персонаж собственно переигрывает систему, ……… Оценка: отлично!
Oleg68 про Карризи: Дом голосов [La casa delle voci ru] (Триллер, Детективы: прочее)
15 01 Это, точно, не детектив. Скорее всего,- это психологическая драма. Сюжет интересный, но затянутый. Оценка: неплохо
Stager про Курилкин: Звезданутые [СИ] (Космическая фантастика, Попаданцы, Юмористическое фэнтези, Самиздат, сетевая литература)
12 01 Детский сад - штаны на лямках. Жаль, что хорошая идея бездарно изложена. Жаль, что у современных авторов главный герой - лжец и торгаш. Ну а грамматические ошибки и уверенность автора, что муравьи плюются - так кого ныне удивишь дремучестью? Оценка: неплохо
mysevra про Китаева: Вдова колдуна (Фэнтези)
12 01 Какая милая история! Вывод: открой пошире глаза – десять лет могла быть счастлива, а она превозмогала. Оценка: хорошо
mysevra про Гравицкий: В зоне тумана (Боевая фантастика)
12 01 Я не для того читаю про Зону, чтобы окунуться в «тонкий» психологизм и душевную драму, этого в жизни хватает. Мне действие подавай и загадки, побольше загадок. Так что книга не зашла. Оценка: неплохо
mysevra про Сорокин: Смерть со школьной скамьи (Полицейский детектив)
12 01 Хотелось бы чего-то кроме описания личной жизни главного героя и особенностей социалистического строя. Где собственно заявленный «детектив»? Мало, мало. Оценка: неплохо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня на памяти только 3 часто встречающихся варианта с "ф":
фоб -гроб
неф - негр
фаната - граната
Отв: Типичные ошибки распознавания - собираем статистику ...
фазу - сразу
Отв: Типичные ошибки распознавания - собираем статистику ...
А если рядом получаются Ь или Ы и любая специфическая буква кириллицы - то тоже крах. : типа -ьф, -шь, -ьш, итд..
Отв: Типичные ошибки распознавания - собираем статистику ...
угу, бьш и бьша у меня просто фавориты из последнего скана.... (был и была)
Отв: Типичные ошибки распознавания - собираем статистику ...
Самая безнадега в распознавании дореформенной орфографии. А Файны всё хвалятся...
Отв: Типичные ошибки распознавания - собираем статистику ...
Как раз сейчас делаю книжку с дореформенной орфографией. Ошибок не больше, чем при обычном скане. Все ошибки типичны и исправляются обычным "Изменить на...".
Отв: Типичные ошибки распознавания - собираем статистику ...
Вам повезло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не сказал бы, что все так страшно. Дореформенные книги FR9 распознаются вполне на уровне. Яти, фиты, еры и прочее распознаются на ура.
С дореформенными сложность скорее возникает в правке орфографии. Впрочем от скрипта чистящего старую орфографию я бы тоже не отказался бы.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипту совершенно по барабану правила любого языка. Что напишут - то и будет искать
Так что набрасывайте примеров косяков из старой орфографии и пользуйтесь )
Отв: Типичные ошибки распознавания - собираем статистику ...
есть такакая прога ocr pad
статистика там большая вроде
но как её взять не знаю
Отв: Типичные ошибки распознавания - собираем статистику ...
. 1/1 -> . И
Отв: Типичные ошибки распознавания - собираем статистику ...
пропустил своп, (хотя это свои) пропустил па (на) , пропустил слово просплп ( просили)
малень– кой ( маленькой) Поляиовке ( Поляновке ) Дем?нтий (Дементий) M це иске ( Mценске ) поляновски? (поляновские) до– черьми (дочерьми) Лйя (Лия) втот (этот) втот (этот) ваписка (записка) втот (этот) стоа (стон ) Ht (ж) їдейственная (единственная) обрывкн (обрывки) маркиэка (маркизка)
Отв: Типичные ошибки распознавания - собираем статистику ...
В каждой книжке есть свои заморочки.
"Малень- кой", "до- черьми" - не распознан знак переноса.
"Дем?нтий" - скорей всего буква вместо вопросительного знака стояла под ударением.
Надо ли всё это включать в общий скрипт?
Отв: Типичные ошибки распознавания - собираем статистику ...
Стоит включить "- ".
"?" в середине слова ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
"- " вроде тоже ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Часто встречаю: "ведено" вместо "велено", "юнкере" вместо "юнкерс" (второй, вероятно, родственник "Тайме").
Отв: Типичные ошибки распознавания - собираем статистику ...
Внесены добавки в скрипт, согласно многим вашим комментам...
На всякий случай уточняю, что скрипт только ищет подозрительные места, и ничего автоматом не заменяет, во избежание...
Любую строчку можно поправить или отключить, (стерев полностью или закомментировав ее с помощью // )
Не получается запостить корректно все строки скрипта, поэтому просто дам ссылку на обновленную версию:
http://narod.ru/disk/3209760001/Poisk_po_naboru_regexpov_TaKir_2_6.rar.html
Если какие-то еще явные косяки кто вспомнит-придумает - прошу отзываться.
Также прошу комментировать неправильную работу поиска, если такая проявится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сегодня опять "дошлифовала" твоим скриптом новый файл. И это снова повод сказать - огромное спасибо.

Твой скрипт вошёл в число обязательных.
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь. Прицепил этот скрипт на F4. Теперь это одна из «любимых» клавиш.
Отв: Типичные ошибки распознавания - собираем статистику ...
Решил попробовать...
Сразу же несколько вопросов:
Скрипт действует только до первого сомнительного места? Чтобы продолжать, его надо снова включать?
Застрял на слове "хозяин". Сочетание "яи" оказалось слишком частым, и меня это стало раздражать.
Почему-то скрипт останавливается на кавычках - «. Они что, тоже записаны в сомнительные символы?
Частица "б" в текстах используется часто. Надо ли ее включать в скрипт?
А вот что еще можно включить, так это однобуквенные предлоги и частицы с последующей запятой, типа: "в," "б," "о,".
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоже показывает только «, яи и ). Щелкаю минут пять уже и ничего пока другого. :)
Чуть позже:
Находит, кое что, все-таки. Можно пользоваться.:)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я пользуюсь предыдущей версией. Никаких "яи" и прочего упомянутого не заметила.
Может, дело в этом?
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласен, остановки на словах типа «хозяин» несколько раздражают, но никто ведь не мешает убрать из скрипта соответствующую строчку.
А вот если бы он еще и обучался по ходу дела, вообще бы цены не было.
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипте надо поправить соответствующие строки:
1) чтобы не искало кавычку в начале строки, строку:
addRegExp("^[\]».,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
заменить на:
addRegExp("^[-\\]».,:;!\?·)(]","","Найдено:знаки препинания в начале строки");
2) поправить "хозяина", чтобы не мешал ))
tagRegExp("(яи)[а-м,о-я]","i","Найдено: часть слова \"яи\" (\"ян\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Чтобы не экранировать кавычки (т.е. не ставить рядом с ними слэш), можно снаружи аргумента функции написать одинарные кавычки:
tagRegExp("(?<![а-яё])ке(?![а-яё])","i",'Найдено: слово "ке" ("не" с опечаткой).');
Так исходник скрипта, наверное, будет читаться приятней.
Отв: Типичные ошибки распознавания - собираем статистику ...
Sclex:
Ага, спасибо!
А как все же задать начало или конец слова при поиске в ФБЕ?
стандартные варианты типа >, <, \b что-то не хотят у меня работать...
Отв: Типичные ошибки распознавания - собираем статистику ...
\b работает, но только для английских букв. Ничего лучше, чем (?<![а-яёa-z]), предложить не могу.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Где можно взять Ваш скрипт? И как его использовать? Извините, я с такими вещами не сталкивался и проверял проверкой правописания.
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще ФР часто разрывает аббревиатуры типа "ССС Р"
Отв: Типичные ошибки распознавания - собираем статистику ...
В последнее время книжках в трех с обилием курсива массово встречалось распознавание "рк" вместо "уж"...
Не придумал, как массово контролировать.:(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отличный скрипт! Сам все собирался написать что-то вроде этого, но...
TaKir-у респектище!!! Человек-гигант!
По скрипту: я себе добавил еще вот это:
tagRegExp("(?<![а-яё])мыс(?![а-яё])","i","Найдено: слово \"мыс\" (\"мы с\" с опечаткой).");
tagRegExp("(?<![а-яё])ноты(?![а-яё])","i","Найдено: слово \"ноты\" (\"но ты\" с опечаткой).");
tagRegExp("(?<![а-яё])нотам(?![а-яё])","i","Найдено: слово \"нотам\" (\"но там\" с опечаткой).");
tagRegExp("(?<![а-яё])ода(?![а-яё])","i","Найдено: слово \"ода\" (\"о да\" с опечаткой).");
tagRegExp("(?<![а-яё])яс(?![а-яё])","i","Найдено: слово \"яс\" (\"я с\" с опечаткой).");
tagRegExp("(?<![а-яё])яв(?![а-яё])","i","Найдено: слово \"яв\" (\"я в\" с опечаткой).");
tagRegExp("(?<![а-яё])атак(?![а-яё])","i","Найдено: слово \"атак\" (\"а так\" с опечаткой).");
tagRegExp("(?<![а-яё])итак(?![а-яё])","i","Найдено: слово \"итак\" (\"и так\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё])гак(?![а-яё])","i","Найдено: слово \"гак\" (\"так\" с опечаткой).");
tagRegExp("(?<![а-яё])гут(?![а-яё])","i","Найдено: слово \"гут\" (\"тут\" с опечаткой).");
tagRegExp("(?<![а-яё])тог(?![а-яё])","i","Найдено: слово \"тог\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])гот(?![а-яё])","i","Найдено: слово \"гот\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])еше(?![а-яё])","i","Найдено: слово \"еше\" (\"еще\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Обычно прилипшие тире чистятся скриптом "генуборка", но не все варианты (спасибо shokons за подсказку).
Добавка в скрипт "Поиск по набору регэкспов", автор Sclex для тех случаев, которые генуборка не исправляет:
прилипшие тире:
addRegExp("[A-Za-zА-яЁё][—]","","Найдено: прилипшее тире в конце и середине слова");
addRegExp("[—][A-Za-zА-яЁё]","","Найдено: прилипшее тире в начале и середине слова");
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно.
Грецию -> Грешно
Польши -> Полыни
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно - это только у меня при OCR окончание сти превращется в трейд марк на конце - вместо "сущности" получаем "сущностм
а что есть за tagRegExp? Это в каком редакторе? Я пользуюсь FBE 2.6
Отв: Типичные ошибки распознавания - собираем статистику ...
Я думаю, что это скорее всего, сущности
У меня тоже бывает, когда некоторые буквы распознаются как будто бы они были в верхнем индексе, хотя на самом деле на скане ничего подобного не было. Возможно, тут виноват перекос скана.(Сканировщик сканировал страницу под углом, который FR не смог распознать). Иногда из-за перекоса текст становится курсивным.
Отв: Типичные ошибки распознавания - собираем статистику ...
В принципе можно добавить
tagRegExp("[а-яёa-z]< sup>[а-яёa-z]+?< /sup>|< sup>[а-яёa-z]+?< /sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]< sup>[а-яё]+?< /sup>|< sup>[а-яё]+?< /sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("< sup>[а-яёa-z]+?< /sup>[а-яёa-z]|[а-яёa-z]< sup>[а-яёa-z]+?< /sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< sub>[а-яёa-z]+?< /sub>|< sub>[а-яёa-z]+?< /sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]< sub>[а-яё]+?< /sub>|< sub>[а-яё]+?< /sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("< sub>[а-яёa-z]+?< /sub>[а-яёa-z]|[а-яёa-z]< sub>[а-яёa-z]+?< /sub>","","Найдено: нижний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< strong>[а-яёa-z]+?< /strong>|< strong>[а-яёa-z]+?< /strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]< strong>[а-яё]+?< /strong>|< strong>[а-яё]+?< /strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("< strong>[а-яёa-z]+?< /strong>[а-яёa-z]|[а-яёa-z]< strong>[а-яёa-z]+?< /strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("(ыи)","i","Найдено: часть слова \"ыи\" (\"ьш\" с опечаткой).");
--------------------------------
Вот только не знаю - будет ли скрипт тормозить из-за увеличения кол-ва выражений?
Я себе поставил - вроде изменения скорости визуально не заметил, а специально мерить неохота )))
Кстати - по поводу тире.
А где-нибудь нужно, чтобы тире "прилипало" к слову? (текст— текст )
Если нет ( а я так и не вспомнил - где нужно ) то можно регеспом массово: (текст — текст )
([а-яё\d"».,)])([—])(\s)
в замену: $1 — $3
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет это именн превращение в тм!
оставлености получилось оставленное™
захваченности получилось захваченное™
Отв: Типичные ошибки распознавания - собираем статистику ...
Неоднократно тоже встречал такое в ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
А где теперь дополнение? У меня поход по ссылека приводит к
SearchWithRegexpSet_v21.rar (3.2 КБ)
Файл удален.
Отв: Типичные ошибки распознавания - собираем статистику ...
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384/e200b7b6f319c4c8
Актуальная на сегодня версия - 2.7.
Скрипт "Поиск по набору регэкспов v2.7":
Скачать:
http://rghost.ru/3955874
или
http://scripts.fictionbook.org/files/SearchWithRegexpSet_v27.rar
Напоминаю, что исходный скрипт не содержит поисковых строк. Их надо скопировать из старой версии, которой вы сейчас пользуетесь и закомментарить следующую строку:
addRegExp("","i","Задайте список регэкспов, отредактировав скрипт в текстовом редакторе (кодировка UTF-8). Инструкция – в скрипте.");
Ускорена работа скрипта.
Теперь у функций addRegExp и tagRegExp появился пятый параметр:
ограничение на длину строки, которую могут находить конструкции просмотра назад, т.е. (?<= ...) и (?
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, почему-то не отражаются теги. Поставлю пробел после угловой скобки
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это мой вариант ( со всеми здешними дополнениями) http://ifolder.ru/upload/?session=e304e600145a5b151f77b967e9ab7b2a
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо..
Страницы