Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
macs1112 RE:Подайте бедному копеечку на книжку с литреса... 2 часа
larin RE:абонемент не обновлен 21 час sem14 RE:За иллюминатором (серия) - чего не хватает? 3 дня sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 3 дня sem14 RE:Серия книг «Судьбы книг» издательства «Книга» 3 дня Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 5 дней sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 неделя larin RE:Пропал абонемент 1 неделя tvv RE:DNS 1 неделя MrMansur RE:<НРЗБ> 2 недели Stager RE:Беженцы с Флибусты 2 недели Tramell RE:Серия "Библиотека французской литературы" (Макбел) 2 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 недели sem14 RE:Современная корейская литература. Книжная серия... 3 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 4 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 4 недели sem14 RE:«Юмористическая серия» 4 недели larin RE:Оплатил. Абонемент не отображается 1 месяц Впечатления о книгах
Дей про Чернованова: Повелитель тлена [СИ] (Детективная фантастика, Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
16 01 Неоднозначное впечатление. Сначала мрачновато и страшновато, но в итоге нормальная целостная картина получилась. И наконец-то хоть одна ГГ дамского романа среди алчущих её внимания выбрала нормального, что большой плюс автору. Оценка: отлично!
udrees про Шиленко: Искатель - 3 [СИ] (Фэнтези, Эротика, ЛитРПГ, Самиздат, сетевая литература)
16 01 В целом написано просто, но увлекательно про приключения в мире литРПГ – Валинор. В гарем героя добавляется кошко-девочка. Для этого в книге выделена одна иллюстрация, описывающая еще одну пассию. Книга обильно сдобрена ……… Оценка: плохо
udrees про Морале: Проклятье, с*ка! Книга 5 (Городское фэнтези, Самиздат, сетевая литература)
16 01 Хмм, заключительная книга про приключения парня с проклятиями. Правда расхождение по способностям первой книги и последней колоссальное. В пятой книги проклятиями он наверное совсем не пользуется, да и противники у него сплошь ……… Оценка: плохо
udrees про Володин: Газлайтер. Том 3 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
16 01 Могу сказать, что неплохое продолжение истории. Написано конечно просто, описания скудные, очень много времени уделено гаремнику, но в целом читается достаточно легко и интересно. Сюжет тоже не дает пока заскучать. У автора ……… Оценка: хорошо
udrees про Атаманов: Стратег из ниоткуда (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
16 01 Автор пиши еще. Книга очень захватывающая, в жанре попаданца. Введение как водится, короткое, я даже сначала думал, начало будет как у Эдмонда Гамильтона про город, который провалился в будущее. Но тут мир фэнтезийный, и хоть ……… Оценка: отлично!
udrees про Мантикор: Покоривший СТЕНУ 20: Истинный враг (Боевая фантастика, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
16 01 Хорошее повествование, главный герой-друид все продолжает движение вниз по Стене. На сей раз большую часть книги занимает выход из ловушки Оазиса, кажущийся логически невозможным. Персонаж собственно переигрывает систему, ……… Оценка: отлично!
Oleg68 про Карризи: Дом голосов [La casa delle voci ru] (Триллер, Детективы: прочее)
15 01 Это, точно, не детектив. Скорее всего,- это психологическая драма. Сюжет интересный, но затянутый. Оценка: неплохо
Stager про Курилкин: Звезданутые [СИ] (Космическая фантастика, Попаданцы, Юмористическое фэнтези, Самиздат, сетевая литература)
12 01 Детский сад - штаны на лямках. Жаль, что хорошая идея бездарно изложена. Жаль, что у современных авторов главный герой - лжец и торгаш. Ну а грамматические ошибки и уверенность автора, что муравьи плюются - так кого ныне удивишь дремучестью? Оценка: неплохо
mysevra про Китаева: Вдова колдуна (Фэнтези)
12 01 Какая милая история! Вывод: открой пошире глаза – десять лет могла быть счастлива, а она превозмогала. Оценка: хорошо
mysevra про Гравицкий: В зоне тумана (Боевая фантастика)
12 01 Я не для того читаю про Зону, чтобы окунуться в «тонкий» психологизм и душевную драму, этого в жизни хватает. Мне действие подавай и загадки, побольше загадок. Так что книга не зашла. Оценка: неплохо
mysevra про Сорокин: Смерть со школьной скамьи (Полицейский детектив)
12 01 Хотелось бы чего-то кроме описания личной жизни главного героя и особенностей социалистического строя. Где собственно заявленный «детектив»? Мало, мало. Оценка: неплохо
Paul von Sokolovski про Алмазный: Казачонок 1860. Том 1 (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
11 01 Пока не впечатляет, это даже не вторично, а четвертично ( простите за термин:) надеюсь, автор распишется и сюжет и герои оживут. Будем ждать... Оценка: неплохо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Сайт группы по улучшению ФБЕ http://groups.google.com/group/fiction-book-editor
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Раньше пробовал его подключать на кнопку в панели инструментов - у меня почему-то пропали все подсказки в нижней области окна... - это я один такой не счастливый? Да, Вы забыли сказать - чтоб поместить любой скрипт в панель инструментов - нужно создать иконку с именем скрипта и поместить ее рядом со скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Насчёт иконки - вы правы, это нужно подчеркнуть.
Но скрипт можно и "подвесить" на hotkey. Я с этим именно так и сделала. Подсказки слева внизу - ОК.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну на многие скрипты есть штатные иконки, но таки да.
я пользуюсь версией ФБЕ 2.5 (2.6 у меня на ХР почему-то дико тормозит) А фича подсказки внизу экрана предусмотрена, ЕМНИП, только начиная с 2.6. Но я как-то привык уже без подсказок обходится )))
УПД. На кнопку в панели инструментов или панели скриптов?
Отв: Типичные ошибки распознавания - собираем статистику ...
Ошибся, да ставил на панель скриптов.
Так на работе стоит FBE 2.6 (Win XP) и если помещаю на панель, то подсказки пропадают... да ладно, эт не существенно.
Дома вынужден пользоваться FBE 2.5, т.к. в FBE 2.6 были проблемы с сохранением.
А на панель инструментов можно добавить допустим "Сохранить как" и "Заменить"?
Панель для редактирования доступна, но слева пусто...
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет. В перечне доступных их нет.
Но снова рекомендую Вам "горячие клавиши". Тем более, что для "заменить" есть уже по дефолту - Ctrl+H.
Для "Сохранить как..." тоже есть, но я, например, изменила на удобную для себя комбинацию.
Кстати, все комбинации можно увидеть рядом с пунктами меню. А изменить их можно, как уже писал Wotti, через "Сервис -- Настройки -- Клавиши". Там есть и "навигация", и "просмотр", и "редактировать".
Отв: Типичные ошибки распознавания - собираем статистику ...
golma1 Про комбинации клавиш в курсе, хоть я и старой закалки, мышка меня разбаловала ;) А что мешает увеличить список доступных команд в следующей версии?.. но это так, мысли вслух.
Отв: Типичные ошибки распознавания - собираем статистику ...
К сожалению SeNS очень занят в реале и развитие ФБЕ остановилось на v2.6. Улучшения сейчас происходят за счёт новых скриптов Sclex-а (и модернизации старых скриптов) и большой работы по наполнению и улучшению функции проверки орфографии, которую проводит Shaman.
Но задумки по улучшению самой программы, его функционала - есть. SeNS обещал, как минимум, сделать панель работы с иллюстрациями.
Как он сам сказал - Так что, еще раз: *пробуем найти программиста!*
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Ясно. Жаль, а ведь как все начиналось...
TaKir А когда будет готова Ваша версия скрипта "Поиск по набору регэкспов"? Спрашиваю не из праздного любопытства - собираю книжную серию и прогоняю скриптами...
Отв: Типичные ошибки распознавания - собираем статистику ...
А там Выше Roxana выложила - это и есть сборка всего появившегося в последнее время на основе регэкспов Такира.
Отв: Типичные ошибки распознавания - собираем статистику ...
golma1 Так это версия не от Такира, а от Roxana, а я спрашиваю Такира, где можно скачать его последнюю версию после "Скрипт__TaKir_24_01_2011.zip", если она есть конечно...
Отв: Типичные ошибки распознавания - собираем статистику ...
Хэх... Даже не знаю, что Вам ответить. В-)
Ну да ладно, Такир сам ответит, если сочтёт нужным. ;-)
Отв: Типичные ошибки распознавания - собираем статистику ...
Дело в том, что Такир и сделал этот блог, для возможности обсуждения и добавления скрипта.
Этот скрипт, ув отличии от остальных - имеет возможность индивидуальной настройки.
Версия Такира входит в первоначально выложенную версию скрипта. Она минимальна и послужила основой этой темы, обсуждения и добавления . Т/е версия Роксаны, Голмы, wotti, и др. являются просто расширенной версией Такира. Для некоторых книг, в зависимости от особенностей я добавляю пару строчек, для других - закрываю слэшами пару-тройку ненужных в данной книге регэспов.
в общем этот скрипт может меняться не только у каждого юзера, но и у каждого файла. Скрипт Такира - базовый. Остальное - надстройки.
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Все это понятно и я не спорю - у каждого пользователя свои настройки... Просто хотелось начать плясать от "расписной" печки, а не от "буржуйки". Вы можете выложить свои настройки?
Отв: Типичные ошибки распознавания - собираем статистику ...
Они у меня без пояснений, так как у меня стоит 2.5-версия в которой они не показываются, а выкладывать их я не планировал.
Вы скажите какие именно вам нужны регеспы и, многие из отметившихся здесь, с удовольствием вам помогут их написать. А как вставить их в свой скрипт я уже описал))
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще в копилку:
иди -> или
узе -> уж
пули -> пути
гам -> там
далее -> даже
Отв: Типичные ошибки распознавания - собираем статистику ...
фация - грация
узе -> уж
- отлично, можно сразу вставлять:
tagRegExp("(?<![а-яё])фация(?![а-яё])","i","Найдено: слово "фация" ("грация" с опечаткой).");tagRegExp("(?<![а-яё])узе(?![а-яё])","i","Найдено: слово "узе" ("уж" с опечаткой).");гам -> там тоже неплохо ( с некоторым допуском на ложные срабатывания)
tagRegExp("(?<![а-яё])гам(?![а-яё])","i","Найдено: слово "гам" ("там" с опечаткой).");А вот
далее -> даже
пули -> пути
имхо создадут кучу холостых выстрелов)))
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласна, но это как раз те случаи, которые можно отключать в зависимости от книги.
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Пояснения не актуально для меня - главное сочетания символов... - выложите, а там я разберусь и допишу подсказки... ;) Есть задумка свести данный топик воедино (может у Вас есть еще что добавить) и выложить здесь - для использования желающими...
Может кто в курсе - как реализовать поиск "... Слово" в начале параграфа?
(многоточие пробел Слово)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я обычно ищу в режиме source, без регэкспов:
"<p>... "Отв: Типичные ошибки распознавания - собираем статистику ...
RegExp
addRegExp("^[…] [а-я]","i","Найдено:многоточие в начале строки");Отв: Типичные ошибки распознавания - собираем статистику ...
s_Sergius Если их много, да лучше удалить их все с помощью "Поиск и замена" в текстовом режиме... Но зачастую таких косяков очень мало, как и авторов любящих начинать абзац с многоточия. И часто я просто забываю проверить многоточие в начале абзаца.
golma1 Спасибо, завтра попробую подключить эту напоминалку...
Отв: Типичные ошибки распознавания - собираем статистику ...
В первой же книге нашел много ошибок, оказывается мало кто проверяет знаки препинания:
[collapsed title=открыть]
addRegExp("[!?.,:;][…]","i","Найдено:троеточие после знаков препинания...");
addRegExp("[.,:;][,]","i","Найдено:возможно ошибка синтаксиса");
addRegExp("[,:;][.]","i","Найдено:возможно ошибка синтаксиса");
addRegExp("[а-яё!-?»] […]","i","Найдено:троеточие пытается убежать");
addRegExp("[…][!-?]","i","Найдено:знаки препинания... после троеточия");
addRegExp("[а-яё] но ","i","Найдено: НО после слова без запятой, либо нужно ПО");
[/collapsed]
Поправьте, если что не правильно, или можно что еще добавить...
Еще в скрипт от Roxana можно добавить:
[collapsed title=открыть]
tagRegExp("(?<![а-яё])тою(?![а-яё])","i","Найдено: слово "тою" ("того" с опечаткой).","",1);tagRegExp("(?<![а-яё])го(?![а-яё])","i","Найдено: слово "го" ("по или то" с опечаткой).","",1);tagRegExp("(?<![а-яё])ои(?![а-яё])","i","Найдено: слово "ои" ("он" с опечаткой).","",1);[/collapsed]
Отв: Типичные ошибки распознавания - собираем статистику ...
"гобой" --> "тобой"
tagRegExp("(?<![а-яё])гобой(?![а-яё])","i","Найдено: слово "гобой" ("тобой" с опечаткой).","",1);Из "найдено буквы в пробелах" убрала "б" - слишком часто встречается в тексте.
addRegExp("[\\x20\\xA0\\t\\n\\r\\f][г,д,е,ё,з,й,л,м,н,п,р,т,ф,х,ц,ч,ш,щ,ъ,ы,ь,э,ю][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено:буквы в пробелах");Отв: Типичные ошибки распознавания - собираем статистику ...
"Б" действительно часто находилось, я как раз сегодня это обнаружил. Только запятые в регэкспе не нужны (а то будет находить запятую наравне с буквами), лучше просто:
addRegExp("[\\x20\\xA0\\t\\n\\r\\f][гдеёзйлмнпртфхцчшщъыьэю][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква между пробелами");
Отв: Типичные ошибки распознавания - собираем статистику ...
Ага, спасибо. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
А чего он не ищет всякие "ххх- " (слово+дефис+пробел)?
Отв: Типичные ошибки распознавания - собираем статистику ...
??? У меня прекрасно ищет:
Отв: Типичные ошибки распознавания - собираем статистику ...
После OCR вместо И, П и Н часто появляется II. Записал в виде:
tagRegExp("(?![а-яё])II(?![а-яё])","i","Найдено: слово \"II\" (\"И\" с опечаткой).");
Правильно? Или возможен другой вариант?
Между знаками ? и ! должен стоять символ "<". Я убрал его, т.к. иначе строка не отображалась полностью. Почему-то.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вообще-то это должно искаться другими регеспами
Отв: Типичные ошибки распознавания - собираем статистику ...
Ищется, когда имеется смесь латиницы с кириллицей. А если отдельно стоящий союз "И" - нет.
Отв: Типичные ошибки распознавания - собираем статистику ...
11 → Н
Отв: Типичные ошибки распознавания - собираем статистику ...
Поиск слов с двумя дефисами типа: как-ни-будь
tagRegExp("([a-zа-яё]-[a-zа-яё]*?-[a-zа-яё])","i","Найдено: слово в двумя дефисами).","",1);
у меня частенько заглавная буква \Л\ превращается в \JI\ (особенно в инициалах):
tagRegExp("(?<%![a-zа-яё])JI(?![a-zа-яё])","i","Найдено: \"JI\" (\"Л\" с опечаткой).");
УБРАТЬ ЗНАК %
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо, очень полезные добавления.
Отв: Типичные ошибки распознавания - собираем статистику ...
Могу предложить для поиска слов с двумя дефисами и замены вот такой отдельный регесп:
([a-zа-яё])-([a-zа-яё]*?)-
в поле замены:
$1$2
Но нужно проверять - замена убирает дефисы вообще, так, что "ЗАМЕНИТЬ ВСЁ" здесь не пройдёт. Но мне удобно :))
Отв: Типичные ошибки распознавания - собираем статистику ...
А почему так сложно? И "i", по-моему, тут лишнее. Мы же только о верхнем регистре говорим, или?
У меня
tagRegExp("(JI)","","Найдено: ,буквы "JI" (возможно, Л).","",1);тоже работает.
Я что-то упустила?
Отв: Типичные ошибки распознавания - собираем статистику ...
Ты права
Наверное нужно таки вставить впереди кириллицу и пробел
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, пробел не надо, а то в начале строки не выловит. Или?
А если кириллица, то сработает регэксп на "смесь кириллицы и латиницы".
Отв: Типичные ошибки распознавания - собираем статистику ...
Дело в том. что этот косяк у меня проявляется ТОЛЬКО в начале слова или в инициалах
Да бог с ним - я бывает и просто заменой меняю, если латинского нет в тексте
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу, у меня тоже. Я именно для инициалов сделала. Но инициалы бывают и в начале строки. ;)
Отв: Типичные ошибки распознавания - собираем статистику ...
Заметил что в ФР11 при сохранении в ФИ2 картинки часто оформляются тегом table
А если картинок много - руками править не комфортно.
в режиме кода сделать масс-замену регеспом
найти:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)заменить на: ( ничего)
Удобно когда изображений много и идут блоками. как в сериях ЖЗЛ или в "Повседневная жизнь"
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А то я их каждую массовой заменой удаляла. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А то я их каждую массовой заменой удаляла. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Cгорел комп и "всё, шо нажито непосильным трудом, — всё погибло"(с).
Программки нужные уже установил, но не хватает актуальных скриптов. Поделитесь, пожалуйста.
Отв: Типичные ошибки распознавания - собираем статистику ...
Поиск по набору регэкспов
http://minus.com/m74y1WFI0
Отв: Типичные ошибки распознавания - собираем статистику ...
Скачалось - «Ярлык для 17_Поиск по набору регэкспов.lnk» - 943 байт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри ступил:
http://www.multiupload.com/L2KTM7AE47
Отв: Типичные ошибки распознавания - собираем статистику ...
таки да. не скрипты это.
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Перестал работать скрипт "Латиница в Кириллице". Подскажите в чем может быть проблема, плз.
Страницы