Вы здесьПо рукам надавать за такое разпознавание текста
Опубликовано сб, 14/03/2009 - 11:54 пользователем Psychedelic
Вот есть книга http://lib.rus.ec/b/141245 Цитата:
Как только начинашь перевод в fb2, начинаются сущие мучения, т.к. автомат не подхватывает 80% текста.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
nezhit RE:Подайте бедному копеечку на книжку с литреса... 16 часов
Larisa_F RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 день larin RE:Пропал абонемент 1 неделя Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 3 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 4 недели tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 1 месяц MrMansur RE:<НРЗБ> 1 месяц Stager RE:Беженцы с Флибусты 1 месяц Tramell RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц Впечатления о книгах
vladimir1098 про Сафронов: Блокадник [litres] (Современная проза, О войне)
19 02 Не хочу обидеть автора, но ему лучше больше ничего не писать. Очень конъюнктурно, художественная ценность чуть более единицы, документальная - может быть, двойка. Зря потраченное время.
xZiminxx про Старый: Наставникъ (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
18 02 такого бреда я еще не читал. учебник Мединского отдыхает . чистая чернуха заказуха. Оценка: нечитаемо
vladimir1098 про Иван Лукьянович Солоневич
17 02 Пожалуй, лучшая из прочитанных мою книг о временах Сталина. Чувствуется здоровый, ясный и твёрдый ум спортсмена. Очень впечатляет что написано языком и понятиями современными, в то время так никто не писал.
Paul von Sokolovski про Сергей Борисович Рюмин
16 02 Отлично! Хороший фэнтезийный сериал о русской глубинке, насыщенной жизни юного новообращенного мага и о чудесах, ими творимых. Память о жизни в Союзе у автора сохранилась и помогает сделать повествование реалистичным, ну - ………
mysevra про Арабов: Чудо (Современная проза, Мистика)
16 02 Вроде как описывается легендарное «Стояние Зои». И язык хорош, но такая безысходность и тоска во всём этом. Понятно, что никто нам не объяснит суть этого наказании (или благословения), и почему именно она, но хоть бы у священника ……… Оценка: хорошо
mysevra про Буало-Нарсежак: Убийство на 45 оборотах [= Очертя сердце; Пропащей душе; С сердцем не в ладу] [A Coeur Perdu ru] (Детективы: прочее)
16 02 Много эмоций и переживаний, но мало действия. Не спасает даже французский шарм. Оценка: неплохо
mysevra про Кирьянова: Разбуди в себе Женщину. Книга-практикум. Всего 10 шагов к здоровью и стройности через любовь к себе, принятие и понимание (Эзотерика, Самосовершенствование, Здоровье, Спорт)
16 02 Не ешь химию, качай энергетику – и будет тебе 100% любовь к себе. А все эти аффирмации, нашептывания и прибаутки – это как слой краски на старой штукатурке, в любой момент, особенно критический, посыплется. Оценка: плохо
francuzik про Семин: Сын помещика – 5 (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
16 02 Типичный женский роман. Охи вздохи, конечно же невесты (как без них). Много много змеиного шипения и...и все. Оценка: плохо
vudy про ПолуЁж
15 02 Я падаю — понял я только тогда, когда ладони, а следом и голова ударились о холодный пол." Колобок ?
blahblah про Алмазный: Ликвидация 1946. Том 1 (Альтернативная история, Исторический детектив, Самиздат, сетевая литература)
15 02 Какая чушь! Станиславского на них нет! Не верю! Оценка: нечитаемо
udrees про Атаманов: Обрести тело [СИ] (ЛитРПГ, Самиздат, сетевая литература)
15 02 Хорошее достойное завершение серии про гоблина Амру. Органично вплелись реальная и виртуальная жизни в сюжете. Хорошее описание событий в игровом мире. Несколько удивительный поворот в сюжете в реальном мире по поводу заточения ……… Оценка: хорошо
udrees про Бойн: Аларих, король вестготов: Падение Рима глазами варвара [litres] (Исторические приключения, Публицистика)
15 02 Какая-то странная книга, где Аларих выступает в роли предмета интерьера в комнате что ли. Большая часть книги, да вообще вся книга, это просто описание жизни в Римской империи перед ее падением. Описываются множество персонажей ……… Оценка: плохо |
Комментарии
Отв: По рукам надавать за такое разпознавание текста
А я и не занл, что там есть такая галка. Наверное, по умолчанию она выключена. Или это зависит от того, в каком формате сохранять распознанный текст.
Отв: По рукам надавать за такое разпознавание текста
В девятом FR можно выбирать вручную разные опции сохранения при сохранении в разных форматах. Там много разнополезного можно сделать, а так же можно создавать свои шаблоны.
Отв: По рукам надавать за такое разпознавание текста
Не торопитесь паниковать. Для FBE давно существует отличный скрипт, как раз для такого случая ;)
http://home.doramail.com/Snout/Files/abruption_killing.rar
Как разложить файлы скрипта по папкам.
1. js-файл следует разместить в папке CMD, выбранной в настройках FBE.
2. htm-файлы в папке CMD редактора, чей exe-файл будете запускать.
3. css-файлы в поддиректории CSS каталога редактора, чей exe-файл будете запускать. Вместо "удаление разрывов_main.css" можно подложить main.css от вашего FBE (если вы стили настраивали под себя).
Запускать со следующими настройками:
а) галки "ручной выбор" отовсюду убрать, ибо заколебаетесь, да и скрипт будет работать около часа.
б) Маленькая буква | маленькая буква - соединить через пробел
в) тире или дефис, перед которым непробельный символ | любой символ - соединить без пробела,сохранив тире\дефис
г) запятая | любой символ - соединить через пробел.
д) остальное поставьте нетрогать.
Благодарим товарища Sclex с форума www.fictionbook.org
Отв: По рукам надавать за такое разпознавание текста
Пара часов на эксперименты с FineReader-ом, обучение и пополнение пользовательского шаблона и можно достичь удивительных результатов в OCR, впоследствии экономящих гораздо большее время. Если же потратить еще некоторое время на знакомство с макросами MS Word, и изучение FBE со скриптами уважаемого Sclex-а - и изготовление книги превратится в элементарное дело :-)
P.S. Самое сложное в OCR, imho - это тщательная вычитка.
Отв: По рукам надавать за такое разпознавание текста
Не то, чтобы сложное, но трудоемкое и утомительное. Но можно сочетать приятное с полезным: одновременно читать и вычитывать. Т.е. удержаться от соблазна прочитать книгу перед оцифровкой. А если еще делать все это не вставая с дивана, да под хорошую музыку - то и вообще вполне себе не утомительно :)
Отв: По рукам надавать за такое разпознавание текста
Я всегда так и вычитывал. Только не на диване, а за столом (люблю нормальный монитор и клаву), и без музыки - не могу под нее даже просто читать, отвлекает. Или одно, или другое ;).
Отв: По рукам надавать за такое разпознавание текста
Это смотря какая музыка. Если, скажем, на 1.FM включить Otto's Baroque Musick - отлично работается.
Отв: По рукам надавать за такое разпознавание текста
Вообще-то такая хрень (извините) легко убирается в Word'e - поиск/замена символов дефис+перевод строки на ничего. После чего остаются сущие пустяки для ручной правки. Открою еще страшную тайну: в Word'e легко делать макросы, которые пишутся на языке WBA, а с ними можно такое натворить... Например, я приводил в свое время, как учебное, такое задание: вставить 3 пробела в начале любой строки текста, в которой встречается частица "не" (это очень простой пример, для чайников, так что прошу не кидать камнями ;). Про язык WBA, кстати, говорится больше для понта, а в действительности отлично написать макрос можно, и совершенно не владея этим языком, и даже не зная о его существовании ;D. Во всяком случае, это в разы проще, чем делать валидные fb2, или даже просто хорошо отсканировать книгу. Так что, ИМХО, нет ни малейшего смысла заново распознавать текст, разве что из любви к искусству и FR ;))).
Отв: По рукам надавать за такое разпознавание текста
Вы не поверите, но язык этот называется VBA. Потому что сокращение от Visual Basic for Applications, а вовсе не World Boxing Association.
P.S. Продвинутые какие у нас специалисты по вирусам и троянам пошли..
P.P.S. Кстати VBA в русской раскладке дает МИФ. Что отлично этому языку подходит :)
Отв: По рукам надавать за такое разпознавание текста
Не придирайтесь так к очепяткам ;), я преподавал этот язык лет 10 назад :(, нетрудно и правда забыть название ;D. МИФ - хорошо! Понравилось! Возьму на вооружение в следующей жизни, если снова буду заниматься тем же ;). Но должен заметить, что тот же VBA в Excel'e - уже не совсем миф, а больше похож на настоящий... Как-то пришлось на нем даже написать программку для регистрации постояльцев в гостинице, включая стстистику, выписку счетов и т.п. Было интересно!
Отв: По рукам надавать за такое разпознавание текста
Не легко, т.к. остаются другие фразы, которые идут без дефиса - таких кстати большинство.
Я распознал по новой, заняло это 15 мин с указанием картинок (вы бы не справились за 15 мин с убиранием этих переводов строк, это заняло бы как минимум 4 часа). Скан хороший, потому ошибок почти нет.
Отв: По рукам надавать за такое разпознавание текста
ФБД с включенной галкой re-format completely приводит такие тексты в нормальный вид секунд за 20...
Уже сколько их таких обработано - не сосчитать...
OCR pad опять же есть сто лет в обед.
Отв: По рукам надавать за такое разпознавание текста
Вы думаете я не делал этого? Делал, но посмотрев что получилось, я подумал что намного быстрее будет сделать распознавание по новой.
По пробуйте сделать то что вы предложили, увидите результат.
Отв: По рукам надавать за такое разпознавание текста
Вы думаете, я не делал этого? ))
Я не предлагаю, не проверив сначала. Нет такой привычки советовать не проверенное лично.
К сожалению, исходника дежавю или pdf под рукой не было, потому и увидеть, что там не так с Вашей точки зрения, не могу.
Отв: По рукам надавать за такое разпознавание текста
Закончил книгу. Читаем : http://lib.rus.ec/b/142243
Там проблема со сносками. Дело в том что в doc что в djvu - текст уже был распознан (потом закручен в djvu) и некоторые сноски были повреждены.
Там в конце идут сноски, и перед словом ставиться номер этой сноски. так вот половина номеров толком не распознались (именно в исходном документе - djvu или doc - там они уже "повреждены") - поэтому непонятно какая сноска - где..