Помогите с Fine Reader! или весь труд насмарку..

Целый месяц разпознавал книгу и исправлял ошибки в в распознанном тексте (430 страниц). После этого еще 5 дней делал проверку (сервис >> Проверка) - т.к. много ошибок.
Т.к. книга плохо разпознается, FR создал кучу стилей и шрифтов которых в книге нет, штук 30 левых шрифтов и их начертаний. Я сначала хотел закатать это все в txt чтобы избавится от стилей, а потом зашел на форму редактора стилей и нажал удалить все стили (шрифты и начертания) .
И вот теперь я в дураках. Теперь FR не хочет загонят книгу ни в какой формат, пишет "на некоторых страницах не надены стили, разпознайте заново страницы".. Что за фигня??! Попробовал распознать одну, все ошибки вернулись ,ну не издевательство ли?!!
Причем текст можно скопировать (сейчас он как Простой текст - других вариантов нету (был Форматированный раньше)).

Что делать люди, не копировать же в буфер обмена по одной странице... Помогите пожалуйста.. Надо сохранить в txt.
Весь труд на ветер из за глупой ошибки разработчиков и хоть бы предупредили что так будет..

Комментарии

Рыжий Тигра написал:
Можно тоже вопрос?
Я поставил файнридер-9, загнал распознавать готовый скан - обнаружил странную штуку: почти на каждой странице склеиваются по 2-3-4 коротких (1-2 строки) абзаца

Это давний глюк ФР. Уже много писем было в Abby послано на эту тему.
Рыжий Тигра написал:

Как бороться? Руками всё сравнивать дюже уж муторно... :(

Руками не надо. Вернее, не только руками.
Частично автоматизируется.

Общий алгоритм для всех сканов книг:

После распознавания встаем на первую страницу текста в пакете ФР, жмем ctrl+H, (замена).
1) ищем дефис+разрыв строки, меняем на мягкий перенос+разрыв строки (везде по тексту, контроль глазками).
2) жмем ctrl+F, (просто поиск), ищем по очереди (!?:;.) + разрыв строки (типа так: !^l, потом ?^l и т.п.). Там где нужен именно разрыв абзаца, ставим энтер. 1 штуку. (везде по тексту, контроль глазками).
- Каждый новый поиск начинать с первой страницы пакета.

Тут же энтеры ставлю там, где в тексте нужны пустые строки.

Почти любая книга требует максимум часа на это дело. Обычно 15-30 минут хватает.

Потом уже в ворде я проверяю разорванные абзацы - ([а-яё])^0013 и ^0013([а-яё]) с галкой на подстановочных знаках, тоже проглядывая глазками.

Остальное уже в фбд и фбе.

TaKir написал:

Общий алгоритм для всех сканов книг:

После распознавания встаем на первую страницу текста в пакете ФР, жмем ctrl+H, (замена).
1) ищем дефис+разрыв строки, меняем на мягкий перенос+разрыв строки (везде по тексту, контроль глазками).
2) жмем ctrl+F, (просто поиск), ищем по очереди (!?:;.) + разрыв строки (типа так: !^l, потом ?^l и т.п.). Там где нужен именно разрыв абзаца, ставим энтер. 1 штуку. (везде по тексту, контроль глазками).
- Каждый новый поиск начинать с первой страницы пакета.

Первым пунктом пользуюсь давно и в каждом скане.
Сегодня воспользовалась Вашей подсказкой №2. Супер! Выловила кучу склеенных абзацев.
Спасибо! :)

Рыжий Тигра написал:
Можно тоже вопрос?
Я поставил файнридер-9, загнал распознавать готовый скан - обнаружил странную штуку: почти на каждой странице склеиваются по 2-3-4 коротких (1-2 строки) абзаца, а следующий за ними длинный абзац обязательно рвётся. Если коротких абзацев больше 4 - ничего такого не происходит, если короткий только один либо страница заканчивается короткими абзацами без длинного - тоже ничего. Что может быть за глюк? Или что-то у меня в настройках? Как бороться? Руками всё сравнивать дюже уж муторно... :(

Есть такая хрень - и у мене было - возможно свойства самого файла,*или блядских копирастов* что тока не делал - не лечицца.

А нельзя ли тупо восстановить стертый файл какой-либо программой по восстановлению стертых файлов, например, "RECUVA"?

Тупо нельзя.

Страницы

X