Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 18 мин.
konst1 RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 46 мин. mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 день zlyaka RE:С Новым годом! 1 день Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 дня SparkySpirit RE:Прошу переформатировать, распознать, etc... 6 дней SparkySpirit RE:Жорж Санд - переводы 19 века 1 неделя Саша из Киева RE:Наш дом - СССР 1 неделя babajga RE:Чернушка. Повести 1 неделя Саша из Киева RE:Сказки далёких островов 1 неделя babajga RE:Лопоухий бес 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя babajga RE:Ежик покидает дом 1 неделя babajga RE:Сказки бабушки Черепахи 2 недели babajga RE:Свист диких крыльев 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 2 недели Isais RE:Не тот автор 4 недели Впечатления о книгах
Oleg68 про Кобен: Вне игры [Fade Away ru] (Детективы: прочее)
03 01 Книга понравилась. Очередная интересная история про Майрона Болитара. Оценка: отлично!
187 про А. В. Панов
03 01 Как подметил sd_kozel, Кейсинг - непосредственный участник событий, нуи профессионал разумеется, не диванный эксперд. Кстати у автора вышла книга "Программа «Артемида»: Новый лунный обман США. Афёра 21-го века." - о очередной ………
kerch64 про Шамбаров: Как Царь Алексей Михайлович и Богдан Хмельницкий Украину освободили (Исторические приключения, История)
03 01 Книга" не историческая а продукт современной российской пропаганды. Исторические исследования не оперируют терминологией типа - "проглотить", "одолевать", "громил" и т.п. Все это создает нужный автору эмоциональный фон. ……… Оценка: плохо
Barbud про Тарханов: Объективная реальность (Исторические приключения, Самиздат, сетевая литература)
02 01 Начав читать главу 11, с удивлением узнал, что жену Сталина звали Светланой. Это точно не наш мир!)) Оценка: плохо
Олег Макаров. про Столичный доктор
02 01 Хорошая серия. Мне понравилась. Я, правда, не спец по выискиванию ошибок, я просто удовольствие от чтения либо получаю, либо не получаю
vitalis про Шкляр: Залишенець [иллюстрации] [uk] (Историческая проза, Биографии и Мемуары, О войне)
01 01 Це, безумовно, шедевральний твір. І з художньої, і з історичної точки зору, і з точки зору наскільки захопливий сюжет. А те, наскільки сильно від книги бомбить в лаптєногих свинособак - чітко вказує наскільки твір ненависний силам зла. Оценка: отлично!
Дей про Потомокъ
01 01 Весьма достойно. Ко второй книге ГГ становится более... понятным, что ли. И события наконец развиваются стремительно и интересно.
Niarbagem про Пехов: Птицеед (Фэнтези, Самиздат, сетевая литература)
30 12 Классический Пехов, легко читается, интересный мир, ничего нового для тех кто знаком с творчеством, добротное фэнтези. Буду ждать продолжения! Оценка: хорошо
Chernovol про Дуган: Предательство истины (Публицистика, Документальная литература, Спецслужбы)
28 12 Бред сивой кобылы. Автор, специалист по сибирской язве, забыл описать боевых комаров. Оценка: нечитаемо
Дей про Петровичева: Девушка без имени [litres] (Любовная фантастика, Попаданцы)
28 12 Не смогла читать после того, как ГГ, никого и ничего не знающая о мире, в который попала, ушла от спасшего её человека, от которого видела лишь добро, только потому, что он инквизитор. Истории о бабах-дурах и истеричках меня не привлекают. Оценка: плохо
Chernovol про Жан Саван
28 12 Не очень удачный перевод. В стихе слово "Люба" написано с большой буквы, хотя это не имя а люба, т.е. любимая.
Chernovol про Широкорад: Битва за Крым. От противостояния до возвращения в Россию (Публицистика)
28 12 Пропагандистский лубок, в большинстве фактов документально ничем не подтвержденный. Оценка: нечитаемо |
Комментарии
Отв: Координация сканирования и вычитки
(кагбэ между прочим) А у меня опять выходные...
Отв: Координация сканирования и вычитки
Там laurentina1 ждёт-не дождётся какую-ту книгу. ;)
Отв: Координация сканирования и вычитки
Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр
Отв: Координация сканирования и вычитки
Мммм...
Это, во-первых, ещё одна программа, которую нужно запускать. А во-вторых, в ФР у Вас есть возможность сразу сравнить с исходным текстом. С моей точки зрения, это громадное преимущество по сравнению с другими программами.
А что значит в этом скрипте "нижний/верхний регистр"?
Отв: Координация сканирования и вычитки
!а ?а !А ?А
Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.
Отв: Координация сканирования и вычитки
Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?
Конечно. Если у Вас есть скрипт, который исправляет технические ошибки OCR (мы ведь не о "Поиске по регэкспам" в ФБЕ говорим, не так ли? Хотя он делает именно это), то быстрее скрипт это сделает ужо всяко. Насчёт надёжнее не знаю, надо сравнивать.
"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?
Отв: Координация сканирования и вычитки
Ищет нечто вроде опе!чатка или А?збука. Такие ошибки бывают, а что до абзацев, то там анализ идет по регистру буквы/запятой/ и следующему Enter, или дефис-Enter, или Enter-дефис, когда FR вместо тире лепит дефис в прямой речи. Я же говорил, это только кусочек для примера, на самом деле, в скрипте длииииная строчка, которая постоянно пополняется.
Да. Где поезд поет вместо ухода :-)
Отв: Координация сканирования и вычитки
Поскольку народ проявил некоторый, хотя и очень робкий интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor, вот реальный пример, который можете использовать, добавляя или убавляя необходимое:
[^а-яА-Яa-zA-Z0-9\s\.\,\—\?\!\-\*\(\)\«\»\;\:]
При поиске с данным скриптом пропускаются все русские буквы (оба регистра, кроме ё), все латинские буквы (оба регистра), все цифры, пробелы, точки, запятые, тире, вопросительные и восклицательные знаки, дефисы, "звездочки", скобки, кавычки, точки с запятой и двоеточия. Остальные знаки будут подсвечены. Если что-то нужно добавить или убавить, это легко делается, ибо наглядно. Знак ^ в начале служит отрицанием, то есть, ^а-я - НИ одна из букв русского алфавита (кроме ё) в нижнем регистре и т.д. При добавлении любого другого знака, перед ним ставится \ (бэкслэш). Допустим, нужно исключить из поиска апостроф, это будет так: \'
По мере отработки скрипта, продолжение следует...
Отв: Координация сканирования и вычитки
GMAP, Вы так свой продукт рекламировать собрались?
Отв: Координация сканирования и вычитки
Угу. А еще ФайнРидер, АфтерСкан, ОРФО, Ворд, WinXР и еще мно-о-ого чего по части своего программного обеспечения. Можно было сразу догадаться и не напрягать себе топтанием батонов.
Отв: Координация сканирования и вычитки
*зевая* Этого продукта все равно нет
на рынкев сборке FBE. Так что его синтаксис как-то... Пусть хоть обрекламится.Отв: Координация сканирования и вычитки
Иногда у сканировщиков возникают ситуации, когда отсканировано много книг, и непонятно, кто и когда их будет распознавать, верстать и вычитывать. Ну, или просто нашёлся скан, которым самому заниматься неохота или руки не доходят, а отдать некому.
Предлагаю рассмотреть возможность выкладывать сканы на стадии "отсканировал". Наверное, в виде единого архива.
Соответственно, сканы может скачать любой зарегистрированный user, доступившись к карточке книги.
После того, как книга залита сканы можно будет с сайта убрать и слить в долговременное хранилище, на тот случай, "чтобы были".
Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.
Отв: Координация сканирования и вычитки
Ничего тут не гарантировано. Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?
Отв: Координация сканирования и вычитки
1) Сто человек скачают-прочитают-выкинут, а сто первый сделает книгу. Я лично не против.
2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.
3) Если идея приемлема в принципе, то предлагаю (товарищу под ником larin) реально оценить общую потребность в физических ресурсах (storage) и сообщить мне цифру (money). Дальше обсудим, стоит ли овчинка выделки.
Отв: Координация сканирования и вычитки
Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.
Отв: Координация сканирования и вычитки
Возможно, я невнятно изложил своё предложение. Попробую пояснить.
Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.
Отв: Координация сканирования и вычитки
Ясно. Не противник вашей идеи, но сильно сомневающийся. Успехов.
И вряд ли мы найдем такого человека/человек, которые будут хранить и выдавать сканы.
-------
В качестве идеи (или в порядке бреда?). Сделать отдельный ресурс: библиотека сканов. С сылкой на либрусеке на этот ресурс.
В карточку постить ссылку на этот ресурс (вручную?). Еще можно сделать ссылку на странице книги на Л: "у этой книги имеются сканы".
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.
ЗЫ. Сканы сканам рознь. Если мои весят 200 мб. на книгу, то скачал сейчас не свои фотосканы - 700 мб. на книгу 440 страниц.
Отв: Координация сканирования и вычитки
лично я все сканы перевожу в джвю, размеры до 100 мег (самый большой был) и храню на двд-болвашках... на всякий пожарный т.с.
это раньше - стирал... :(
Отв: Координация сканирования и вычитки
Не так давно проносился слух, что на либрусеке теперь не только текстовые, но и аудиокниги будут. Одна аудиокнига - от 200 до 1000 метров, то есть, сравнимо со сканом. Так что я не думаю, что диски - это основная проблема. Основатель википедии на возражения, касающиеся ограниченности места, всегда отвечал "hard disks are cheap". Проблема, да, но не основная. Просто, я думаю, что хранение аудиокниг привносит в библиотеку новое измерение, а вот новаторство хранилища сканов не так очевидно.
И вообще, у нас тут сообщество энтузиастов. Кому сильно захочется, тот и бумажную книжку купит, чтобы особо грязный текст вычитать. Я лично так делал уже не один раз.
Отв: Координация сканирования и вычитки
Мне, честно говоря, идея тоже не кажется очень привлекательной, но обсудить можно - вдруг Ларин захочет осуществить. В-)
Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.
Отв: Координация сканирования и вычитки
Не каждый может сделать такой красивый pdf, как ты :)
Наверное надо разделить вопросы, чтобы что-то решить.
1. Главный: Нужна ли библиотека сканов тех книг, которых нет. Надо ее делать? как?
2. Второстепенный. Нужна ли библиотека сканов или pdf/djvu файлов уже сделанных книг? Как ее сделать?
Отв: Координация сканирования и вычитки
А что мешает человеку, желающему с книгой ознакомиться раньше, обратиться к верстальщику. Один отсканировал, второй сверстал, третий (видимо, желающий книгу) вычитал. При других обстоятельствах сомнительная перспектива.
Отв: Координация сканирования и вычитки
А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.
Отв: Координация сканирования и вычитки
Мешает то, что я не сканировщик. Я - user чужих сканов. Беру у тех, кто пристраивает через форум. Или просто вычитываю книги, залитые другими.
Отв: Координация сканирования и вычитки
Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.
Подправьте расчёты, если я в чём-то ошибаюсь.
Отв: Координация сканирования и вычитки
Книги делает/вычитывает довольно узкий круг людей, у каждого своей работы хватает, и делать хранилище сканов в расчете на гипотетического помощника, который возможно захочет что-то вычитать - затея сомнительная. На практике -проще найти помощника через форум.
Мой вариант - распознать и сделать фб2, текст, и пдф с распознанным слоем. Все делается в одной программе(файнридер), фоном к основной работе на компьютере. Занимает мало места, можно хранить до оказии, или отдать на вычитку(если повезет и найдется охотник.).
Отв: Координация сканирования и вычитки
Давайте оценим риски.
1) Копирастия набирает обороты.
Как бы далеко не находился Эквадор, разумно ли подвешивать еще одну приманку в виде хранилища сканов?
2) Оборудование ломается.
Что если диски посыпятся? Возможно ли полное восстановление утраченной информации? Сколько сканов пропадет безвозвратно?
Отв: Координация сканирования и вычитки
как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
Кажется на Ф., пол года - год назад, кто то создавал темку что собирает сканы книг, но щас её откопать думаю проблематично будет(
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте. А то действительно, некоторые темы о предоставлении сканов затерялись.
Отв: Координация сканирования и вычитки
Самая лучшая идея, на мой взгляд. И вынести эту тему туда же, где темы о вычитке и т.п. Чтоб было наглядно и доступно
Отв: Координация сканирования и вычитки
На сканировщика, правда ляжет труд следить:
1) какие сканы отданы в работу и кому, а какие продолжают ждать своего распознавателя-верстальщика
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя
3) какие сканы обработаны, и заботиться о них в дальнейшем не нужно.
Короче говоря, это вся та работа, которая выполняется "Координацией сканирования и вычитки". При небольшом количестве сканов её можно проводить вручную. Как только сканов станет больше, начнутся проблемы с каждым из этапов.
Отв: Координация сканирования и вычитки
Да. Предложение хорошее. Согласен.
Отв: Координация сканирования и вычитки
отдельную ссылку после Сканирования и Вычитки или сверху между Блоги и Форумы
что-то типа "Сканы" (хинт - предлагаю готовые сканы в обработку)
а вот как следить, работает ли человек над сканом или просто выпросил читать?
Отв: Координация сканирования и вычитки
В качестве иллюстрации карточек, работа над которыми не может продолжаться из-за отсутствия сканов
http://lib.rus.ec/node/312403
Отв: Координация сканирования и вычитки
Поподробнее можно... Каким способом это сделать? Нагрянуть домой с проверкой?
Отв: Координация сканирования и вычитки
Мне кажется, карточки, находящиеся без движения больше года, автоматически должны аннулироваться. А то карточек становится всё больше и полный список делается необъятным. Висит такая карточка, книга вроде делается, а на самом деле о ней уже давно все забыли.
Отв: Координация сканирования и вычитки
Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.
Отв: Координация сканирования и вычитки
Если в карточке есть какой-нибудь статус, то да. А простые "заявки", на которые никто не среагировал, нужно удалять. Это лишний балласт, тут я согласна с Алексеем_Н.
Отв: Координация сканирования и вычитки
Без статусов, согласен.
Отв: Координация сканирования и вычитки
Да и с карточками со статусом тоже надо что-то делать, если они лежат без движения больше года. Конечно же, не надо их удалять. Но вот написать в личку сообщение такого типа было бы неплохо:
Я не испытываю иллюзий, что такая напоминалка что-то сильно изменит, но и недооценивать её тоже не следует.
Отв: Координация сканирования и вычитки
Присоединяюсь. Пустые карточки-заявки нужно периодически удалять.
Да никак. Все на доверии и здравом смысле, и гарантий никто не дает. Человек которому ты отдаешь книги может пропасть, книга может всплыть где угодно и в каком угодно виде. У кого-то действительно форс-мажор, и книга зависает на неопределенное время, кто-то тупо взял "на почитать" и большего ему не нужно. Риск есть всегда, поэтому этот сервис вспомогательный, да и сама идея следить за кем-то мне странна.
Отв: Координация сканирования и вычитки
Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.
Отв: Координация сканирования и вычитки
Много ли книг сделано по пустым карточкам-заявкам... наверное только случайные совпадения... если отданы сканы в работу - по моему через пару месяцев стоит поинтересоваться как идут дела. А если "пользы" у человека нет - то вообще не стоит сканы высылать... ясно что ничего не умеет.
Отв: Координация сканирования и вычитки
А еще бывает, что книга уже выложена, а карточка со статусами продолжает висеть. Хорошо, если кто-то случайно это обнаружит и удалит карточку, но в ряде случаев это так и может остаться незамеченным.
Отв: Координация сканирования и вычитки
После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...
Отв: Координация сканирования и вычитки
Не нужно второму полю уделять внимание если первое верное.
Отв: Координация сканирования и вычитки
вы не поняли... у меня почему-то выдает два одинаковых поля lib.rus.ec/b/пусто и скажем lib.rus.ec/b/хххххх со ссылкой на свежезалитую книгу... заполняй верхнее, не заполняй, всё равно идёшь на сканирование и вычитка и видишь висящую карточку с пустым полем-ссылкой...
поэтому я сразу иду туда и там даю ссылку на книгу (для закрытия карточки)
Страницы