Вы здесьРаспределённые корректоры
Опубликовано ср, 26/11/2008 - 03:54 пользователем Jolly Roger
Нахально пользуясь популярностью Либрусека, позволю себе вбросить в массы одну интересную идею - subj. Итак: Имеет существовать уже довольно давно система "Распределенные корректоры" (подробно читать здесь: http://kapija.narod.ru/Translations/dp_russ.htm ) Суть желаемого российского варианта: любой желающий заводит аккаунт редактора, открывает некий проект и заливает на сервер сканы страниц. После чего кликает клич по друзьям и знакомым (или, к примеру, посетителям некоей библиотеки... :) ), кои заходят на страничку проекта и исполняют роль корректоров - каждому из них выдается маленький кусок скана и окно с распознанным текстом, каковой вычитывается с исправлением ошибок и сохраняется. Выглядит это где-то так:
Скрипты настроены так, что каждый кусок выдается минимум двум корректорам - это дает некую гарантию качества вычитки. После окончания вычитки готовый распознанный и откорректированный текст предоставляется в распоряжение редактора и не выкладывается в публичный доступ - это позволяет с наглой мордой заявлять о нераспространении, типа "делал для себя - отлезьте, копирасты!" А где потом текст всплывёт - так это я не знаю... ;) Надобно отметить, что подобная система в рунете один раз уже была запущена - на сайте "Православная беседа", году где-то в 2003м ( http://kirrr.livejournal.com/12630.html ) , но сейчас проект закрыт ( http://pravbeseda.ru/ocrlab/ ), хотя книги, в нём распознанные и вычитаные, доступны (напр.: http://www.pravbeseda.ru/library/index.php?page=book&id=720 ). Проблема, как я помню, состояла в том, что "душой" того проекта был Братец ДыкЪ ( http://pravbeseda.ru/arc/old_agora/pravbeseda_common/1046713286.html ), занимавшийся им "по остаточному принципу", что было тяжело, и в критически малом числе добровольных корректоров в связи с нераскрученностью и православной спецификой проекта... З.Ы. Чего это я вдруг?... Это я в качестве конструктивного отклика вот на это...
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 23 часа
Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 неделя sem14 RE:Серия "Символы времени" издательства "Аграф" 2 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 недели tvv RE:faq brainstorm =) 2 недели Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 недели Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:абонемент не обновлен 3 недели sem14 RE:За иллюминатором (серия) - чего не хватает? 3 недели sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 3 недели Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 4 недели larin RE:Пропал абонемент 1 месяц tvv RE:DNS 1 месяц MrMansur RE:<НРЗБ> 1 месяц Stager RE:Беженцы с Флибусты 1 месяц Tramell RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц Впечатления о книгах
mysevra про Дорман: Подстрочник: Жизнь Лилианны Лунгиной, рассказанная ею в фильме Олега Дормана (Биографии и Мемуары)
09 02 Смотреть Лунгину мне интереснее, а читать понятнее. Замечательный специалист и женщина, перед которой я преклоняюсь: интеллигентность и эрудиция, помноженные на стойкость. Оценка: отлично!
mysevra про Дэникен: Боги майя. Тайные послания пришельцев [День, когда явились боги] (Культурология, Публицистика)
09 02 Пишет легко и увлекательно. Можно, конечно, критиковать теорию палеоконтакта, но тогда надо предложить свою правдоподобную версию. Только удивило, что при рассказе о расшифровке письменности упоминались какие угодно исследователи, ……… Оценка: хорошо
mysevra про Клочков: Лунь (Боевая фантастика)
09 02 Это как-то больше про любовь. А я приключений хотела. Вообще, как бы грубо это не прозвучало, книги этой серии хороши без женских персонажей «со всеми вытекающими из этого последствиями». Оценка: плохо
DGOBLEK про Найт: Мастера эволюции (Фантастика: прочее)
08 02 ЭТО МОЖТ ОБУЧИТЬСЯ С ТОПОЙ! - название рассказа....Mefisto - ну как так можно делать спустя рукава электронку? Взялись делать FB2 - делайте хорошо. Название рассказа - Это можт свучиться с топой! Если в оглавлении допускать ………
MrMansur про Дубнов: Книга жизни [воспоминания и размышления] (Биографии и Мемуары)
07 02 Так есть же в формате fb2 http://209.42.197.18/b/786038
MrMansur про Прилепин: Тума (Современная проза)
07 02 Первая мысль - как же много крови проливали. Но потом осознание: почему проливали? Так было, ьак есть и так будет пока существует эта раковая опухоль - человек... Владея русским и татарским, было интересно читать многоязычные ……… Оценка: отлично!
polyn про Корсакова: Лисье золото [СИ litres] (Ужасы, Триллер, Самиздат, сетевая литература)
07 02 Очень интересное начало серии Оценка: отлично!
udrees про Каменистый: Запрещённый юг (Боевая фантастика, Фэнтези, Попаданцы, ЛитРПГ)
07 02 Смешно написано, продолжение хорошее. Понравится любителям серии. Герой снова попадает в переделки, снова сражается с сильными противниками, и снова получает кучу прогресса. Описания статов и достижений иногда могут раздражать, ……… Оценка: отлично!
udrees про Атаманов: Новые Боги (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
07 02 Смешное окончание приключений. Все было бы хорошо, если бы не вмешательство богов в дела земные. Хотя конечно изначально все предупреждены, что они игроки в большой Игре. Но в 4-й книге приключения в своем стиле, интересные ……… Оценка: хорошо
udrees про Атаманов: Верховья Стикса [СИ] (ЛитРПГ, Самиздат, сетевая литература)
07 02 Я полагаю не вторая, а третья книга может быть окончанием всей серии. Концовку чуть поменять и все, логический венец приключений гоблина. Собственно, в таком же стиле грамотное описание приключений гоблина, победы над сильными ……… Оценка: хорошо
udrees про Атаманов: Сохранить крылья [СИ] (ЛитРПГ, Самиздат, сетевая литература)
07 02 Совершенно сумасшедшее продолжение истории про приключения гоблина-травника в игровом мире, заодно перемежающееся с событиями в реальном мире. Автор часто использует такой прием в своих книгах. Не знаю, в «Забаненном» меня ……… Оценка: хорошо
alexk про Цзи Юнь: Заметки из хижины «Великое в малом» [сборник litres] (Древневосточная литература)
07 02 Издание повторяет старый советский вариант, только предисловие выкинули. И издание, и сам файл хуже предшественника. |
Комментарии
Отв: Распределённые корректоры
Ох-ох...
Позволю себе привести забавную дискуссию, разгоревшуюся не так давно в Гостевой Фензина. Извините, если здесь уже всплывало :)
Головой думайте Пятница, 31. Октября 2008 18:37
Ну и ну, народ. Ну и ну.
Скажите, а вы вообще способны АДЕКВАТНО оценивать окружающую действительность?
Способны?
Ну тогда скажите мне: Кто во всем рунете сканирует фантастику?
Подумайте. Не торопитесь.
Ну а если напрягаться неохота, вот вам готовый ответ:
Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют.
Головой думайте:
И чего, в этом свете, стоят ваши вопли: "Ухожу на другой ресурс!!!", "ноги моей здесь больше не будет!!!!!", а?
Представьте, что фензин закрылся. Где, собственно, вы собираетесь брать новые книги? Сами сканировать будете? Ну так начинайте, чего ж не сканируете? Только стонать способны...
-----
Между прочим, я тоже предпочитаю получать книги бесплатно. Но, в отличие от некоторых, могу оценить - кто чего стоит.
aaa:
Головой думайте, сакраментальный вопрос - откуда дровишки?
rr3:
Ну и ну. Судя по нездоровому пафосу и зацикленности на уникальности - думать Вы, к сожалению, не способны. Увидев торжественное объявление о ПЕРВОЙ отсканированной книге - сделали вывод, что книга была единственной.
"И нигде больше не сканируют" - скажите, имена sem14, amyat, aprod и многих других Вам о чем-нибудь говорят?
Головой думайте:
У меня-то с головой все в порядке, это у вас язык ее опережает. Вы, чем болтать, просто возьмите и перечислите: какая фантастика была отсканирована на либрусеке. Не распознана с чужого скана или djvu, а именно отсканирована.
Если сможете.
И продолжение:
Головой думайте (Пятница, 31. Октября 2008 18:37) :
....Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют...
-------
Сегодня подсчитал, А.Антонов на ЛИБРУСЕКе представлен 23-мя произведениями, а на ФЕНЗИНе таковых только 10.
Так что - головой думайте
Да я-то думаю:
Чего и вам желаю. Слово "сканирует" - подразумевает вреня настоящее (или вы посчитали, что я имел ввиду - от сотворения времен?). Раз уж вы не поленились занятся подсчетами, не поленитесь поинтересоваться, когда и где книги были отсканированы, а когда файлы были перекачаны на либрусек и переформатированы. А потом прикиньте, во сколько процентов попадут остальные - относящиеся к нынешнему времени.
aaa:
А почему вы решили, что я ДОЛЖЕН ЭТИМ ИНТЕРЕСОВАТЬСЯ?
Я вижу счет - 23:10, и все остальное меня волнует мало.
Кстати, а где доказательства что только ФЕНЗИН занимается сканированием.
Пока я видел только голословные заявления, и не менее голословные обвинения
О как!:
Получается, интересоваться вы этим НЕ ДОЛЖНЫ, зато, что-то ДОЛЖЕН вам я?
Вы посчитали 23 к 10 и что? Все?
Я вот посмотрел автора, откинул эротику и боевики (которые вы почему-то посчитали?), посмотрел остальные книги - и не нашел среди них отсканенных в последнее время.
НО, может быть нашли вы? Не-а, вы оказывается и не искали. Вам это не интересно. Но, голословен, конечно я.
А вы тогда кто? Своей головой думать совсем не хочется?
aaa:
А почему вы решили, что я вас к чему-то обязываю.
Я просто констатировал факт.
Без комментариев.
У вас - одни лозунги. Фактов нет.
Тоже без комментариев.
У меня нет никакой возможности проверить, кто, где и что сканирует.
Как нет и такого желания.
Я читатель, а не следователь.
И меня это интересует не больше, чем страна и компания в которой сделали сахар, для моего утреннего кофе
Кстати, чем вам боевики не угодили?
Вместе с эротикой.
Про боевики и эротику:
Эротика - это наше все. Только вот разговор был о сканировании фантастики - вы это как-то упустили. Фензин - это вообще сайт, посвященный фантастике.
По поводу лозунгов:
Хм.. Я вам высказал мнение завсегдатая различных книжных сайтов и форумов, результат, если хотите, многолетнего мониторинга сети. Я бы не назвал это лозунгами. Другое дело - вы можете с моим мнением не согласиться. В таком случае, человек, как правило, пытается разобраться в ситуации самостоятельно - но этого вы тоже не хотите. Вы хотите от меня фактов и доказательств.
По поводу фактов:
Ну факты - они просты: вы видете прямо перед собой ресурс, регулярно выкладывающий отсканированную им фантастику - и не видете подобного на других ресурсах. Если вы знаете другой такой ресурс (кроме БСЧ) - поделитесь знанием.
По поводу доказательств: а что вы готовы счесть доказательством? Какого рода доказательства устроили бы лично вас?
aaa:
Ну с эротикой все ясно - тут у нас полное совпадение.
А как насчет боевиков?
Ах да, мы ж про фантастику!
Извините, увлекся.
Я люблю книжки читать, а не с мониторингом разбираться.
А что вы можете предложить.
Вот и мне интересно:
Мое мнение - вас не устраивает. Самостоятельно изучить вопрос - не-а, это не для вас. На вопрос "что вас бы устроило?" - вы, похоже, и сами не знаете, что ответить.
Вы хотите, чтобы я вам посоветовал - что делать?
aaa:
Вас зовут Н. Г. Чернышевский?
Или В. И. Ульянов-Ленин?
Вы серьезно считаете, что будучи в 2500 км от Москвы и 12000 км от Эквадора,
не имея никакого отношения ни к правоохранителям, ни к правооблаЖателям,
я займусь исследованием вопросов "что происходит?", "кто виноват?" и "что делать?"
Я лучше кофе попью с хз чьего производства сахаром :)
-------------------------------------------------------------------------------------------------------------
Неужели ситуация действительно настолько плачевна? :)
Что до сабжевого проекта - лично я всеми конечностями за, и готова поддерживать по мере сил. Только один вопрос к Jolly Roger - возможен ли запуск такого проекта тут, на либрусеке, или я чего-то не понимаю?
Отв: Распределённые корректоры
Ну это уж точно не ко мне вопрос. "Мопед не мой", я просто на удачу запускаю идею в ноосферу...
Уверен лишь, что если такой проект появится, то мы его задействуем в интересах Либрусека наверняка. :)
Отв: Распределённые корректоры
Спокойствие, только спокойствие.... У нас и у самих планшетные сканеры найдутся! :)
Если серьезно, источник сканов в Рунете далеко не единственный - раз.
Предлагаемый проект - не распределенное сканирование и не распределенный OCR, а именно вычитка. Ей тут и так только ленивый не занимается. :) Думаю, что прочитать и вычитать интересующую книгу целиком - более удобно, чем покусочно.
Отв: Распределённые корректоры
Ну дык. Олдмаглиб и Ершов - с ходу.
Да, но "гуртом батька бить легчей" и такая система позволяет производить вычитку гораздо быстрее и качественнее.
Отв: Распределённые корректоры
Возможно, просто непривычно как-то. Скажем так: я - эгоист, и горд тем, что сам этого достиг. Если кто-нибудь такую систему развернет, готов принять участие в тестировании и эксплуатации. Но поднимать сам даже и пытаться не буду, зашиваюсь :(
Отв: Распределённые корректоры
И это, и то - не очень умные стенания в стиле - ах! что же будет!
В свое время я и сам сканировал книжки и уж с десяток то их по инету гуляет в моем скане. Но потом оказалось, что народ успевает сосканить и выложить раньше, чем я доберусь до любимых авторов (в смысле пока куплю, пока найду время сосканить...). Так что долго ничего не сканил.
Если вдруг окажется, что то, что мне нравится, в бумаге уже давно есть, а в электронном формате нету, будьте спокойны - найду время купить и отсканить. Конечно только тех авторов, которых уважаю. Но вкусы у всех разные, так что не пропадем.
Кроме того, ИМХО, сегодня важнее вычитка. Книжки, в которых все время нужно мысленно одни буквы заменять другими и гадать иногда, что же вообще было написано, уже подзадолбали с тех же фензиновских времен.
А в предлагаемой системе поучаствовал бы безусловно.
Отв: Распределённые корректоры
Что-й то я плохо себе реализацию представляю...
Открытый ОЦР, понимающий русский язык, считай один - CuneiForm.
Сырой, как мох в болоте (я про невиндовый вариант).
Далее - требования к сканам. Они должны быть, видимо, в виде пачки постраничных файлов - а так никто не сканит.
Ну, дежавю ещё можно раздербанить на джипеги, но какчество от этого не повысится... А ПДФ - вообще труба дело.
Угу, ЦПУ-лоад такая хрень будет давать нехилый (хоть и бурстами) - не каждому хостеру понравится.
Вот...
А так - что ж, взять вики-движок (может, докрутить чего), да и выложить "документ", как серию "прошитых" страниц.
В начальный момент - предварительный ОЦР + "иллюстрация" скана.
Правьте до посинения.
Отв: Распределённые корректоры
Идея очень хорошая! Для примера: Сейчас ищу книгу Смирнов Андрей "Дары волшебства". В электронке пока нет, а бумагу не покупаю лет 8. Если бы был скан - помог вычитать. И таких как я, надеюсь здесь много. Так что, дерзай народ мы вас поддержим! А то загнётся литрес с непутёвым фензином - где оперативно брать новинки книжного рынка? Да и качество вычитки некоторых имеющихся текстов оставляет жалкое впечатление.
Отв: Распределённые корректоры
Идея вполне себе интересная. IMHO OCR тут не причем, здесь скорее вычитка и набор ( плюс возможно верстка ) из сканов страниц. Я думаю хранилище страниц из одной книги + какой-нибудь VCS + веб морда/софтина + координатор на каждую книгу -- таким, например, может быть вариант для подобной вычитки экземпляра книги. Оверлода для провайдера здесь не будет, сканеры заливают страницы -> вычитывальщики лочат выложенные страницы и коммитят вычитанне ( набранное ) -> координатор скриптом ( или руками ) собирает готовое -> выкладывает в библиотеку и закрывает текущий проект если нужно ( все готово ).
Думаю, важен такой проект будет не столько для книг в fb2, склолько для книг, в которых важно соответствие верстки.
Вот такое IMHO.
Отв: Распределённые корректоры
Ну, положим, сам редактор можно из WYMeditor'а сделать...
Он - уже "XMLный", для ФБ2 мало чего надо...
А если не FB2/XHTML - тогда как? Что у нас такого для вёрстки есть?
Отв: Распределённые корректоры
Да, с версткой конечно засада, на ум, кроме TeX, быстро ничего не пришло.
Отв: Распределённые корректоры
ото ж...
Отв: Распределённые корректоры
Да можно даже не Вики,а любой нормальный движок с гибкой настройкой прав доступа.
Отв: Распределённые корректоры
Права - сакс.
История/откат - рулез.