Вы здесьВалидация Либрусечной библиотеки
Опубликовано пт, 16/05/2008 - 03:01 пользователем Roman Gl
А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 6 часов
Larisa_F RE:«Юмористическая серия» 1 день Larisa_F RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 1 день Larisa_F RE:Серия "Символы времени" издательства "Аграф" 1 день larin RE:Оплатил, но абонемент не отображается 3 дня nehug@cheaphub.net RE:DNS 1 неделя alexk RE:Багрепорт - 2 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 недели Isais RE:Семейственность в литературе 2 недели Violontan RE:Жан Батист Мольер воскрешенный 2 недели sem14 RE:Гонкуровская премия 3 недели Dead_Space RE:Беженцы с Флибусты 3 недели Саша из Киева RE:Приключения белочки Рыжки 1 месяц alex-from RE:Оплатил два раза, но абонемента нет 1 месяц Kiesza RE:На 78-м году жизни скончался советский и российский... 1 месяц Paul von Sokolovski RE:Бушков умер. 1 месяц lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Isais RE:Издательство "Медуза" 1 месяц Впечатления о книгах
Iron Man про Гессен: Во глубине сибирских руд... (Биографии и Мемуары)
15 12 Восхитило содержание узников "кровавого царизма": «В Чите рудников не было. Здесь работа была другая, более легкая: декабристы чистили казенные хлевы и конюшни, подметали улицы, копали рвы и канавы, строили дороги, мололи ………
mysevra про Каку: Физика невозможного [Physics of the Impossible: A Scientific Exploration into the World of Phasers, Force Fields, Teleportation, and Time Travel ru] (Физика, Научпоп)
15 12 Читается легко, как художественное произведение. Автор – настоящий энтузиаст своего дела, способный объяснить сложные теории простым языком. Самое замечательное то, что книга написана не сегодня и уже многие «предсказанные» ……… Оценка: отлично!
mysevra про Балашова: Фатальное прикосновение (Исторический детектив)
15 12 Начало довольно бодрое, а потом увязли в подробностях и отступлениях. Оценка: неплохо
mysevra про Лондон: Великий кудесник [The Master of Mystery ru] (Классическая проза ХX века)
15 12 Сурово так: методы воспитания детей, способы экзорцизма, да и плата за чудеса. Мне понравилось. Оценка: отлично!
nik_ol про Донцова: Дочь Скупого Клопа (Иронический детектив, Дамский детективный роман)
14 12 Спасибо огромное, что выложили наконец-то! Чмоки) Оценка: хорошо
Kromanion про Лагин: Старик Хоттабыч [litres] (Советская классическая проза, Сказка)
14 12 Старик Хоттабыч почти целиком спижжен с Энсти "Медный кувшин", и отличается лишь противоестественными "острополитическими" вставками, которые, видимо Лагин менял согласно флюгеру внешнеполитического курса. Сами вставки инородны ………
Никос Костакис про Вячеслав Солдатенко (Слава Сэ)
14 12 Я больше классиков люблю: Лёву Тэ или Федю Дэ...
Никос Костакис про Калмыков: На пути «Тайфуна» [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
12 12 Ни один нормальный человек не поверит, что убийцам и грабителям могут дать в руки оружие. И уж тем более, ни одно правительство не пойдет на такой шаг". __________________________ Ну да, ну да...
Isais про Плещеева: Батареи Магнусхольма (Исторический детектив, Шпионский детектив)
11 12 Хотя мне давно отвратительно откровенное имперство автора, перетекающее в путинославие, не могу не признать — исторические детективы у нее получаются. И исторические лучше, чем детективы, потому что детективы у нее случаются ……… Оценка: хорошо
123_abc про Вадим Юрьевич Панов
10 12 Аркада. Вся трилогия с оценкой "отлично". А с учетом времени её написания ещё и "плюс" сверху. Оценка: отлично с плюсом
vvv про Алмазов: Гений Медицины (Героическая фантастика, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
10 12 Медицинская часть интересна. Но остальное... Создается впечатления, что основной целью авторов было показать на примере персонажей, как развитие магии способствует деградации интеллекта.
Лысенко Владимир Андреевич про Земляной: Мастер стихий 3 [СИ] (Боевая фантастика, Технофэнтези, Самиздат, сетевая литература)
10 12 Книга понравилась, читается легко, хотелось бы продолжения. Оценка: отлично! |
Комментарии
Re: Валидация Либрусечной библиотеки
Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.
Re: Валидация Либрусечной библиотеки
Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .
Re: Валидация Либрусечной библиотеки
Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)
Re: Валидация Либрусечной библиотеки
Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.
Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..
Re: Валидация Либрусечной библиотеки
Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.
Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.
Re: Валидация Либрусечной библиотеки
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???
(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)
Re: Валидация Либрусечной библиотеки
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.
Re: Валидация Либрусечной библиотеки
А насчёт "такооого" - вот оно, 24-я глава:
Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.
Re: Валидация Либрусечной библиотеки
Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается
то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.
Re: Валидация Либрусечной библиотеки
Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?
Re: Валидация Либрусечной библиотеки
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Re: Валидация Либрусечной библиотеки
В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)
Re: Валидация Либрусечной библиотеки
+1
Re: Валидация Либрусечной библиотеки
А чем? Есть программы?
Re: Валидация Либрусечной библиотеки
http://vgiv.narod.ru/yo.html
http://python.anabar.ru/yo.htm
Re: Валидация Либрусечной библиотеки
О, сенькс! Эту ещё не пробовал.
Re: Валидация Либрусечной библиотеки
Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(
Re: Валидация Либрусечной библиотеки
Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.
Re: Валидация Либрусечной библиотеки
Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.
Re: Валидация Либрусечной библиотеки
ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).
Re: Валидация Либрусечной библиотеки
Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.
Re: Валидация Либрусечной библиотеки
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?
Re: Валидация Либрусечной библиотеки
А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.
P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!
Re: Валидация Либрусечной библиотеки
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?
По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?
Re: Валидация Либрусечной библиотеки
Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.
p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.
Re: Валидация Либрусечной библиотеки
Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)
Re: Валидация Либрусечной библиотеки
Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(
Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
А я все книги вычитываю... Другие не выкладываю.
Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)
Re: Валидация Либрусечной библиотеки
OK. Спасибо.
Отв: Валидация Либрусечной библиотеки
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.
Отв: Валидация Либрусечной библиотеки
Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...
Отв: Валидация Либрусечной библиотеки
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.
У меня та же проблема, поэтому очень хотелось бы узнать решение.
Отв: Валидация Либрусечной библиотеки
В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.