Вы здесьВалидация Либрусечной библиотеки
Опубликовано пт, 16/05/2008 - 03:01 пользователем Roman Gl
А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
нэнси RE:Подайте бедному копеечку на книжку с литреса... 2 дня
kopak RE:Таинственная личность админа Флибусты 3 дня Isais RE:Не тот автор 5 дней xieergai60 RE:Продление подписки 1 неделя TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 1 неделя Isais RE:Древняя Греция. Читаем... 1 неделя laurentina1 RE:Ирина Александровна Велембовская - Немцы 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Саша из Киева RE:Избранное 2 недели Alligatoreader RE:Багрепорт - 2 2 недели fedor.de RE:Отображение страницы Librusek 3 недели Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 3 недели blahblahblah2024 RE:Беженцы с Флибусты 3 недели sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 3 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 1 месяц Oleg V.Cat RE:B343695 Александр. Книга 1 1 месяц Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц Впечатления о книгах
alexgor1 про Дойль: Затерянный мир (Научная фантастика, Приключения: прочее)
11 12 Огромная благодарность выложившим данную редакцию увлекательного произведения, я сам познакомился с Артуром Конан Дойлом именно по этой книге "Затерянный мир" в мягкой обложке 56 года издательства "Географгиз" в переводе Натальи ……… Оценка: отлично!
udrees про Бубновский: Мифы о здоровье. Откуда берутся болезни (Здоровье, Альтернативная медицина)
09 12 Когда я начал читать книгу, то был немного разочарован тем, что она написана при поддержке и содействии канала «Военная тайна» и Игоря Прокопенко. Уже одно это говорит о «качестве» материала. Не знаю, уж знал Бубновский о ……… Оценка: плохо
udrees про Бубновский: Здоровье позвоночника. Упражнения от болей в шее и спине при остеохондрозе и межпозвоночных грыжах. Золотая книга [litres] (Медицина, Здоровье)
09 12 Хорошая очередная книга от Бубновского. Узнал кое-что новое, даже в дополнение после прочитанных его других книг. Например, про грыжу много написано. Есть иллюстрации и описания упражнений. Будет полезно прочитать всем, кто страдает от болей в спине. Оценка: хорошо
udrees про Бубновский: Заговор фармацевтов (Альтернативные науки и научные теории)
09 12 Книга, сочетания которой я не понимаю. С одной стороны Бубновский, серьезный доктор, лечащий болезни спины у людей, методику и советы которого лично я тоже использую, и которая помогла мне избавиться от сильных болей в шее. ……… Оценка: плохо
udrees про Бубновский: Колени и стопы без боли. Как сохранить и восстановить подвижность суставов в домашних условиях [litres] (Здоровье)
09 12 Все правильно описано, подробно, с изложением анатомии простым языком, примерами из жизни. Приведены упражнения с иллюстрациями. Их правда не так много, как обычно в других его книгах по кинезитерапии. Прочитать будет полезно, ……… Оценка: отлично!
Maxxim про Терентьев: Точка невозврата (Боевик)
08 12 началось живенько и идея ничего, но потом.... вдаваться смысла нет ,в общем - автор дурак.
Sello про Розенблат: Рассказы [СИ] (Проза, Эссе, очерк, этюд, набросок)
08 12 Я не знаю, где живет сейчас этот товарищ, но, по указанной дате под рассказиками, в 2016г. он пребывал в Израиле. Вот проблема. "Писатель" выставляет перед некоторыми текстами эпиграфы из Набокова, а собственно само написанное ……… Оценка: нечитаемо
Dongel про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
07 12 Дочитал четвертую книгу цикла. Мне очень понравилось! Во-первых, автор проделал колоссальную работу, собирая исторические и архивные материалы. Во-вторых, все повествование очень увлекательно, почти нигде нет "провисающих" ……… Оценка: отлично!
Саша из Киева про Шатирян: Музыкантская команда (Детская проза)
07 12 Кто-нибудь сможет преобразовать эту книгу из djvu в fb2?
Олег Макаров. про Мусаниф: Во имя рейтинга (Юмористическая фантастика)
07 12 Великолепная книга. Как, в общем-то и все остальные у Мусанифа. Что касается мнения уважаемой Vetrenitsa «я категорически не согласна с тем, что, что по телевизору покажут, в то люди и поверят» — думаю, последние три ……… Оценка: отлично!
Isais про Велипольский: Три «Остапа» [СИ] (Научная фантастика, Самиздат, сетевая литература)
06 12 Это, надо заметить, очень редкая птица — научная фантастика, которую следовало бы написать и издать в 1924-м. Или, по крайней мере, в 1956-м. А она каким-то странным образом залетела в 2016-й... Выходит, и среди рассказов бывают «попаданцы».
Mila_48 про Сорока: Чорна Рада, 1663 [uk] (История)
06 12 С благодарностью верстальщику за возможность прочитать эту книгу. Удачи! Оценка: отлично! |
Комментарии
Re: Валидация Либрусечной библиотеки
Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.
Re: Валидация Либрусечной библиотеки
Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .
Re: Валидация Либрусечной библиотеки
Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)
Re: Валидация Либрусечной библиотеки
Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.
Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..
Re: Валидация Либрусечной библиотеки
Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.
Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.
Re: Валидация Либрусечной библиотеки
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???
(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)
Re: Валидация Либрусечной библиотеки
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.
Re: Валидация Либрусечной библиотеки
А насчёт "такооого" - вот оно, 24-я глава:
Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.
Re: Валидация Либрусечной библиотеки
Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается
то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.
Re: Валидация Либрусечной библиотеки
Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?
Re: Валидация Либрусечной библиотеки
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Re: Валидация Либрусечной библиотеки
В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)
Re: Валидация Либрусечной библиотеки
+1
Re: Валидация Либрусечной библиотеки
А чем? Есть программы?
Re: Валидация Либрусечной библиотеки
http://vgiv.narod.ru/yo.html
http://python.anabar.ru/yo.htm
Re: Валидация Либрусечной библиотеки
О, сенькс! Эту ещё не пробовал.
Re: Валидация Либрусечной библиотеки
Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(
Re: Валидация Либрусечной библиотеки
Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.
Re: Валидация Либрусечной библиотеки
Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.
Re: Валидация Либрусечной библиотеки
ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).
Re: Валидация Либрусечной библиотеки
Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.
Re: Валидация Либрусечной библиотеки
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?
Re: Валидация Либрусечной библиотеки
А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.
P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!
Re: Валидация Либрусечной библиотеки
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?
По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?
Re: Валидация Либрусечной библиотеки
Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.
p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.
Re: Валидация Либрусечной библиотеки
Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)
Re: Валидация Либрусечной библиотеки
Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(
Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
А я все книги вычитываю... Другие не выкладываю.
Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)
Re: Валидация Либрусечной библиотеки
OK. Спасибо.
Отв: Валидация Либрусечной библиотеки
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.
Отв: Валидация Либрусечной библиотеки
Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...
Отв: Валидация Либрусечной библиотеки
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.
У меня та же проблема, поэтому очень хотелось бы узнать решение.
Отв: Валидация Либрусечной библиотеки
В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.