Статистика валидности fb2 файлов в библиотеках

Выкладываю статистику по пяти коллекциям книг в формате fb2.

Пояснения к статистике

not an xml file - вообще не xml[*].

sax parsing error - проверка на возможность парсинга sax-пасером (здесь используется expat). Самый простой и быстрый парсер xml. Ест всё, что дают. Если файл не парсится sax-парсером вероятность обработки этого файла в какой-либо программе близка к нулю.

dom parsing error - более продвинутый и более строгий dom-парсер (здесь используется libxml2). Применяется во многих программах.

fb2 schema violation - проверка на соответствие схеме fb2. Большинство программ смогут обработать файл нарушающий схему, однако возможны проблемы при автоматической конвертации в другие форматы.

inconsistent fb2 file - проверка на консистентность. Ссылки в никуда, отсутствующие сноски, отсутствующие изображения и наоборот неприлинкованные изображения. Проверка на консистентность производится если файл прошел проверку dom-парсером.

good files - файл прошедший все тесты.

[*] xml файл должен начинаться со строки "<?xml" (плюс BOM). Если это не так, то файл скорее всего вообще не xml. Также возможно это проблемы с zip архивами.

Статистика

Либрусек после удаления дублей (убитых книг). 87141 файл.

not an xml file: 2 (0%)
sax parsing error: 4444 (5%)
dom parsing error: 0 (0%)
fb2 schema violation: 28508 (33%)
inconsistent fb2 file: 979 (1%)
good files: 53467 (61%)

Либрусек полностью. 115603 файла.

not an xml file: 173 (0%)
sax parsing error: 7335 (6%)
dom parsing error: 1 (0%)
fb2 schema violation: 38119 (33%)
inconsistent fb2 file: 1454 (1%)
good files: 69064 (60%)

Библиотека Траума v.2.9. 78329 файлов.

not an xml file: 0 (0%)
sax parsing error: 2104 (3%)
dom parsing error: 0 (0%)
fb2 schema violation: 19299 (25%)
inconsistent fb2 file: 1583 (2%)
good files: 55619 (71%)

Библиотека Траума v.2.5. Файлы обработаны утилитой fb2fix. 75200 файлов.

not an xml file: 0 (0%)
sax parsing error: 1 (0%)
dom parsing error: 6 (0%)
fb2 schema violation: 4176 (6%)
inconsistent fb2 file: 1341 (2%)
good files: 69881 (93%)

И на закуску файлы из магазина Литрес. 5524 файла.

not an xml file: 0 (0%)
sax parsing error: 0 (0%)
dom parsing error: 0 (0%)
fb2 schema violation: 112 (2%)
inconsistent fb2 file: 9 (0%)
good files: 5403 (98%)

(У них там что, другая схема? Или они файлы перед продажей даже на соответствие схеме не проверяют?)

--
Такие вот дела.

Комментарии

А можно списки файлов (по пунктам)?

lankier написал:
Такие вот дела.

Интересно было бы посмотреть разбивку по "fb2 schema violation" - какие именно нарушения. Если это возможно, конечно. У меня интуитивное ощущение, что большинство нарушений будет из-за жанров. Если не ошибаюсь, в схеме нет жанров "other" и "prose".

larin написал:
А можно списки файлов (по пунктам)?

Из без дублей? Или из всех?

larin написал:
А можно списки файлов (по пунктам)?

Где-то примерно 7598.
Это не значит, что в этих файлах нет других ошибок.

lankier написал:

Из без дублей? Или из всех?

Лучше всех, желательно с ID
Ещё скрипт, который это всё насчитал - запустить его прям на сервере.

larin написал:
Лучше всех, желательно с ID

id - это fb2 id?

larin написал:
Ещё скрипт, который это всё насчитал - запустить его прям на сервере.

Скрипт fb2stat из fb2utils
Нужен питон :) + python-lxml + BeautifulSoup (BeautifulSoup - это один файл BeautifulSoup.py, его можно кинуть в каталог fb2utils.

Запускать python fb2stat.py dirs|files 2>log

lankier написал:

Скрипт fb2stat из fb2utils
Нужен питон :) + python-lxml + BeautifulSoup (BeautifulSoup - это один файл BeautifulSoup.py, его можно кинуть в каталог fb2utils.
Запускать python fb2stat.py dirs|files 2>log

Спасибо, поиграюсь.

lankier написал:
larin написал:
А можно списки файлов (по пунктам)?

Из без дублей? Или из всех?
larin написал:
А можно списки файлов (по пунктам)?

Где-то примерно 7598.
Это не значит, что в этих файлах нет других ошибок.

Копипаст - рулит. :)
Я имел в виду: 7598 файлов нарушают жанры. Это не значит, что в этих файлах нет других ошибок.

lankier написал:

Я имел в виду: 7598 файлов нарушают жанры. Это не значит, что в этих файлах нет других ошибок.

Можно оторвать проверку жанров?
Не такое уж это и нарушение, с учётом того что у Грибова список и названия жанров постоянно меняются, да и не все нужные жанры у него есть.

Я сайчас поменял схему в соответствии с жанрами на либрусеке. Если этого жанра нет в библиотеке - будет не соответствовать схеме. По-моему так правильно.

Я тут еще переписал валидатор на php. Сейчас работает из ком. строки. Где-то так:

php validator.php b/a.fb2
<b>Найдены ошибки!</b><br />
<b>Error 1871</b>: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}src-lang': This element is not expected. Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}author, {http://www.gribuser.ru/xml/fictionbook/2.0}book-title ). in <b>/home/con/Projects/fb2ut/b/a.fb2</b> on line <b>10</b><br />
<b style="color:red">Плохой файл</b><br />

Да, вот еще. У меня работает с этим:
$ php -i | egrep 'libxml2|Schema|XPath'
XPath Support => enabled
Schema Support => enabled
Schema support => enabled
libxml2 Version => 2.6.32

Файлы схемы можно взять в fb2utils в каталоге fb2utils/fb221schema/

lankier написал:
Да, вот еще. У меня работает с этим:
$ php -i | egrep 'libxml2|Schema|XPath'
XPath Support => enabled
Schema Support => enabled
Schema support => enabled
libxml2 Version => 2.6.32

У меня:
php -i | egrep 'libxml2|Schema|XPath'
Schema support => enabled
libxml2 Version => 2.6.32
чего-то не хватает?
Апач говорит
PHP Fatal error: Class 'DOMDocument' not found in /www/modules/librusec/validator.inc on line 53

yum install php-xml ?
или php5-xml

Я там ещё в скрипте ошибку нашел: в начале функции xml_validate вместо "global $errors;" следует читать "global $errors, $xsd_path;"

lankier написал:
yum install php-xml ?

Оно, спасибо.

lankier написал:
Я там ещё в скрипте ошибку нашел: в начале функции xml_validate вместо "global $errors;" следует читать "global $errors, $xsd_path;"

global $errors; в больших проектах не бывает.
du -c includes/ modules/*/*inc modules/*/*module - 5348 total
стрёмное название, нет уверенности что ни с чем не пересечётся в 5 метрах пыха.
я все глобалы собрал в одну переменную и обозвал её $validate_errors, во избежание.

Ну этот скрипт скорее не догма, а руководство к действию. Там можно еще сообщения об ошибках подправить/перевести, или формат вывода.

Вот такую штуку бы прикрутить к добавлению книги... и чтобы выдавала что за ошибка - было бы просто замечательно!

Там в комплект входит скрипт fb2validator. Вот он выводит подробный разбор ошибок.
Типа:

*** Validation of file b/a.fb2 ***
* Try the DOM parser *
xml validity check passed
* Schema validation *
Schemas validity ERROR: <string>:10:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}src-lang': This element is not expected. Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}author, {http://www.gribuser.ru/xml/fictionbook/2.0}book-title ).
fb2 validity check failed
> Some errors found <
----
*** Validation of file b/example.fb2 ***
* Try the DOM parser *
xml validity check passed
* Schema validation *
fb2 validity check passed
* Extra FB2 checkup *
ERROR: external note: bad
ERROR: local external link: bad
ERROR: not linked image: tolstoy_port.jpeg
> Some errors found <

Если его запустить с ключом -m, выводит рапорт в html.

А с жанрами в схеме вообще какая-то фигня.

Вот жанры, которые есть на либрусеке, но нет в схеме:

comp_dsp
love
notes
other
prose
religion_budda
sci_anachem
sci_biochem
sci_biophys
sci_build
sci_business
sci_cosmos
sci_economy
sci_geo
sci_metal
sci_orgchem
sci_physchem
sci_radio
sci_state
sci_transport
sf_fantasy_city
sf_postapocalyptic

А вот наоборот, есть в схеме, но нет на либрусеке:

accounting
banking
economics
economics_ref
global_economy
industries
job_hunting
love_sf
management
marketing
org_behavior
paper_work
personal_finance
popular_business
real_estate
small_business
stock

Добавил в схему жанры, которые есть на либрусеке. Но я вам скажу, что вот это не есть хорошо:

prose_rus_classic
prose_su_classics

Почему rus а не ru? Почему в одном случае с s на конце, а в другом без?

Прогнал весь либрусек (с удаленными) с новыми жанрами. Результат:

total files: 115603
not an xml file: 173 (0%)
sax parsing error: 7335 (6%)
dom parsing error: 1 (0%)
fb2 schema violation: 32363 (28%)
inconsistent fb2 file: 1454 (1%)
good files: 74793 (65%)

Минус 5756 файлов.

От Грибова консистентности захотел ? Он формат делал по принципу "что маю то и несу" , начинание вообще то было благое и к месту пришлось но систематизации там почти нет, чего стоят одни ID которые как GUID но не все :) , а даты где DATE а где текстом? А непродуманость вообще самой системы ID книгам ? ...

lankier написал:

Прогнал весь либрусек (с удаленными) с новыми жанрами. Результат:
total files: 115603
not an xml file: 173 (0%)
sax parsing error: 7335 (6%)
dom parsing error: 1 (0%)
fb2 schema violation: 32363 (28%)
inconsistent fb2 file: 1454 (1%)
good files: 74793 (65%)

Минус 5756 файлов.

Гм... я правильно понимаю, что только 5756 файлов нарушают жанры, а 32363 файла нарушают в fb2-схеме что-то другое? Мне казалось что нарушений жанров будет больше, а других - меньше...

Минус 5756 файлов - это по сравнению с предыдущим тестом.
Сейчас в схеме указаны все жанры, которые есть на либрусеке. В предыдущем тесте в схеме были только жанры от ГрибЮзера.

Я не думаю, что основное нарушение схемы это жанры. Там много чего разного - отсутствующие обязательные теги, неправильная последовательность (например по схеме в "author" строгая последовательность "first-name" - "middle-name" - "last-name" - и т.д.)

В последнем тесте неправильная последовательность (grep 'This element is not expected') встречается 78765 раз (не файлов). Ошибка жанров (grep 'The value .* is not an element of the set') - 3466 раз.

Ошибки в файлах литреса в основном из-за пустого "body type="note"" (комментариев нет, а соответствующее "body" - есть).

lankier написал:

Я не думаю, что основное нарушение схемы это жанры. Там много чего разного - отсутствующие обязательные теги, неправильная последовательность (например по схеме в "author" строгая последовательность "first-name" - "middle-name" - "last-name" - и т.д.)

Понял, спасибо.

С жанрами есть вот еще какая проблема. Список жанров в fb-2.1 изменился по сравнению с fb-2.0. (На fictionbook.org есть спец таблица для конвертации.) А во многих старых файлах остались старые жанры.

Дейсвительно неправильных жанров не так уж много. Я тут составил список таких жанров и их соответствие правильным:

105 other
Prose prose
adv_history_avant adv_history
fictionbook.cs other
literature_japan prose
proce prose
prose_root prose
prose_rus_classics prose_rus_classic
prose_su_classic prose_su_classics
rel_boddizm religion_budda
sf_fantasy_humor sf_fantasy
sf_history_avant sf_history
Encyclopaedia ref_encyc
SF sf
Warhammer 40k sf
Аватар пользователя s_Sergius

Вот ещё пример невалидности: файл, пришедший с литреса http://lib.rus.ec/b/144439 - Испанский поход (Легион-5)- Алексей Миронов (А.Я.Живой) - Александр Прозоров.
FB Editor 2.0 ругается на автора А.Я.Живого, у которого указаны тэги id.../id и home-page.../home-page. Если же поменять их местами или удалить любой из них, то всё становится вполне валидным.

s_Sergius написал:
FB Editor 2.0 ругается на автора А.Я.Живого, у которого указаны тэги id.../id и home-page.../home-page. Если же поменять их местами или удалить любой из них, то всё становится вполне валидным.

На литресе щас новая версия FBE. Соответственно с новой схемой. Думаю там все валидно :)
X