Доска почета

Продолжаем исследовать валидность файлов в библиотеке. Три последних архива по 1000 после удаления дублей. Проверка на внутреннюю консистентность.

Сообщения об ошибках:

not linked image - в файле присутствует изображение на которое нет ссылки в тексте. Соответственно изображение показано не будет.

external image - ссылка на внешнее изображение. Не все (ни одна?) читалки умеют загружать внешние изображения.

bad internal link - внутренняя ссылка, которая никуда не ведет. Есть href="#foo", но нет тега с соответствующим id.

bad external link - неправильная внешняя ссылка. Правильная должна начинаться с "http:", "https:", "ftp:", "mailto:". Чисто теоретически возможны другие протоколы (например gopher), но они не проверяются.

external note - внешняя сноска.

empty link - пустая ссылка.

очень много ошибок - ошибок слишком много. Чтобы не мусорить в эфире они не показаны.

137573-138420.zip

Хэнкок - Следы богов bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/ (исправлено)

138421-139848.zip

Фронтин - Стратегеммы. Военные хитрости очень много ошибок
Gerritsen - Never say die очень много ошибок
Современник - Журнал Наш Современник 2001 #1 очень много ошибок
Современник - Журнал Наш Современник 2001 #3 очень много ошибок
Завтра - Газета Завтра 794 (58 2009) bad internal link: #http://zavtra.ru/cgi//veil//zavtra/sos.html
Лем - Мгновение очень много ошибок (исправлено)
НАЛИМОВ - СПОНТАННОСТЬ СОЗНАНИЯ очень много ошибок
Иванов - Тайны гибели цивилизаций bad internal link: #n_1» (книга отмечена знаком какчества) (исправлено)
Волошин - Произведения 1925-1929 годов bad internal link: #n_2 (исправлено)
Форсайт - Мститель bad internal link: #http://www.smartlib.ru/ (книга отмечена знаком какчества) (исправлено)
Прорез - Спуск клинка not linked image: i_08_01_14.jpg, not linked image: i_08_01_13.jpg
Гальего - Я сижу на берегу external image: cover.png, not linked image: cover.png (исправлено)
Артюхова - Светлана not linked image: _2.JPG, not linked image: _1.JPG
Раннамаа - КАДРИ not linked image: _01.jpg, not linked image: image028.jpg
Андрей - Быть драконом 2 очень много ошибок (это вообще финиш, в description есть только book-title, author/first-name, author/last-name, причем имя и фамилия перепутаны местами) (исправлено)
Эфрон - Письма М. И. Цветаевой bad internal link: #undefined
Жданова - Крылья Феникса bad internal link: #http://myfhology.narod.ru/monsters/demons/v/demon-velzevul.html
Жданова - Поймать Тень очень много ошибок
Koontz - Nocturno bad internal link: #F:\entaja, bad internal link: #F:\oca\izarios
Прорез - Американский танто: феномен популярности not linked image: i_06_06_3_03.png (исправлено)
Garwood - Danza de sombras очень много ошибок
Костенко - На «Орле» в Цусиме: Воспоминания участника русско-японской войны на море в 1904–1905 гг. not linked image: t1.png
Казанцев - Звездные пришельцы. (с фото) not linked image: zpfot09_.jpg_0, not linked image: zpfot17_.jpg

139850-140188.zip

Диккенс - Посмертные записки Пиквикского клуба bad internal link: #undefined (исправлено)
Правдин - Море ясности not linked image: _0.jpg_0 (книга отмечена знаком какчества) (исправлено)
Мальцев - Невидимая битва bad internal link: #_ednref1

Комментарии

Если файлов не так много как ты пишешь то пожалуйста просто поправь а не разводи полемику :)

Это только три последних архива.

Исправлены:
Правдин - Море ясности
Гальего - Я сижу на берегу
Хэнкок - Следы богов
Иванов - Тайны гибели цивилизаций

Аватар пользователя s_Sergius

Стерхов Андрей - Быть драконом 2 ушла в архив.

Заменил Лем - "Мгновение" на новую книжку с Литреса http://lib.rus.ec/b/144772.

Исправлено:
Волошин - Произведения 1925-1929 годов
Диккенс - Посмертные записки Пиквикского клуба

Прорез поправлю

Прорез - Спуск клинка - при замене выдает "В FB2 не найдено название книги. Такой FB2 нам не нужен". Название, разумеется, есть. Глюк

Прорез - Американский танто: феномен популярности - Поправил

Следующие пять архивов.

126783-129609.zip

Пратчетт - Правда bad internal link: #back_f_5
Талбот - Голографическая Вселенная not linked image: image017.jpg
Шварц - Дракон очень много ошибок
Шварц - Обыкновенное чудо очень много ошибок
Монтгомери - Энн в Инглсайде not linked image: _9.png
Ryman - Lust Or No Harm Done bad internal link: #F:\PDABooksAZ\tli.it
Горалик - Полая женщина. Мир Барби изнутри и снаружи not linked image: image007.jpg
Климов - Князь мира сего not linked image: cover_1992.jpg, not linked image: cover_1995.jpg, not linked image: cover_2004_2.jpg
Арестова - Последняя улика not linked image: Poslul02.png
МИРОНОВ - СТАТТЬИ, ВЫСТУПЛЕНИЯ очень много ошибок
Анчаров - Козу продам bad internal link: #pic_1.png
Pitman - A Chinese Wonder Book очень много ошибок
Руднев - Прочь от реальности: Исследования по философии текста bad internal link: #table01.png, bad internal link: #table02.png

129610-131221.zip

Довлатов - Соло на IBM not linked image: cover_2008.jpg
Каганов - Чёрная кровь Трансильвании bad internal link: #mailto: , bad internal link: #RemLinkWeb_1
AGA Rules Committee - Official AGA Rules of Go bad internal link: #http://www-2.cs.cmu.edu/~wjh/go/rules/AGA.html
Алехин - Ночное ограбление bad internal link: #AutBody_0anchor-1, bad internal link: #AutBody_0anchor-2, bad internal link: #AutBody_0anchor-3
Сикибу - Повесть о Гэндзи (Гэндзи-моногатари) bad internal link: #, external note: file://\\], bad internal link: #
Галина - Бард bad internal link: #mailto:г.@the-ebook.org
Шаляпин - Страницы из моей жизни. очень много ошибок
Miéville - Blizna bad internal link: #F:\fewidoczny
Архангельский - Тайм-драйв. Как успевать жить и работать очень много ошибок
Ерпылев - Расколотые небеса bad internal link: #_ftnref26
Фабри - Основы зоопсихологии очень много ошибок
Ионина - 100 великих картин (с репродукциями) not linked image: _53.jpg_0
Шаляпин - Маска и душа очень много ошибок
Перемолотов - Тень воина bad internal link: #undefined
None - Сатанаил not linked image: _2.jpg
Паулк - Модель зрелости процессов разработки программного обеспечения bad internal link: #http://www.ryabikin.com/
Ашкенази - 70 и еще 5 лет в строю. Книги. Наука и техника bad internal link: #http://n-t.ru/ri/as/70_p00.jpg
Saramago - O homem duplicado bad internal link: #_ftnref1
Heinlein - A Stranger in a Strange Land bad internal link: #11D277, bad internal link: #11D282, bad internal link: #11D28D, bad internal link: #11D298
Ситчин - Боги Армагеддона. Иногда они возвращаются… bad internal link: #sclex
Холдеман - Мост к разуму external image: cover.jpg, not linked image: cover.jpg
Рат-Вег - История человеческой глупости bad internal link: #fbw_updater
Завтра - Газета Завтра 210 (49 1997) bad internal link: #http://zavtra.ru/cgi//veil//data/zavtra/97/210/72letter.html

131222-131486.zip

None - В защиту науки (Бюллетень 1) очень много ошибок

131487-132658.zip

Латынина - 200 км танков. О российско-грузинской войне bad internal link: #http://www.yakochurov.ru, bad internal link: #http://www.aeronautics.ru, bad internal link: #http://www.newstube.ru/
БЕЛКОВСКИЙ - Апология Авена очень много ошибок
Сарамаго - Слепота external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_1, external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_2
Shaogong - A Dictionary of Maqiao bad internal link: #sticky
Веллер - Гражданская история безумной войны not linked image: pic_2.jpg
Современник - Журнал Наш Современник 2007 #7 очень много ошибок
Современник - Журнал Наш Современник 2008 #8 очень много ошибок
Гарифзянов Панова_ - Откровения Ангелов Хранителей _ 1_Начало bad internal link: #C:\OMKHU
Гарифзянов Панова - Откровения Ангелов Хранителей _ 10_Пирамиды-Космодром Инопланетян очень много ошибок
Гарифзянов Панова - Откровения Ангелов-Хранителей_8_Неизлечимых болезней нет. bad internal link: #_ftn1, bad internal link: #_ftnref1
Правдина - Я исполняю желания bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Раманантата - Упражнения йоги для глаз очень много ошибок
Татищев - «Возрождение ведической культуры» очень много ошибок
Татищев Б.Ю. - Советы Волхва очень много ошибок
Татищев Б.Ю. - Гиперборейское учение очень много ошибок
Данилов - Гражданская война в Испании (1936 – 1939). очень много ошибок
Даштенц - Зов пахарей очень много ошибок
Мориц - Букет котов очень много ошибок
Моисеев - Как я был «южнокорейским шпионом» очень много ошибок
Мориц - И в чёрных списках мне светло очень много ошибок
Мориц - Лицо очень много ошибок
Степанов - Число и культура очень много ошибок
Дольник - Непослушное дитя биосферы. Беседа третья и четвертая not linked image: dolnikcover.jpg, not linked image: doc2fb_image_02000001.jpg, not linked image: doc2fb_image_02000032.jpg
Andreasson - Iptables Tutorial 1.2.2 очень много ошибок
None - Журнал "Компьютерра" N760 очень много ошибок
Бурже - Ученик not linked image: unused_pic_3.png, not linked image: unused_pic_4.png, not linked image: unused__1.jpg
Сяолун - Закон триады bad internal link: #_ftn4, bad internal link: #_ftn5, bad internal link: #_ftn6
Meyer - Twilight bad external link: file:///C:/Program%20Files/Program%20FilesABC%20Amber%20Text%20Converterfansofrealitytv.com
Meyer - New Moon not linked image: Front.jpg
Ван Вогт - ФАТА-МОРГАНА 2 (Фантастические рассказы и повести) bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Завтра - Газета Завтра 212 (51 1997) очень много ошибок

132659-133498.zip

Олдисс - ФАТА-МОРГАНА 8 (Фантастические рассказы и повести) not linked image: _.jpg_0
Равалек - Ностальгия по черной магии not linked image: pic_2.jpg, not linked image: pic_3.jpg
Маковельский - История логики external image: [FIXME]
Лем - Операция "Вечность" (сборник) not linked image: unused_pic_1.png
Пол - Операция «Венера» ( Торговцы космосом) bad internal link: #http://fantlab.ru/work99072
Комацу - Продается Япония (сборник) очень много ошибок
Гамалей - Мой первый видеофильм от А до Я bad internal link: #n_1
Лермонтов - Полное собрание стихотворений очень много ошибок
Ющук - Блог. Создать и раскрутить очень много ошибок
Балаж - Космический госпиталь (сборник) bad internal link: #n_8, not linked image: unused_cover.png, not linked image: unused_i_002.jpg
Моррисон - Пиршество демонов not linked image: pic_1.png
Калюжный - Другая история литературы bad internal link: #undefined
Русанов - Ворлок из Гардарики очень много ошибок
Косидовский - Когда Солнце было богом очень много ошибок
Кузнецов - Кембрийский период (Часть 1 — полностью, часть 2 — главы 1–5) bad internal link: #mailto:

Лермонтов - Полное собрание стихотворений - файл с литреса:

* Schema validation *
Schemas validity ERROR: <string>:2742:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
ERROR: bad internal link: #n_4
ERROR: bad internal link: #n_5
ERROR: bad internal link: #n_6
ERROR: bad internal link: #n_7
ERROR: bad internal link: #n_8
ERROR: bad internal link: #n_9
ERROR: bad internal link: #n_10
ERROR: bad internal link: #n_11
ERROR: bad internal link: #n_12
ERROR: bad internal link: #n_13
ERROR: bad internal link: #n_14
ERROR: bad internal link: #n_15
ERROR: bad internal link: #n_16
ERROR: bad internal link: #n_17
ERROR: bad internal link: #n_18

И еще три файла с литреса:

Ющук - Блог. Создать и раскрутить

* Extra FB2 checkup *
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/ru.wikipedia.org/wiki/
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/humour.sysadminday.com.ru/read.phtml
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/pc-terms.com.ru/ru3.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/zcom.skyfamily.ru/st21.htm
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/27194.pbnet.ru/base/view/news/1097887076/9252/full
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/kag.sc.ru/teoria/slovar_virtualnogo_pilota.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/googlerussiablog.blogspot.com/2006/09/blog-post_18.html

Русанов - Ворлок из Гардарики

* Schema validation *
Schemas validity ERROR: <string>:3977:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
[и т.д.]
ERROR: bad internal link: #n_163
ERROR: bad internal link: #n_164
ERROR: bad internal link: #n_165

Гамалей - Мой первый видеофильм от А до Я

* Schema validation *
Schemas validity ERROR: <string>:1830:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1

Похоже это война с ветряными мельницами.

lankier написал:

Похоже это война с ветряными мельницами.

Если бы прикрутить такую проверку при загрузке новых файлов, это не было бы так похоже на войну с ветряными мельницами. А, вообще, это технически возможно?

Я на(пере)писал этот скрипт на php, и Ларин вроде даже заинтересовался. Посмотрим.

Но тут еще вопрос: делать ли эту проверку обязательной - все файлы не прошедшие проверку отвергаются. Или как рекомендацию - выводить лог проверки, но файл принимать (возможно с занесением в базу данных статуса проверки). Мне (естественно :) больше нравится первый вариант.

Думаю что из за некорректно оформленной внешней ссылки, нестоит отвергать потенциально уникальный файл.
Все равно от книжек-недоделок, сляпаных коекакерами в букдизайнере, это не спасет - они абсолютно валидны.

Добросовестный человек, увидев сообщение об ошибке, быстренько её поправит и перезальет по новой. Это даже хорошо - для добросовестного. А те кто тяп-ляп - забьют, и это тоже хорошо - для библиотеки.

lankier написал:
Добросовестный человек, увидев сообщение об ошибке, быстренько её поправит и перезальет по новой. Это даже хорошо - для добросовестного.

Ну дык кто спорит?
lankier написал:
А те кто тяп-ляп - забьют, и это тоже хорошо - для библиотеки.

В библиотеке 44 тысячи книг, сделанных тяп-ляп. Она большая, стерпит. Повторяю - невалидность далеко не самая большая проблемма библиотеки. Файл с лишней картинкой, больше на 30 кб, невалиден с точки зрения скрипта, но читать его это не мешает. А файл в котором к примеру отсутствуют сноски, от этого не становится менее валидным, однако ж читать его порой затруднительно.

Bullfear написал:
Она большая, стерпит.

Кстати, тут вот такая мысль пришла. Пройти валидатором по всем fb2 файлам в библиотеке и все невалидные[*] файлы пометить в базе данных как невалидные. И дальше с ними ничего не делать. Не преобразовывать в другие форматы, не синхронизировать и т.п. Скачивайте как есть.

[*] Невалидные - те, кто не парсятся xml-парсером, на соответствие схеме можно пока не обращать внимание.

Ммм, а такие есть? Если книшка совсем не парсится, откуда библиотека возьмет о ней данные для занесения в базу?
А если ты про rusec-файлы, то я только за. Меньше будет вопросов из серии "Текст обрывается на середине!". Кстати обрывается он похоже исключительно из за знаков <>.

Bullfear написал:
Если книшка совсем не парсится, откуда библиотека возьмет о ней данные для занесения в базу?

sax-парсер парсит последовательно и может обработать description до того как обломится.

Bullfear написал:
А если ты про rusec-файлы, то я только за. Меньше будет вопросов из серии "Текст обрывается на середине!".

Ага, именно. Таких файлов 5-6%. Но там не только librusec-kit.

Bullfear написал:
Кстати обрывается он похоже исключительно из за знаков <>.

Для dom-парсера могут быть критичны и другие ошибки. Видел ошибку с namespaces: в теге FictionBook указано xmlns:xlink="http://www.w3.org/1999/xlink", а используется l:href="..." (точнее там использовалось и l:href и xlink:href)

Я тут выступаю не защитником интересов читателей, а адвокатом движка библиотеки. Если бы все файлы в библиотеке были валидными - меньше было бы технических проблем. Например, можно было бы парсить файлы dom-парсером и синхронизировать базу данных и fb2 файл. (Если бы да кабы...)

А уникальный контент в любом случае лучше заливать как есть - больше информации сохранится.

lankier написал:
А уникальный контент в любом случае лучше заливать как есть - больше информации сохранится.

Это смотря что за контент, что за формат и т.д.
lankier написал:
Я тут выступаю не защитником интересов читателей, а адвокатом движка библиотеки.

Ну библиотека все-таки не "вещь в себе", а как бы для читателей...
lankier написал:
Например, можно было бы парсить файлы dom-парсером и синхронизировать базу данных и fb2 файл.

*Мечтательно* Здорово бы было...
*Трезвея* Учитывая как "аккуратно" и "корректно" либрусек конвертирует fb2 в txt... Лучше наверное не надо. А то останется от того fb2 страниц 10, а потом будем локти кусать, кто виноват, да что делать...

Bullfear написал:
Трезвея

Поэтому я и говорю про дом-парсер. Там код будет очень простой, не такой как в parser.inc, где используется sax.

К примеру, вот код получения фамилий авторов:

$xpath = new DOMXpath($dom);
$xpath->registerNamespace("m", "http://www.gribuser.ru/xml/fictionbook/2.0");
$elements = $xpath->query("/m:FictionBook/m:description/m:title-info/m:author/m:last-name");
foreach ($elements as $element) {
  print "$element->nodeName: $element->nodeValue\n";
}

(Куда-то я не в ту степь ушел... Ну да ладно :)

lankier написал:
Я на(пере)писал этот скрипт на php, и Ларин вроде даже заинтересовался. Посмотрим.
Но тут еще вопрос: делать ли эту проверку обязательной - все файлы не прошедшие проверку отвергаются. Или как рекомендацию - выводить лог проверки, но файл принимать (возможно с занесением в базу данных статуса проверки). Мне (естественно :) больше нравится первый вариант.

Ну и мне, естественно, тоже. :))
Но, видимо, все же разумней - второй, с автоматической пометкой по результатом проверки. Я не очень наглею в своих пожеланиях и надеждах? Просто меня потряс результат первой проверки - при постоянном исправлении книг - примерно 1% улучшения. Ужас кошмарный, триллерно-апокаплиптический.

Tanja45 написал:
Просто меня потряс результат первой проверки - при постоянном исправлении книг - примерно 1% улучшения. Ужас кошмарный, триллерно-апокаплиптический.

Много книг... и мало активных юзеров.

pkn написал:
Tanja45 написал:
Просто меня потряс результат первой проверки - при постоянном исправлении книг - примерно 1% улучшения. Ужас кошмарный, триллерно-апокаплиптический.
Много книг... и мало активных юзеров.
С другой стороны - если все эти ошибки исправить, то кто мешает написать новую, более жесткую программу проверки, которая покажет, что 50% файлов не являются качественными?
В списках были книжки Шварца - Дракон и Обыкновенное чудо - с диагнозом "много ошибок". Может кто найдет еще ошибки, но я обнаружил только прикрепленные к файлу дополнительные 5-7 обложек. Не видные при чтении, ссылок на них нету нигде, поэтому кипешь и возник, как я понимаю. Зачем-то автор файла это сделал. Ну прошелся я FBEем и удалил лишние рисунки. Тоже операция вызывающая сомнение, может лучше было ссылки на них в конце где-то сделать? Но что так уж в файле изменилось? Ничего.

Так что диагностика эта не так уж много говорит о работе над книгами.

oldvagrant написал:
В списках были книжки Шварца - Дракон и Обыкновенное чудо - с диагнозом "много ошибок". Может кто найдет еще ошибки, но я обнаружил только прикрепленные к файлу дополнительные 5-7 обложек. Не видные при чтении, ссылок на них нету нигде, поэтому кипешь и возник, как я понимаю.

Угу, именно так. В скрипте очень примитивный способ определения "много ошибок" - длина сообщения больше 200 символов.

oldvagrant написал:
Зачем-то автор файла это сделал. Ну прошелся я FBEем и удалил лишние рисунки. Тоже операция вызывающая сомнение, может лучше было ссылки на них в конце где-то сделать?

Имхо надо было оставить и поместить в конец книги.

lankier написал:
Имхо надо было оставить и поместить в конец книги.

Обложки? В конец? Нафига?
Обложка это обложка, а не иллюстрация. Служит для выбора "чего бы прочесть". Отображается на странице книги. :) В конце ей делать совершенно нечего. И она должна быть одна. Имхо ;)

Цитата:
И она должна быть одна.

Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:
< coverpage>
  < image xlink:href="#cover_1.jpg"/>
  < image xlink:href="#cover_2.png"/>
< /coverpage>

lankier написал:
Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:

По эстетически соображениям.
Представь как оно к примеру будет отображаться в myhomelib или FBLibrarian.

lankier написал:
Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:

Я почесал в репе и решил, что ничего ценного в этом множестве обложек нету. Их не требуется собирать, в общем-то, на фантлабе они приводятся во множестве. Например, для того же Шварца:
http://www.fantlab.ru/work120991
Стоит ли их все запихивать в книжку?

oldvagrant написал:
lankier написал:
Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:

Я почесал в репе и решил, что ничего ценного в этом множестве обложек нету. Их не требуется собирать, в общем-то, на фантлабе они приводятся во множестве. Например, для того же Шварца:
http://www.fantlab.ru/work120991
Стоит ли их все запихивать в книжку?

IMHO, не стоит. Я ориентируюсь на год издания отсканированной книги и выбираю нужную обложку. Если выходных данных нет, руководствуюсь собственным вкусом (а то!) и выбираю одну из имеющихся обложек.

oldvagrant написал:
http://www.fantlab.ru/work120991

Ух ты, как много. Действительно, лучше одну оставить. (Или сделать две книги "Книга" и "Книга (с обложками)" вместо иллюстраций :))

oldvagrant написал:
С другой стороны - если все эти ошибки исправить, то кто мешает написать новую, более жесткую программу проверки, которая покажет, что 50% файлов не являются качественными?

Целесообразность мешает. И я писала о разнице в количестве безошибочных файлов при проверке до и после удаления дублей, а не об общем количестве ошибочных. Очень бы хорошо эту проверку все же прикрутить к аплоуду.
oldvagrant написал:
В списках были книжки Шварца - Дракон и Обыкновенное чудо - с диагнозом "много ошибок". Может кто найдет еще ошибки, но я обнаружил только прикрепленные к файлу дополнительные 5-7 обложек. Не видные при чтении, ссылок на них нету нигде, поэтому кипешь и возник, как я понимаю. Зачем-то автор файла это сделал. Ну прошелся я FBEем и удалил лишние рисунки. Тоже операция вызывающая сомнение, может лучше было ссылки на них в конце где-то сделать?

Если обложки разные - в конце, если нет - ИМХО, Вы поступили совершенно верно.
oldvagrant написал:
Но что так уж в файле изменилось? Ничего.

Вес.
oldvagrant написал:
Так что диагностика эта не так уж много говорит о работе над книгами.

Прошу прощения, но, по-моему именно что говорит.

Tanja45 написал:
Очень бы хорошо эту проверку все же прикрутить к аплоуду.

И затормозить и без того нещедрый поток заливок?
Упдате: Я уж не говорю о геморрое, в который превратятся любые пакетные заливки.
Упдате-2: Если бы сервер не был хронически перегружен, то, может быть, имела бы смысл отдельная от заливки функция "валидатор с указанием ошибок". Но увы...

pkn написал:
И затормозить и без того нещедрый поток заливок?

Ну есть вариант "метить" :)
pkn написал:
Если бы сервер не был хронически перегружен, то, может быть, имела бы смысл отдельная от заливки функция "валидатор с указанием ошибок". Но увы...

Сервер сильно грузить не будет, ибо не так часто идут заливки.
Но.
Невалидных книг не так много, ибо FBE громко ругается на ошибки, а букдизайнер сохраняет без лишних вопросов. Валидно.
Проблема увы не в невалидных книгах, а в сляпанных кое-как. Сляпанных букдизайнером, и потому валидных. Любой фильтр их пропустит.

Bullfear наезжает

Цитата:
Проблема увы не в невалидных книгах, а в сляпанных кое-как. Сляпанных букдизайнером, и потому валидных. Любой фильтр их пропустит.

а кто ты какой что-бы людям указывать чем их делать?

сделай уроки как делать книги в FBE , и только после этого можеть произносить хоть что-то против букдизайнера, и не отсылай к единствееной книги по созданию fb2

Bullfear обращаю твоё внимание делать книги только в FBE и только в нём

заранее знаю твой ответ, успехов наш холиварщик!

Научись сперва внятно выражать свои мысли.

Гм, а чем плохи 2(две) книги с описанием создания fb2 файлов от А до Я(http://lib.rus.ec/a/29957)!? Я могу конечно ошибатся но 90% fb'издателей учились именно на них)))
а букдизайнер хорошая программа, оооочень многие ошибки ПОЛЬЗОВАТЕЛЯ исправляет, но очень уж соплей много остается... ИМХО конечно

Bullfear написал:

Невалидных книг не так много, ибо FBE громко ругается на ошибки, а букдизайнер сохраняет без лишних вопросов. Валидно.

Делая заготовку к книге в BD, нужно прогонять ее через инвестигатор перед сохранением. Иначе букдизайнер легко и непринужденно сохранит и невалидный файл. А на проверенный в инвестигаторе и FBE ругаться не станет.
Если речь только о валидности.
А о проверке... лучше какая-то, чем никакой, нет?

Tanja45 написал:
Делая заготовку к книге в BD, нужно прогонять ее через инвестигатор перед сохранением. Иначе букдизайнер легко и непринужденно сохранит и невалидный файл.

А точно. Есть у него такой косяк. Давно просто не пользовался, уже подзабыл. Помоему периодически он делает вложенные стихи... Но как правило он просто в меру своего разумения исправляет невалидности. И у него часто это получается. Правда если заглянуть после этого в сорцы, хочется схватиться за голову...
Tanja45 написал:
А о проверке... лучше какая-то, чем никакой, нет?

Разумеется :)

pkn написал:
Я уж не говорю о геморрое, в который превратятся любые пакетные заливки.

А в чем гемор? Хорошие книги из пакета будут пропущены, для остальных рапорт об ошибках.

pkn написал:
Если бы сервер не был хронически перегружен

Валидация не требует больших ресурсов, и там нет обращений к базе данных.

upd: И там валидацию можно объединить с регистрацией. Т.е. тот dom, который мы получили в результате валидации, затем используем в регистрации книги в db и т.д. (Я там выше показал кусок кода)

Tanja45 написал:
Если обложки разные - в конце, если нет - ИМХО, Вы поступили совершенно верно.

Обложки разные, от разных книжек. Вес конечно возрос сильно, так как объем текста, как у одной обложки (обложки были по ~30К). Так что когда их 7...
Однозначного решения нет, можно и восстановить старую версию и сделать правку.

Подправил:
Арестова - Последняя улика http://lib.rus.ec/b/144824
Анчаров - Козу продам http://lib.rus.ec/b/144823
None - Сатанаил http://lib.rus.ec/b/144825

lankier написал:
И еще три файла с литреса ...
Некоторое время назад договаривались, что без проверки можно заливать файлы с Литреса. Но похоже их качество падает. Я тоже недавно случайно обнаружил, что в литресовском файле перепутаны фамилия и имя автора.

А каким программой проверялась валидность файлов?

Это самописный скрипт. Использует fb2utils. Там же лежит валидатор на php.

lankier написал:
Это самописный скрипт. Использует fb2utils. Там же лежит валидатор на php.

Два вопроса:

1) Как соотносятся результаты проверки с помощью вашего скрипта с валидатором FBE 2.0. Для цитированной книжки "Современник - Журнал Наш Современник 2001 #3 очень много ошибок" FBE показывает отсутствие ошибок.

2) Как запустить validation.py. Попробовал c:\Python26\python validation.py получил ошибку на line 14. cannot import name Fb2Parser

1_абрам написал:
Как соотносятся результаты проверки с помощью вашего скрипта с валидатором FBE 2.0.

Не знаю. У меня линукс и нет FBE. Проверка схемы должна быть одинаковой. Проверяет ли FBE консистентность - не в курсе.

(Кстати, где-то внутри FBE должны лежать файлы схемы. Советую заменить FictionBookGenres.xsd вот этим, чтобы соответствовал списку жанров либрусека.)

1_абрам написал:
Для цитированной книжки "Современник - Журнал Наш Современник 2001 #3 очень много ошибок" FBE показывает отсутствие ошибок.

Это странно. Там не только нарушение консистентности, но и нарушение схемы. Полный лог проверки.

1_абрам написал:
Как запустить validation.py

Там надо запускать fb2validator.py. Что-то типа:c:\Python26\python \path\to\fb2validator.py files|dirs. Не обязательно из каталога fb2utils.

1_абрам написал:
cannot import name Fb2Parser

А вот этого не должно быть в любом случае. Правда я под windows эти скрипты не тестировал, могут быть ошибки. Попробуйте обновиться.

Вообще, если кому-нибудь надо, могу собрать пакет для windows (не будет зависеть от установленного питона). Можно даже примитивное гуи прикрутить, что-то типа: кнопка "открыть файл", а под ней текстовое поле с результатом проверки.

upd: Если будут ошибки - не стесняйтесь сообщать или сюда или на странице googlecode :)

upd2: Забыл сказать о зависимостях. Кроме собственно питона нужен python-lxml и BeautifulSoup (файл BeautifulSoup.py кинуть в подкаталог fb2utils).

lankier написал:
Вообще, если кому-нибудь надо, могу собрать пакет для windows (не будет зависеть от установленного питона). Можно даже примитивное гуи прикрутить, что-то типа: кнопка "открыть файл", а под ней текстовое поле с результатом проверки.
Это бы было неплохо. Большинство работает из под Windows и хотелось бы не бодаться "а вот FBE, а вот скрипт", а иметь возможность прокатать файл у себя.
Если это не слишком трудно - сделайте. Дай бог здоровья. :)

Страницы

X