Вы здесьПроверка валидности fb2-файла при загрузке ???
Опубликовано ср, 27/08/2008 - 05:42 пользователем Ghost mail
Forums: Сложно ли добавить автоматическую проверку валидности книг перед их загрузкой на сайт и "не пропускать" невалидные файлы ???
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 2 дня
Саша из Киева RE:Горящие паруса 5 дней Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 неделя commodore RE:Письма 3 недели Саша из Киева RE:Три минуты истории 3 недели nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 1 месяц Саша из Киева RE:Книги на латышском языке 1 месяц stevecepera RE:Список современных французских писателей? 1 месяц etorus2008 RE:Отв: Помогите найти книгу по описанию 1 месяц lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 месяц Wedmak RE:Помогите найти!.. #2 1 месяц sem14 RE:Координация сканирования и вычитки 2 месяца babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца Isais RE:Мои открытия 2 месяца kopak RE:О группе Дятлова. О той самой, того самого... 2 месяца A5. RE:Не присылает пароль на почту 2 месяца babajga RE:Плюмаж 2 месяца babajga RE:Блошкинс и Фрю. Опасное путешествие 2 месяца Впечатления о книгах
miri.ness_ про Селин: В раю (Киберпанк)
23 06 Отличный рассказ (из сборника "Новый романтик"). Едва ли не лучше, чем "Геолого-разведочный", который я читал в бумаге. Вот бы кто оцифровал всю книгу. Оценка: отлично!
Г.Гуслия про Олег Сапфир
22 06 Прочитал "Идеальный мир для Лекаря" (30), "Кодекс императора" (4) и "Инженерный парадокс" (4). Все на отлично. И написано очень хорошо, и я соскучился по хорошим людям, близким к всемогуществу. Попробую остальные серии и надеюсь, что не разочаруюсь.
Лысенко Владимир Андреевич про Аzнеп: Вагнер. Дорога на Бахмут. 300! 30! 3! (О войне)
21 06 У наемников нет Родины, только бабки, им все равно кого убивать, лишь бы платили. Оценка: нечитаемо
trampak про Хоскинг: Россия: народ и империя, 1552–1917 [Russia: People and Empire, 1552–1917 ru] (История)
21 06 Сам себя не похвалишь - день зря прошёл. "Величайшей в истории" ну-ну.Вот оригинальная аннотация английского издания:Знаменитая книга Джеффри Хоскинга дает нам новую призму, через которую можно рассматривать русскую историю, ………
mysevra про Рампо: Чудовище во мраке (Классический детектив)
21 06 Прелесть какая! Есть фильм с Бенуа Мажимелем, адаптированная для западных людей версия, но мне она показалась более прямолинейной и грубой. К тому же в ней нет таких диковинок, как, например, восхищение чувственностью красных ……… Оценка: отлично!
mysevra про Гранже: Обещания богов (Полицейский детектив, Триллер, Детективы: прочее)
21 06 Прочитала запоем, очень необычная подача. Предвоенная паранойя и люди, ещё не отошедшие от последствий первой войны – тревожно-будоражащее впечатление, зато книга не оставляет равнодушной. Никогда не задумывалась, а как себя ……… Оценка: отлично!
mysevra про Дивов: Ночной смотрящий (Фэнтези)
21 06 Выразительный язык, яркие персонажи. Возможно, перебор с чернушным натурализмом и бытовухой. В общем, если вы ждёте привычного романтического взгляда на вампиризм, то лучше читайте Вампирские хроники Райс или Киндрэт. Оценка: отлично!
Drangool про Шайтан Иван
20 06 Идея не нова, текст на уровне ученика 5 класса. Осилил треть первой книги, далее не смог. Автор, научись нормально выделять диалоги в соответствии с правилами русского языка.
udrees про Лей: Выжившие [СИ] (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
20 06 Кому нравится сюжет про выживание в мире когда начался зомби-апокалипсис, книга наверное зайдет. Главные герои не супермены, но с оружием обращаться умеют, страйкболисты, так что шанс выжить умеют. Но конечно психологически ……… Оценка: хорошо
udrees про Вальтер: Я должен её найти 2 (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
20 06 Мир напоминает чем-то мир Каменистого Артему – STICKs, только примитивнее. Сама книга написана достаточно примитивно, автор спешил уложить все приключения в одну книгу. Герои все одинаковые в ином мире – бродяги, алкоголики, ……… Оценка: неплохо
udrees про Вальтер: Жажда [СИ] (Боевая фантастика, Триллер, Постапокалипсис, Самиздат, сетевая литература)
20 06 Хорошая книга про пост-апокалипсис, только не с зомби, а вампирами. Автор ничего не стал нового выдумывать – просто в одну ночь одна часть переродилась в вампиров и напала на другую часть людей. Главный герой хоть не супермен, ……… Оценка: хорошо
udrees про Зандер: Королева праха и боли [litres] (Ужасы, Фэнтези, Любовная фантастика, Попаданцы)
20 06 Вторая книга порнографического романа про связь женщины и дьявола – бессмертного существа, повелевающего мертвыми. В этой связи все сцены в книге замешаны на некрофилии, раз секс происходит с мертвой женщиной. Можно оценить ……… Оценка: неплохо |
Отв: Проверка валидности fb2-файла при загрузке.
Сложно ли вам, Ghost mail, указать в своем сообщении утилиту для "проверки валидности" fb2, которую вы предлагаете ???
Отв: Проверка валидности fb2-файла при загрузке.
Однако, эти редакторы-утилиты для работы с командной строки, а нужна проверка на php, которая бы работала на веб-сервере перед загрузкой файла книги.
В-действительности, прежде всего этот вопрос нужно решить "политически" - нужно или не нужно 8-)
Мое личное мнение,- нужно. Лучше пусть будет немного меньше книг, но они будут "качественнее" (будут соответствовать стандарту FB2)
Отв: Проверка валидности fb2-файла при загрузке.
Предлагаете "прикрутить" FBE? Или fb2fix? :)
Идеально "валидных" fb2-файлов на сегодня не существует, как и программы, которая бы это определяла - и все благодаря "стандарту FB2". За работой скриптов приходится убирать вручную, валидность книги - определять "на глазок".
От "политического" решения ничего не изменится - кроме громких фраз: программа не появится, вычитка файлов не улучшится. Кроме того, найдя незакрытый тег в fb2-книге - гораздо легче его закрыть, чем брезгливо отбросить этот файл и отсканировать книгу по-новой.
Отв: Проверка валидности fb2-файла при загрузке ???
И файл может быть невалидным, но содержать полный текст, и другого в библиотеке может не быть. Невалидность мы поправим.
Отв: Проверка валидности fb2-файла при загрузке ???
Не пропускать невалидные файлы - это вряд ли реально нужно, а вот некая пометка, позволяющая невалидников обнаружить - не помешала бы.
Отв: Проверка валидности fb2-файла при загрузке ???
А кто-нибудь более-менее формально описать процедуру валидации может?
Разобрать XML, проверить возможность тэгов и словарно-кодируемых полей?
Всё?
Если всё, я в свой скрипт могу это добавить (XML-разбор там уже есть)...
Он, правда, не на ПХП, а на Питоне, но не думаю, что это нынче проблема для большинства хостингов.
Отв: Проверка валидности fb2-файла при загрузке ???
Формализовать процедуру "исправления" невалидного файла, чтобы он стал валидным, почти невозможно. Можно только пытаться проверять и исправлять набор часто встречаемых ошибок (как-то : неправильный порядок тегов 'title' и 'epigraph'; тег 'title' в середине текста; оформление стихов в тексте тегом 'epigraph' и так далее).
Однако задавая вопрос в теме топика я имел в виду : проверять валидность перед загрузкой на сервер и в случае ошибок,- сообщать пользователю об этом и не загружать невалидный файл. Подразумевается, что после этого пользователь потратит еще 1-2 минуту на исправление своего файла, и загрузит этот файл исправленным 8-)
Отв: Проверка валидности fb2-файла при загрузке ???
>тег 'title' в середине текста
А это из чего следует что невалидно? это допускает схема, и, более того, явно присуствует в примерах на fictionbook.org.
Это какой-то тогда не XML уже получается, а некий формат издалека напоминающий XML :-)
Отв: Проверка валидности fb2-файла при загрузке ???
title должно быть в начале секции. Это переводится как заголовок, если вы не в курсе. В середине секции title быть не может.
Правильно:
<section>
<title></title>
<p></p>
<p></p>
</section>
Не правильно:
<section>
<p></p>
<title></title>
<p></p>
</section>
Отв: Проверка валидности fb2-файла при загрузке ???
Отв: Проверка валидности fb2-файла при загрузке ???
Проверка валидности очень не помешала бы.
В некоторых файлах, (в них сказано что сделаны они в "LibRusEc kit") пометки, сноски, перевод разных понятий заключены в знаки < >,хотя по спецификации XML они должны быть в виде
< >
соответственно, также иногда попадается знак & (амперсанд) хотя и он должен быть написан не прямо, а специально вот так&
Из-за таких нарушений формата разметки XML некоторые файлы не возможно читать программами которые четко следуют спецификации XML
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Проверка валидности при загрузке fb2-файлов от автора "LibRusEc kit" - хорошая шутка, спасибо :)
Если серьезно - дайте ссылки на книги, а еще лучше - давайте исправим их вместе.
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Я могу сгенерить список. Только, боюсь, в нем будет несколько десятков тысяч (не несколько тысяч, а несколько десятков тысяч) книг. И што мы будем с ими делать?
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Точнее, 47 642 : http://lib.rus.ec/stat/document-author .
Проверить на другие варианты файла - скачать - открыть - поиск символов с автозаменой - сохранить - залить на Либрусек.
repeat
Всего по 23 821 на рыло.
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
:) Да, рыла могут треснуть.
На самом деле немножко меньше: у меня готовятся что-то в районе четырех тысяч книг с Алдебарана/Литреса, которые будут заменой Либрусек-Киту. Но пока никак не приспособлюсь чтобы залить их без ручных разборок с дублями... :((
С другой стороны - супротив 47-ми тысяч оно не то чтобы совсем уж мертвому припарки... но и ненамного больше.