Вы здесьВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка вынести на обсуждение вопрос минимальных требований к книгам.
Опубликовано чт, 18/12/2008 - 08:36 пользователем yurbox
Вроде как назрело. Не холиварим. Только конструктив Валидность - минимальные требования к файлу для того, чтобы он мог появиться в библиотеке. Валидный файл - это: 2. файл с текстовым содержанием, который поддается прочтению специализированными на его формате программами, либо офисными текстовыми редакторами, обладающими функцией 3. файл, сквозная фрагментация текстового слоя которого не меньше 25% (при условии, что смысловая составляющая такого текста не утрачивается). Текст, удовлетворяющий требованию 25%, являющийся цельным блоком (середина, конец, начало) считается валидным и полным при отсутствии полного текста в библиотеке и выполнении условий п.5. 4. отдельные страницы файлов графического формата фрагментами не являются. 5. в теле файла независимо от его формата ОБЯЗАТЕЛЬНО должны указаны быть автор и название публикуемого документа. 6. минимальный размер. Здесь происходит основная загвоздка, ибо при заниженном минимуме возникает куча трудностей с упорядочиванием, а так же создается почва для спама. При разумном подходе минимальный размер нужно, наверное, все же ограничивать. Это спорно. о формате фб2 Жанр - штука обманчивая и при массовой заливке ее можно упускать, главное, чтобы файл находился поиском по автору или названию. Качество - внешние и внутренние составные части, обеспечивающие улучшение внешнего вида документа. параллельно с этой веткой идет обсуждение на тему качества, думаю, что не стоит спорить какие книги нам нужны - качественные или некачественные. Конечно качественные, и там можно будет поговорить о приоритета одних видов качества над другими.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Беженцы с Флибусты 2 часа
Telly RE:Подайте бедному копеечку на книжку с литреса... 1 день Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 3 дня Isais RE:Семейственность в литературе 6 дней miri.ness_ RE:Доступ 27 1 неделя bmusanov Оплатил, но абонемент не отображается 1 неделя holla RE:Багрепорт - 2 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя konst1 RE:Файнридер для Win11 2 недели larin RE:Оплатил, но абонемент не отображается 2 недели sem14 RE:Книжная серия «Сlio» издательства "Евразия" 2 недели Isais RE:Национальный конкурс на лучшее литературное произведение... 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели sem14 RE:Современная корейская литература. Книжная серия... 2 недели sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 2 недели larin RE:Оплатил,но абонемент не отображается 2 недели sd RE:Fishing 3 недели Алексей111111111111 RE:Оплатила,но абонемент не отображается 3 недели Впечатления о книгах
Юле4ка про Хольст: Зелёный, ласковый весенний ветер (Детективы: прочее)
16 08 Книга переведена со шведского для поклонников автора с помощью ИИ, результат очень читабельный. Enjoy! Оценка: отлично!
mysevra про Булычев: Сто лет тому вперед [Гостья из будущего, с иллюстрациями] (Детская фантастика)
15 08 Из советских фантастов создавать такие светлые миры будущего умел лишь Булычев да, пожалуй, Стругацкие в некоторых произведениях. Ностальгия за тем, чего не было, но очень хотелось. Иллюстрации Мигунова просто изумительны. Оценка: отлично!
mysevra про Педлер: Штамм «Андромеда» (Киберпанк)
15 08 Проблема в чтении таких книг впервые – пресыщенность аудитории. Всё уже видено, читано, предсказуемо. Представляю, какой фурор они произвели на момент своей публикации. Оценка: хорошо
mysevra про Филипенко: Кремулятор (Современная проза)
15 08 Так хорошо изложено – не оторваться, хотя иногда хотелось. Масштабы жертв поражают. Обыденность происходящего вызывает дрожь. Оценка: отлично!
commodore про Севинье: Письма (Историческая проза, Эпистолярная проза)
14 08 Дай Бог здоровья тебе, мил человек, выложивший эту книгу!
Vened про Ангелов: Унылый плагиатор Майки Гельприн (Биографии и Мемуары, Публицистика, Юмор: прочее, Новелла, Феерия, Сатира)
14 08 Откровенный хлам. Всей серии место на мусорке, а не в библиотеке. Оценка: нечитаемо
Sello про Мережковский: Воскресшие боги, или Леонардо да Винчи (Историческая проза)
13 08 Роман, второй, входящий в трилогию "Христос и Антихрист". Не складываются у меня отношения с Мережковским. Материалом автор обладал огромным. Но вот такое чувство, что, знаниями переполненный, он позабыл придать им, чтобы ……… Оценка: неплохо
pulochka про Михалкова: Котов обижать не рекомендуется (Дамский детективный роман)
13 08 Господи !Что это было? Страшно затянуто и нудно. Жвачка ужасная! Набор выдернутых фраз из популярных советских фильмов. Сюжет, похож на сломанную марионетку то заваливается то налево то направо, рваный и нелепый. Начало ……… Оценка: нечитаемо
Oleg68 про Бассо: Призрак пера [litres] (Иронический детектив)
13 08 Типичный дамский детектив с приправой литературы. Достаточно интересно. Оценка: хорошо
Stanislaw Wartownik про Коэльо: Победитель остается один [O Vencedor Está Só ru] (Современная проза)
13 08 Бредовая натужная чушь. Даже не дочитал это унылое г. Оценка: нечитаемо
lokiiii про Михайлов: Инфер-10 (Боевая фантастика, Киберпанк, Постапокалипсис, Самиздат, сетевая литература)
12 08 Оди ушел в конце восьмой книги, а не девятой. И на этом подцикл Инфер, по сути, завершен. Начиная с девятой (где и описано куда подевался его экз) книги идёт уже новый подцикл, для которого автору просто было лень придумывать ……… Оценка: хорошо
Синявский про Евгений Львович Чижов
11 08 11 авг - РИА Новости. Писатель Евгений Чижов утонул в Балтийском море, сообщил его друг, писатель Дмитрий Данилов. |
Комментарии
Необычайно бурная и интересная дискуссия
Попытка создания темы для обсуждения по существу встретила живейший отклик в народных массах...
Внесу, пожалуй, свои 5 копеек. Правда, это не совсем относится к валидации, но чтобы не засорять первую страницу кучей тем, думаю, что, поскольку к оформлению файлов это таки имеет отношение, то, имхо, это допустимо.
1. Хотелось бы, чтобы книги хранились преимущественно в текстовых форматах, прежде всего fb2, раз уж он принят тут в качестве стандарта. Графические форматы занимают слишком большой объем и, имея канал всего в 256K, приходится зачастую отказываться от закачки файлов в десятки мегабайт, да и диск у меня не резиновый. Кроме того, некоторые форматы, которые не являются общеупотребительными, также могут вызвать проблему. Например, формат prc на моем настольном компьютере читать довольно проблематично.
2. Хотелось бы, чтобы варианты одной и той же книги, отличающиеся только вычиткой, не плодились в неограниченном количестве. Я лично не понимаю, зачем вообще держать все варианты файла, но если это и впрямь кому-то надо, то ходя бы окончательный (на каждый текущий момент) вариант книги как-то был выделен от остальных. Самое неприятное, что в "последних поступлениях" зачастую также имеется по 3-5 вариантов некоторых книг, причем часто одного и того же размера. Честно говоря, неохота выкачивать все варианты и тем более все их анализировать, чтобы понять, какой вариант - окончательный. Это неудобно.
3. Это довольно мелкий вопрос, но все же. Хотелось бы, чтобы все файлы именовались единообразно (В последнее время, правда, в основном уже соблюдается) и если уж имя файла начиинается с автора книги, то чтобы сначала шла фамилия, а потом имя (а не наоборот, как я смотрю, сложилось на Либрусеке).
Отв: Необычайно бурная и интересная дискуссия
Все так, кроме предпочтения форматов. Именно в графических форматах присутствует чуть не половина уникальных книг и журналов, т.к. нереально перевести в фб2 множество формул, схем и картинок. Вас лично никто ведь не заставляет их скачивать - дело это сугубо добровольное ;), а формат файлов виден. Единственно, я бы посоветовал тем, кто будет в дальнейшем делать сам такие файлы, отказаться от pdf в пользу djvu, т.к. последний гораздо компактнее.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не хватит ресурсов человеческих. И решение придется кому-то принимать, опять же - дополнительные полномочия и склоки по поводу удаленных версий. Они время от времени и так всплывают.
Вроде бы просто фамилии. без имен.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Я и не требую непременно удалять, но как-то помечать последний вариант все же не мешало бы. Или хотя бы, чтобы каким-то образом была виддна хронология версий. А разбираться в 3,4,5 версиях тем более не хватит ресурсов человеческих. Какой-то выход все же нужен.
Сейчас скачал книгу для пробы, действительно только фамилия. Если это стало новым стандартом и будет применяться ко всем файлам, то замечательно.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Дубли отлавливаем и удаляем. Оставляя лучшие версии. Этим правом также, кстати, наделен любой пользователь библиотеки.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Просто я скачиваю каждый день "Последние поступления" и сразу заношу в свою библиотеку. И практически каждый день несколько книг встречаются в "Последних поступлениях" несколько раз. И, честно говоря, ударность труда отдельных пользователей или библиотекарей, в течении одного дня умудряющихся залить на Либрусек до 5 дублей одной книги, меня просто поражает. ;)
Получается, что в реальном режиме времени отловить дубли вручную совершенно не реально.
А нельзя ли автоматизировать устранение дублей только из "Последних поступлений", например, путем помещения в нее только самого последнего по времени дубля?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Библиотекари - тоже пользователи. Насчет ударности труда: вы же сами ратовали за то, чтоб лили больше, без разбора, а библиотекари
к 3000 годуразберутся. Вот и разбираемся.2. Дубли ловятся не только в последних поступлениях, а во всей библиотеке.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Во-первых, я ратовал за то, чтобы лили больше разных книг, а не по пять дублей одной и той же книги. И непонятно вообще, откуда появляется столько версий за ОДИН день (причем это КАЖДЫЙ день и НЕ С ОДНОЙ книгой)? Не лучше ли заливать только окончательную версию правки? Тогда бы и дублей было бы максимум два, а не 5 и время и усилия тех, кто правит, тоже было бы сэкономлено. Так что для меня такое количество дублей за один день просто загадка.
Во-вторых, я и не требую, как Вы, верно, заметили, чтобы библиотекари разбирались в реальном режиме времени. Я спросил насчет возможности автоматизировать исключение дублей из последних поступлений. Ответа я не услышал.
В любом случае, я предпочитаю вариант много книг, даже если это влечет много дублей, чем мало дублей, но мало и книг.
PS Я заранее признаю, что я злобный и гнусный враг №1 всех библиотекарей Либрусека и это исключительно из-за меня Либрусек далек от совершенства, особенно в плане качества книг. Только, пожалуйста, перестаньте кидаться в меня камушками.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Люди льют, что хотят. Им, видимо, лениво посмотреть на наличие или отсутствие книги. И лениво что-либо делать с тем, что они льют. Не всем, конечно, некоторым.
2. По возможности автоматизации - это не ко мне. Может, agrey знает или pkn. А как, кстати, исключить дубли - их же сначала сверить надо и оставить более качественный вариант.
3. Это не кидание камушками. Просто честный ответ на поставленные вами вопросы предполагает выброс некоторого количества такого гравия: либо мы строго контролируем закачки, и иногда кратковременно могут пострадать невинные люди, либо мы оставляем, как есть, и появляется много сопутствующего мусора.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Поскольку всем дублям присвоены номера, то система видит, что это один и тот же файл. Поэтому при добавлении книги можно было бы усложнить добавление дубля, усиленно спрашивая, точно ли хотят добавить дубль. Тогда ленивый не станет добавлять. Заодно это некая защита и от вандалов.
А я и не предлагаю удалять дубли. Просто в "Последние поступления" помещать только один файл из дублей. Например, последний по времени или самый большой.
Так я и пытаюсь найти вариант, чтобы и библиотекарей не грузить лишней работой и чтобы мне было проще скачивать книги. Но я лучше потерплю неудобства, если альтернативой будет уменьшение количества книг.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Последний по времени или самый большой может быть худшего качества.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Да я все равно все файлы перегоняю в текстовый формат. Так что мне качество не так уж и важно
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ну, я тоже в rtf перегоняю, но ведь и другие пользователи есть.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
И много поможет другим пользователям куча дублей? Вот сейчас просмотрел последние поступления, так там книга Сергей Тармашова "Катастрофа" представлена в 6 (шести) вариантах! Рекорд! (точнее антирекорд...) С учетом того, что каждый день не одна книга имеет по нескольку дублей, то я не представляю себе, что кто-нибудь может реально просмотреть все эти дубли для выбора наилучшего. Поэтому, имхо, все же лучше выбирать оптимальный (хоть по какому-то критерию) дубль, а при необходимости пользователь может посмотреть и остальные дубли в библиотеке на предмет выбора более подходящего варианта.
чтобы не плодить посты, еще несколько замечаний по другим вопросам.
Конечно, никто не заставляет, но если хочется? ;) А посмотришь на файлы мегабайт в 20 и, хоть рука и дрожит ;), а галочку с них снимешь... Я ж и не писал, что вообще графические файлы не нужны. Я просто хотел бы, чтобы от них по возможности отказывались.
А вот сейчас просмотрел последние поступления, вот там по-прежнему имя файла формируется как <имя автора>_<фамилия автора>_<название книги>.
Нельзя ли и в Последних поступлениях сделать так, чтобы фамилия автора шла на первом месте?
На: http://lib.rus.ec/node/123605#comment-36700
Приношу свои извинения тов. yurbox за то, что развел в его теме оффтоп. Я уже писал, что, поскольку заметил, что, увы, никто длительное время так и не стал обсуждать эту тему по существу (а жаль, имхо), то решил, чтобы не плодить темы начать обсуждение похожмх вопросов. И я, честно скажу, совершенно не ожидал, что ветка развернется на такую длину...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не стоит извинений. Просто своим первым постом вы нарушили чудесную картинку того благороднейшего игнора, которого подобная постановка конкретных вопросов на обсуждение, несомненно, заслуживает. Ибо если все будут знать - что такое валидный файл, то становится под угрозу возможность элитарного обладания сакральными знаниям. Толпу завораживают непонятные слова.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
При закачке, развернуть файл в чистую строку, без всех спецсимволов и тегов. Пробелы свернуть в 1, а кавычки в непарные. Привести все к одному регистру и сравнить с такой же строкой уже имеющегося файла. Если совпадение больше 50%(границу подобрать по библиотечной статистике), тупо спрашивать у юзера, раза 3 :), типа "возможно вы закачиваете дубль, т.к. совпадает NN% текста. Вы уверены?". Окно с вопросом показывать на экране со случайным разбросом, что б юзер не тупо жмакал на клавишы.
Вариант не сложный, а дублей может и поуменьшить. Ведь эти дубли рождаются из-за отсутствия серверного инструмента сравнения файлов. Если будет возможность это сделать во время закачки - людям будет проще, т.к. не надо будет искать локальных вариантов.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
...Но, видимо, не для всех книг: http://lib.rus.ec/s/4938
А?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ряд книг блокируются от правок - в первую очередь новинки. Вандалам именно они не нравятся больше всего.
Но в данном случае удалить дубль сложно по иной причине. 3 дубля этой книги уже удалено, кстати.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
По теме валидности будем выступать, или оффтоп - это основной принцип?
Уленшпигель (сорри за кирилицу) этот топик по вашей просьбе был сделан. Или ваша просьба была провокацией, как я и предполагал? ТОпик ваш под названием Качество в итоге вылился в обсуждение видов кавычек. Очень как бы, ммм.. ммм... познавательный получился. Но вряд ли конструктивный.
Или я зря тратил время на написание пунктов шапки?
Пусть лучше тут будет пусто, как вчера, чем посторонние разговоры...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Вопрос в тему. По новому ЧаВо
4.3.3.2.3 Книги в которых отсутствует более 10% текста. Очевидно, что если в тексте набор случайных символов, это тоже сюда попадает.
Ув. библиотекари. На мой взгляд 10% - это слишком жесткая планка, которую необходимо понизить хотя бы до 50%
Приведу основания. Существует файл. Полкниги от начала. Это 50%, что не укладывается в формат и не подлежит выкладке в библиотеку добропорядочным послушным юзером, читавшим ЧаВо. Другой такой же юзер имеет конец этой книги. и тоже не выкладывает на сайт.
В итоге - книга потеряна, а могла бы быть собрана в случае необходимости тем, у кого есть недостающий кусок.
Пример такой книги в библиотеке есть. Это http://lib.rus.ec/b/20500 Я вчера намеренно изменил ей название, чтобы указать на то, что она не в полном объеме. Так вот. В реале - это книга в руку толщиной и здесь представлена как раз на 50% своего объема. Допустим, сейчас при желании, можно отсканировать и выложить только второй кусок и склеить, это и без того немалый труд. при отсутствии же первой части работа увеличивается в два раза.
Это пример, возможно, и исключительный, однако факт остается фактом.
И еще вопрос. Правильно ли я поступил, изменив название таким образом?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Согласен по обоим вопросам.