Вы здесьИндекс к Library Genesis
Опубликовано вс, 18/01/2009 - 18:42 пользователем bookwarrior
добавил индексный XLS-файл к науч. лит. Присутствуют все позиции с самой важной инфой. Содержимое правда не будет в точности соответствовать тому, что выводится в поиске. Так получилось исторически. В индексе названия с большим числом исправлений. Файл расположен под линком index в верхнем левом углу http://gen.lib.rus.ec/
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
monochka RE:Мои открытия 16 мин.
edvud RE:Подайте бедному копеечку на книжку с литреса... 52 мин. Саша из Киева RE:Как бы с этим побороться и побороть? 5 часов medved RE:Список современных французских писателей? 1 день etorus2008 RE:Отв: Помогите найти книгу по описанию 5 дней lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 неделя Wedmak RE:Помогите найти!.. #2 1 неделя sem14 RE:Координация сканирования и вычитки 1 неделя babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели kopak RE:О группе Дятлова. О той самой, того самого... 2 недели A5. RE:Не присылает пароль на почту 3 недели babajga RE:Плюмаж 1 месяц babajga RE:Блошкинс и Фрю. Опасное путешествие 1 месяц alexk RE:Багрепорт - 2 1 месяц babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц Впечатления о книгах
Олег Макаров. про Friks: Draudi. Pārpratums [lv] (Приключения: прочее)
07 05 tvv, вы замусориваете ленту "впечатлений о книгах".
tvv про Friks: Draudi. Pārpratums [lv] (Приключения: прочее)
07 05 Автор книги шведский писатель Леннарт Фрик https://sv.wikipedia.org/wiki/Lennart_Frick_(författare)
tvv про Džeimss: Dūkanais - kovboja zirgs [lv] (Вестерн)
07 05 Автор книги Уилл Джеймс http://az.lib.ru/d/dzhejms_u/ https://en.wikipedia.org/wiki/Will_James_(artist)
tvv про Neimanis: Franks un Irēne [lv] (Детская проза)
07 05 Автор книги Карл Нойман (Karl Neumann) https://deru.abcdef.wiki/wiki/Karl_Neumann_(Schriftsteller,_1916)
tvv про Hamsune: Langerudas bērni [lv] (Детская проза)
07 05 Автор книги - Мари Гамсун https://ru.wikipedia.org/wiki/Хамсун,_Мари
decim про Рис: Наблюдатель [litres] (Современная проза)
07 05 Продвинутый британский дамский роман, несколько затянутый. Провокаций тут не шибко, ради качественной провокации читайте "Homo Фабер". Если считать за провокацию постоянные косячки(в переводе названные самокрутками, что поначалу ……… Оценка: неплохо
alexk про Москаленко: Юный бастард. Книга 3 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
07 05 Насколько я помню, этот автор - чемпион по количеству незаконченных циклов.
tvv про Fārlejs: Melnis [lv] (Детские приключения)
06 05 Автор книги Уолтер Фарли https://en.wikipedia.org/wiki/Walter_Farley
tvv про Kordons: Musons jeb Baltais tlģeris [lv] (Детская литература: прочее)
06 05 Автор этой книги https://de.wikipedia.org/wiki/Klaus_Kordon
Лысенко Владимир Андреевич про Москаленко: Юный бастард. Книга 3 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
06 05 Книга понравилась, читается легко, жду продолжения. Оценка: отлично! |
Комментарии
Отв: Индекс к Library Genesis
можно где-нибудь рядом sql-дамп положить? начал прикручивать генезис к MyHomeLib, имеет смысл делать это с актуальным дампом.
Отв: Индекс к Library Genesis
xls -> csv -> LOAD DATA INFILE myfile INTO TABLE mytable...
Но вообще xls - дурной тон... И .7z - жопа. Зачем?
Отв: Индекс к Library Genesis
xls: есть др. варианты?
7z:
1) даёт наилучшую компрессию;
2) у всех есть.
bw
Отв: Индекс к Library Genesis
csv
1) Расслабьтесь, молодой человек
2) У меня нет.
Я могу понять бескомпромиссный экстремизм в стремлении к крутизне, но со временем приходит понимание ценности гармонии. Или не приходит...
Чисто для конкретных поклонников 7z, rar и прочей лабуды: архив - это не только средство хранения, это ещё и средство распространения и архивирования. Поэтому неизменность формы важнее эффективности результата. Особенно если эффективность в состоянии оценить лишь пылкие юноши с горящим взором. Поэтому, если хотите хорошо выглядеть - не майтесь дурью, используйте zip. Вас поймут.
Отв: Индекс к Library Genesis
Отв: Индекс к Library Genesis
Ага, и каждый второй будет вас спрашивать, чем открыть файл ;).
А интернета тоже нет? ;D
Отв: Индекс к Library Genesis
Сорри, чья жопа? ;) Не понял! Платный RAR что, лучше? Или zip лучше жмет? Как-то несовременно звучит, сударь!
Отв: Индекс к Library Genesis
зип универсальнее - : ) Как думаешь почему либрусек в основном держит и работает с зипов, а не 7z? или это ошибочное решение по твоему
Отв: Индекс к Library Genesis
потому что для LZMA не существует нормального API, а для зипа существует и большинством поддерживается.
а что касается либрусека, то рар тут тоже был бы неплох - на документах компрессия лучше. И распаковщик бесплатный.
думаете tar.gz под юниксом (двойная упаковка: tar-ом без компрессии, просто сбор в один файл-ленту, и gzip-ом с компрессией) - это тоже лучше? это не лучше - это дань истории, со времён станций на ленточных накопителях (tar как раз оттуда: Tape Archive). И под юниксом tar.gz распространён кудаааа больше, чем "более универсальный" .zip.
Отв: Индекс к Library Genesis
Так не все же пользователи под юниксам сидят?
Насчет rar-a пишите Ларину но как я уже сказал - по моему лучшее сжатие не окупает другие недостатки для *данном публичном проекте* (т.е. либрусека)
Отв: Индекс к Library Genesis
Дело, наверное, просто в том, что нет движка библиотеки, расчитанного на 7z ;). А вообще, это спор ни о чем. Человек выложил индекс, благодаря чему можно будет наконец нормально пользоваться данным разделом библиотеки, а вы его критикуете, что не в том формате выложил! Хамство какое... ;D Ну, и делайте себе в каком хотите формате, кто вам не велит? Можете хоть KGB запаковать, слышали о таком?
Отв: Индекс к Library Genesis
Движок библиотеки делает Ларин, так что "дело" не в этом - : )
Насчет "хамства" :
- Я сперва благодарил, потом высказал свое мнение
- Это какой то дурацкий аргумент - теперь что никакие улучшения никому кто сделал хоть кое что, не предлагать?
- В KGB именно вы себе пакуйте, очевидно он вам полезен и нужен, и утилиты у вас есть - : )
Отв: Индекс к Library Genesis
я туда подкладывать не буду, потому что БД постоянно меняется, да и не место там этому. Когда-нибудь отдельную страничку сделаю со всей нужной инфой. Пока загрузил сюда http://rapidshare.de/files/42531016/bookwarrior.updated_20090119_1956.rar.html
Это последняя версия, которая очень сильно отличается от того, по чему ищет либген. В лучшую сторону, разумеется.
Вообще по поводу апдейтов базы лучше связываться лично, я тогда буду по мере обновления высылать и оповещать, если что значимое происходит.
PS
подумываю явное поле имени файла ввести... наверное так было бы легче всем...
Отв: Индекс к Library Genesis
ИМХО, не обязательно.
Отв: Индекс к Library Genesis
Спасибо большое! Почти 50000 книг... Вызывает уважение! :)
Отв: Индекс к Library Genesis
Отлично, спасибо!
Еще, пожалуй присоединюсь к рекомендации Stager-а про csv и zip, основный аргумент - нельзя умножать сущности и усложнять без необходимости;
csv versus ексель - ексель формат сложнее, да и поверх этого проприетарный - при этом какие фичи нужны в данном дампе которые поддерживает формат xls, а сsv нет? (а ексель легко откроет csv)
zip vs 7z - по моему, выигрыш в компрессии и/или скорости распаковки - ничтожный плюс, по сравнению с удобством распространенности архиватора. 7z у меня тоже нет /хотя прежде был/
Отв: Индекс к Library Genesis
csv - это текстовый файл, в котором элементы списков разделены точкой с запятой. Его можно выложить и с расширением txt без каких-либо проблем и открывать хоть Word'ом, хоть Notepad'ом. Только здоровый он. Для тех, кто не боится Excel, пояснить, чтобы сменили расширение на csv или открывали Excel'ем.
Из Excel файл сохранить в формате csv и изменить расширение на txt.
Отв: Индекс к Library Genesis
за csv и zip
Отв: Индекс к Library Genesis
похоже далеко не все понимают, о чём просют: CSV будет содержать UTF-8 кодировку, а это значит, что вы его откроете, но просто так не увидите в нём ничего, кроме латиницы. Это действительно то, чего вы хотите? Notepad с этим не справится. Более того, с этим вообще ничто не справится, поскольку в CSV файлах нет маркера формата, указывающего на кодировку содержимого. Т.е. каждая прога будет открывать в тех кодах, в которых ей взбрендит. Случайным образом может наткнуться и на UTF-8.
Эксель за этим следит, открывает быстро, позволяет любую обработку и я могу гарантировать, что вы увидите название таким, каким я его туда засунул. Это первое - гарантия доставки. Альтернативного формата "под ключ" просто не вижу. (HTML был бы опцией, если бы не размер - завалит любой браузер).
Теперь архив: как хотите конечно, но LZMA (7-Zip) даёт на 3 МБ (30%) меньше, чем ZIP.
Отв: Индекс к Library Genesis
C UTF-8 ?Справится-справится. И vim справится, и krviewer, и OpenOffice. И с ZIPом лично мне работать намного удобнее, нежели с 7zip.
Мое личное мнение - (DBF | CSV ).zip
Отв: Индекс к Library Genesis
А вот как бы справляется, сцуко ? :);) : Даже знает что у него "очень длинные строки", и сепараторы строк какие.
ИИ, не иначе;) Хотя текст не только "инглиш" но это он так, оговорился...
Отв: Индекс к Library Genesis
гляжу на "РџРѕРёСЃРє РєРЅРёРіРё РїРѕ точному" и понимаю - это UTF-8...
и как у меня это получается?
как загадочно...
Отв: Индекс к Library Genesis
короче там ещё уголок свободный был, я туда вам csv.zip выложил (utf-8). Мучайтесь на здоровье!
Отв: Индекс к Library Genesis
Спасибо! Вот это мудрое разрешение вопроса - : )
Не понял как часто этот список обновляется... или генерится на лету?
Отв: Индекс к Library Genesis
Отв: Индекс к Library Genesis
у тебя есть полная база (bookwarrior.updated 20090105 0619) см. почту, ещё в прошлом году высылал.
Отв: Индекс к Library Genesis
И, заметьте, что Notepad по прежнему открывает файл index.csv корректно - все видать.
Ну и scalc из OO любезно спрашивает, какая кодировка и после указания на utf-8 все нормально кажет.
А вот Excel почему-то не хотит нормально показать index.csv.
Отв: Индекс к Library Genesis
ужасно невнимательный народ. Я не говорил, что Notepad не откроет или что в принципе невозможно прочитать содержимое. Я сказал, что проги сами не в состоянии в принципе и однозначно определить кодировку в таком файле - потому что там нет никаких однозначных её признаков. Определить можно только вероятностно. Поэтому абсолютно никакая прога не справится с открытием файла в наверняка правильном виде у всех и всегда. Варианта два: либо вы сами укажете кодировку, либо она отгадает. Но гарантии нет! И измените вы имя файла, забудете, что это UTF-8, или вообще о такой не слышали - будете неистово тыкать мышкой в экран, пока не проклюёте в нём паз. Это что, аргументы в пользу удобства??? Увольте, мне трудно такой дендроцефализм понять... Единственное оправдание желанию использовать этот формат - это то, что большинство присутствующих так или иначе касаются разработки, а для этого он как раз самый удобный. Поэтому на моём месте грех отпираться и давить исключительно на XLS для всех - кому-то действительно может оказаться нужнее CSV. Хотя повторюсь: ни CSV, ни XLS не являются полным дампами базы - это её самые важные поля. Если кому-то нужно для разработки - берите SQL-дамп базы. Там всё.
Поэтому XLS - формат идеальный с точки зрения доставки индекса: кем бы вы ни были, индекс я до вас доставлю в девственном виде. А CSV с этой функцией не справляется.
Отв: Индекс к Library Genesis
Возможно тогда отдавать все в открытом формате odf(ods)?
Отв: Индекс к Library Genesis
вот это уже натурально хардкор =)
Отв: Индекс к Library Genesis
абсолютно ничем не хуже XLS, к тому же это по сути xml поэтому хорошо парсится будет, при необходимости.
Отв: Индекс к Library Genesis
последние эксели - тоже xml/zip, а ods открывать большинству будет нечем. Вынуждать бомонд сливать сотни МБ и ставить альтернативный офис - некошерно.
Отв: Индекс к Library Genesis
Как бы вынуждать ставить пиратский офис тоже некошерно. (Нет уверенности что OO.o откроет документ xls корректно), поэтому оптимальным все таки будет CSV в utf8.
Отв: Индекс к Library Genesis
я не вынуждаю: мои файлы OOo откроет правильно гарантированно. Я с обоими офисами работаю всю дорогу и не было замечено никаких проблем. Более того, вся разработка, даже если вы попытаетесь воздвигнуть либген у себя на домашнем компьютере, сделана на Open Source продуктах. Так что не пережывайте, пожалуйсто.
Отв: Индекс к Library Genesis
сейчас вот взял *.xlsx (одна из библиотек уже не вмещает свой список хешей в 65 тыщ строк), переименовал в test.zip, распаковал, запаковал в ZIP 7-Zip-ом, выиграл на этом 3 МБ из 16-ти, переименовал обратно в *.xlsx и он открылся в Excel 2007... Так что внутренности в виде XML можно вообще без участия экселя обрабатывать. Пока остерегаюсь сильных утверждений, но похоже новый формат экселя вполне заменяет базу данных.
Отв: Индекс к Library Genesis
У моей библиотеки (http://libelli.ru/works/n_o.htm) с базой на BookSeer'e опытным путем установленное ограничение 65375 позиций, по практически больше, порядка 65,5 тыс. Работает шустренько, как самолет. И конвертируется база во что угодно в один нажим. Гляньте, обсудим, проблемы у меня с Вами явно принципиально одинаковые.
Отв: Индекс к Library Genesis
Вдогонку: файлы с базой bon, работающей с приложением BookSeer, и с html внутри zip'а.
Отв: Индекс к Library Genesis
Да ладно тебе....
Никаких "однозначных признаков" и быть не может *принципиально*. И не "в таком файле" - а *вообще* - в произвольном файле.
Вопрос ВСЕГДА идет про интерпретации содержимого бинарных файлов - т.е. "отгадыванием" (и евентуально, каких-нибудь соглашений или "конвенций" про его интерпретации).
Так что ничего нового ты тут не сказал (и никаких *однозначных* "маркеров формата" про которых ты гнал в XSL и быть не может)
Отв: Индекс к Library Genesis
ууу... как всё запущено.... =)
ЗЫ - а если серьёзно, то оставьте мне заботу о вас, раз у вас такое... "отвлечённое" представление о реальности ;)
Отв: Индекс к Library Genesis
Для некодеров-простых пользователей (нас) теперь открыта возможность маасовой скачки через довнлодеры. Спасибо. ))
Отв: Индекс к Library Genesis
ну вот это неправильно и именно поэтому полная индексация сайта была отключена
вы загрузите сервак запросами к БД вида http://gen.lib.rus.ec/get?md5=2f2dba2a621b693bb95601c16ed680f8
а можно выкачать всё без нагрузки на БД, напрямую из каталогов:
http://gen.lib.rus.ec/repository/
юзер: gen
пароль: gen
Отв: Индекс к Library Genesis
Спасибо. Здорово! А он в режиме фтп работать не умеет?
Отв: Индекс к Library Genesis
к сожалению нет. Это называется докачка, т.е. когда у вас уже есть часть файла и сервер умеет начинать отдачу не только сначала, а с произвольной позиции в файле. Народ с самого начала просит сделать, я уже выяснил как, но пока руки не доходили: там надо кодить, а значит отлаживать. Лучше с гарантией, что работает, чем где-нибудь недотестить, а у вас потом сотня ГБ окажется битыми. Когда-нибудь наверное сделаю.
Но вам это не должно мешать: если вы замахиваетесь на такие размеры (300 ГБ), так чего вам режим докачки? Видимо у вас достаточно хорошая сеть, чтобы об этом не задумываться.
Отв: Индекс к Library Genesis
Да нет, я на такие размеры не замахиваюсь. Наверно выкачаю около 30 книг интересующей тематики, ибо инет не вечен, возможно через пол-года его у меня не будет в наличии, а книги всегда пригодятся. Просто по фтп удобнее работать, не более. В любом случае спасибо вам за огромную работу по каталогизации столь нужных всем знаний.