скрипт для лингвистического анализа текста
Опубликовано вс, 28/12/2008 - 12:58 пользователем Wictor
Forums: Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929): Цитата: Лингвистический анализ текста: Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Подайте бедному копеечку на книжку с литреса... 2 дня
medved RE:Предупреждение: "зеркала" флибусты 6 дней Isais RE:Соседи 1 неделя babajga RE:Как сова отправилась в отпуск 1 неделя Саша из Киева RE:Горящие паруса 2 недели Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 3 недели commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 1 месяц Саша из Киева RE:Книги на латышском языке 1 месяц stevecepera RE:Список современных французских писателей? 1 месяц etorus2008 RE:Отв: Помогите найти книгу по описанию 2 месяца lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 2 месяца Wedmak RE:Помогите найти!.. #2 2 месяца sem14 RE:Координация сканирования и вычитки 2 месяца babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца Isais RE:Мои открытия 2 месяца kopak RE:О группе Дятлова. О той самой, того самого... 2 месяца Впечатления о книгах
Green Bug про Ланцов: Железный лев (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
06 07 Марти Сью пополам с политической пропагандой. Как по мне, не стоит читать даже если за это будут платить. Оценка: плохо
irukan про Виталий Семенович Макаренко
06 07 Воспоминания о Антоне Макаренко его брата. Молодой Макаренко оставляет неприятное впечатление: эгоизм, нарциссизм, социальная глухота. Совершенно не тот человек, которого мы видим в «Педагогоческой поэме». Но ведь смог же ………
udrees про Панчин: Защита от темных искусств. Путеводитель по миру паранормальных явлений (Научная литература: прочее, Научпоп)
04 07 Очень хорошая книга, развенчивающая много мифов, витающих вокруг сверхъестественных способностей, врачевания, магии, астрологии, предсказаний и прочего прочего. Множество чудес опровергается или подвергается справедливому ……… Оценка: отлично!
udrees про Вальтер: Мерцающий город (Боевая фантастика, Самиздат, сетевая литература)
04 07 Как-то слабовато получилось. Очередной попаданец, ну и еще куча людей вместе с ним, проваливаются во времени в какой-то мир динозавров. А динозавры организованно атакуют поселение людей. В общем и вся завязка. Все смахивает ……… Оценка: плохо
udrees про Вальтер: Жажда III [СИ] (Боевая фантастика, Триллер, Постапокалипсис, Самиздат, сетевая литература)
04 07 Хорошее продолжение серии про войну людей и вампиров, теперь еще приправленную вмешательством иных цивилизаций. Из-за этого поворот сюжета в конце книги становится радикальным, все переворачивается с головы на ноги. Главный ………
mysevra про Александрова: Амулет сибирского шамана (Детективы: прочее)
04 07 Ни детектива, ни особого триллера, больше похоже на женскую прозу – качественную, с загадочными событиями, но я надеялась, что будет поживее. Оценка: неплохо
mysevra про Парнов: Ларец Марии Медичи (Полицейский детектив, Исторический детектив)
04 07 Хорошая вещь, очень уютное описание, столько всего нового-интересного. Правда, хотелось бы чуть больше динамики.4 Оценка: хорошо
mysevra про Бобылёва: Наш двор (Ужасы)
04 07 Язык изложения – не оторвёшься. Занятные оригинальные истории, есть жутенькие, есть и просто грустные. Финал порадовал. Оценка: отлично!
Лысенко Владимир Андреевич про Усманов: Шутки богов. Поспешное решение (Боевая фантастика, Героическая фантастика)
03 07 Еле прочитал десяток страниц, дальше не смог. Оценка: неплохо
dimaeg про Проект «Ковчег»
03 07 Люблю читать произведения автора, но это серия самая худшее издание автора.
dimaeg про Регрессор в СССР
03 07 Раздражает главный герой, чуть что сразу плакать. ГГ мой ровесник, ну не видел я таких плакс в то время и восторженные дебилизм главного героя раздражает. Пытаюсь уже 4 или 5 раз начать читать 2 том и бросаю.
Wik@Tor про Порошин: Гость из будущего. Том 1 [СИ] (Юмор: прочее, Самиздат, сетевая литература)
02 07 Неинтересная сказка про вора из будущего Оценка: плохо |
Отв: скрипт для лингвистического анализа текста
Хотите поверить алгеброй гармонию? :)
Нет. Цифры любопытные, но, увы, о качестве книги они ровным счетом ничего не говорят.
Отв: скрипт для лингвистического анализа текста
А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?
Отв: скрипт для лингвистического анализа текста
Вы считаете, что у Елены Хаецкой "бедный язык"? :)
Отв: скрипт для лингвистического анализа текста
Я вот тоже очень удивилась. Зато выявилась достоверность "скриповой" оценки текста. :)
Отв: скрипт для лингвистического анализа текста
Под словом "автор" я имел в виду автора гипотетического. Хаецкая мне нравится, хотя в некоторых ее произведения встречаются повторы чуть ли не абзацев. Например куски текста из Саги о Хелоте встречаются в Харольде.
Отв: скрипт для лингвистического анализа текста
Не люблю говорить о сферических конях в вакууме. В Вашем примере активный словарный запас автора "ниже среднего". С творчеством автора Вы знакомы. Значит, можете сделать выводы. Вы считаете, что у данного автора "бедный язык"? Если ответ "да", то Вы можете смело использовать данный скрипт для предварительной оценки произведения :)
Отв: скрипт для лингвистического анализа текста
На именно такую статистику - скорее не обращал бы, чем обращал.
Но вообще-то идея не такая уж дурацкая, гармонию - не гармонию, а некоторые характеристики текста программно поймать вполне можно, хоть тот же "Штампомер" вспомнить. У меня давно свербила идея попробовать на зубок тексты людей, явно не умеющих писать (ака графоманов).
Есть как минимум два довольно легко формализуемых признака графоманского текста:
1. Избыток восклицательных знаков в прямой речи героев.
2. Вязкость словоупотребления, то бишь - одинаковые или однокоренные слова в соседних предложениях (например "Но вообще-то идея не такая уж дурацкая..." и "У меня давно свербила идея...").
Был ешё и третий признак, но я его, каюсь, забыл...
Отв: скрипт для лингвистического анализа текста
Вот ещё можно вдоволь поиграться: http://rusf.ru/books/analysis/ :)
Отв: скрипт для лингвистического анализа текста
Можно обращать и на такую но ... только строить ее не по книге, а по автору. Т.е. ввести весь его опубликованный корпус и построить профиль, желательно в привязке ко времени, что б была видна и динамика. Но при этом не забывать, что это относительные характеристики и их надо сравнивать с "подпольем" и "потолком" ;), т.к. средняя температура по больнице ничего толкового не выявит.