скрипт для лингвистического анализа текста

Forums: 

Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929):

Цитата:
Лингвистический анализ текста:
Приблизительно страниц: 242
Активный словарный запас: чуть ниже среднего (2705 уникальных слов на 10000 слов текста)
Средняя длина предложения: 81 знак, что близко к среднему (84)
Доля диалогов в тексте: 30%, что немного ниже среднего (37%)

Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?
Аватар пользователя Captain Scarlett

Хотите поверить алгеброй гармонию? :)

Цитата:
Вообще при выборе книги вы бы на такую статистику обращали бы внимание?

Нет. Цифры любопытные, но, увы, о качестве книги они ровным счетом ничего не говорят.

А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?

Аватар пользователя Captain Scarlett

Цитата:
А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?

Вы считаете, что у Елены Хаецкой "бедный язык"? :)

izaraya написал:
Вы считаете, что у Елены Хаецкой "бедный язык"? :)

Я вот тоже очень удивилась. Зато выявилась достоверность "скриповой" оценки текста. :)

Цитата:
Вы считаете, что у Елены Хаецкой "бедный язык"? :)

Под словом "автор" я имел в виду автора гипотетического. Хаецкая мне нравится, хотя в некоторых ее произведения встречаются повторы чуть ли не абзацев. Например куски текста из Саги о Хелоте встречаются в Харольде.
Аватар пользователя Captain Scarlett

Цитата:
Под словом "автор" я имел в виду автора гипотетического.

Не люблю говорить о сферических конях в вакууме. В Вашем примере активный словарный запас автора "ниже среднего". С творчеством автора Вы знакомы. Значит, можете сделать выводы. Вы считаете, что у данного автора "бедный язык"? Если ответ "да", то Вы можете смело использовать данный скрипт для предварительной оценки произведения :)

Wictor написал:
Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929):
Цитата:
Лингвистический анализ текста:
Приблизительно страниц: 242
Активный словарный запас: чуть ниже среднего (2705 уникальных слов на 10000 слов текста)
Средняя длина предложения: 81 знак, что близко к среднему (84)
Доля диалогов в тексте: 30%, что немного ниже среднего (37%)

Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?

На именно такую статистику - скорее не обращал бы, чем обращал.

Но вообще-то идея не такая уж дурацкая, гармонию - не гармонию, а некоторые характеристики текста программно поймать вполне можно, хоть тот же "Штампомер" вспомнить. У меня давно свербила идея попробовать на зубок тексты людей, явно не умеющих писать (ака графоманов).

Есть как минимум два довольно легко формализуемых признака графоманского текста:
1. Избыток восклицательных знаков в прямой речи героев.
2. Вязкость словоупотребления, то бишь - одинаковые или однокоренные слова в соседних предложениях (например "Но вообще-то идея не такая уж дурацкая..." и "У меня давно свербила идея...").

Был ешё и третий признак, но я его, каюсь, забыл...

Вот ещё можно вдоволь поиграться: http://rusf.ru/books/analysis/ :)

Можно обращать и на такую но ... только строить ее не по книге, а по автору. Т.е. ввести весь его опубликованный корпус и построить профиль, желательно в привязке ко времени, что б была видна и динамика. Но при этом не забывать, что это относительные характеристики и их надо сравнивать с "подпольем" и "потолком" ;), т.к. средняя температура по больнице ничего толкового не выявит.

X