скрипт для лингвистического анализа текста
Опубликовано вс, 28/12/2008 - 12:58 пользователем Wictor
Forums: Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929): Цитата: Лингвистический анализ текста: Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 3 часа
larin RE:Оплатил, но абонемент не отображается 3 дня sd RE:Fishing 3 дня Алексей111111111111 RE:Оплатила,но абонемент не отображается 4 дня sd RE:Доступ 27 5 дней kopak RE:Беженцы с Флибусты 1 неделя Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 1 неделя Isais RE:Семейственность в литературе 1 неделя Isais RE:Древний Рим. Подборка книг 1 неделя Саша из Киева RE:"Экс" и "нео": разноликие правые 1 неделя medved RE:Предупреждение: "зеркала" флибусты 3 недели Isais RE:Соседи 3 недели babajga RE:Как сова отправилась в отпуск 1 месяц Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 месяц commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 2 месяца Впечатления о книгах
Саблезубый Заяц про Герасименко: Огонь сильнее мрака (Юмористическая фантастика, Научная фантастика, Городское фэнтези)
24 07 Почему книга отдельно? Это же из серии "Пневма".
Александр Лагода про Маканин: Удавшийся рассказ о любви [сборник] (Современная проза)
24 07 Файл невалиден. Готовлю замену.
StrelaVV про Карелин: Лекарь Империи. Книга 2 [СИ] (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
24 07 Первая книга понравилась, продолжение есть - читаю... Оценка: отлично!
Олег Макаров. про Шопперт: КВЖД [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
23 07 Забавно. Попаданец не борзеет, даже песен и стихов не ворует из будущего. Прогрессорствует довольно-таки аккуратно в рамках своих возможностей, но без фанатизма. Хотя странно, что школьный учитель физики круто умеет в военизированное ……… Оценка: нечитаемо
Олег Макаров. про Ямской приказ
23 07 Задумка очень интересная, но написано весьма коряво. Прямо как будто школьник... Диалоги не живые. Тяжело читать. Бросил на середине первой книги Искренне жаль. Могла бы быть классная серия
Aleks_Sim про Грушевский: Історія української літератури т.4 (Литературоведение)
22 07 Не вычитанный совсем после плохого OCR текст Оценка: нечитаемо
francuzik про Никл: Рожденный, чтобы жечь! (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
21 07 На удивление книга понравилась. Политики совсем нет зато есть юмор. Буду ждать продолжения. Оценка: хорошо
дядя_Андрей про Деметер: Хроники Космического Патруля [СИ] (Боевая фантастика, Самиздат, сетевая литература)
21 07 Предупреждаю сразу, что я ни разу не «заклёпочник», поэтому не стану умножать единицу массы на единицу скорости и делить всё это на единицу гравитации. Это не моё. Просто поделюсь тем, за что зацепился глаз, когда читал. 1. Очень ……… Оценка: хорошо
StrelaVV про Ляпина: Срочно требуется ведьма [СИ] (Городское фэнтези, Любовная фантастика, Самиздат, сетевая литература)
20 07 Очень симпатичная история, легко читается, ГГ чудесная, адекватная ведьмочка
ne_fanat про Княжич Юра
20 07 Сначала было более-менее интересно. Потом автор ударился в веганство, читерство, ГГ покрутел настолько, что в 5 книге его убивали аж пятеро наикрутейших магов, но так и не убили. А больше всего раздражают выплеснутые автором ………
polyn про Ефимова: Отель «Китовый райк» [СИ] (Классический детектив, Иронический детектив, Детективы: прочее, Самиздат, сетевая литература)
20 07 С нетерпением жду продолжения. Оценка: отлично!
Chernovol про Карпов: Княгиня Ольга (История, Биографии и Мемуары)
20 07 Интересно. России тогда же не существовало, было Московское царство. Оценка: плохо |
Отв: скрипт для лингвистического анализа текста
Хотите поверить алгеброй гармонию? :)
Нет. Цифры любопытные, но, увы, о качестве книги они ровным счетом ничего не говорят.
Отв: скрипт для лингвистического анализа текста
А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?
Отв: скрипт для лингвистического анализа текста
Вы считаете, что у Елены Хаецкой "бедный язык"? :)
Отв: скрипт для лингвистического анализа текста
Я вот тоже очень удивилась. Зато выявилась достоверность "скриповой" оценки текста. :)
Отв: скрипт для лингвистического анализа текста
Под словом "автор" я имел в виду автора гипотетического. Хаецкая мне нравится, хотя в некоторых ее произведения встречаются повторы чуть ли не абзацев. Например куски текста из Саги о Хелоте встречаются в Харольде.
Отв: скрипт для лингвистического анализа текста
Не люблю говорить о сферических конях в вакууме. В Вашем примере активный словарный запас автора "ниже среднего". С творчеством автора Вы знакомы. Значит, можете сделать выводы. Вы считаете, что у данного автора "бедный язык"? Если ответ "да", то Вы можете смело использовать данный скрипт для предварительной оценки произведения :)
Отв: скрипт для лингвистического анализа текста
На именно такую статистику - скорее не обращал бы, чем обращал.
Но вообще-то идея не такая уж дурацкая, гармонию - не гармонию, а некоторые характеристики текста программно поймать вполне можно, хоть тот же "Штампомер" вспомнить. У меня давно свербила идея попробовать на зубок тексты людей, явно не умеющих писать (ака графоманов).
Есть как минимум два довольно легко формализуемых признака графоманского текста:
1. Избыток восклицательных знаков в прямой речи героев.
2. Вязкость словоупотребления, то бишь - одинаковые или однокоренные слова в соседних предложениях (например "Но вообще-то идея не такая уж дурацкая..." и "У меня давно свербила идея...").
Был ешё и третий признак, но я его, каюсь, забыл...
Отв: скрипт для лингвистического анализа текста
Вот ещё можно вдоволь поиграться: http://rusf.ru/books/analysis/ :)
Отв: скрипт для лингвистического анализа текста
Можно обращать и на такую но ... только строить ее не по книге, а по автору. Т.е. ввести весь его опубликованный корпус и построить профиль, желательно в привязке ко времени, что б была видна и динамика. Но при этом не забывать, что это относительные характеристики и их надо сравнивать с "подпольем" и "потолком" ;), т.к. средняя температура по больнице ничего толкового не выявит.