Аннотация к разделу: Уважаемый автор! Создатель программ "Репетитор" и "Лингвоанализатор", Дима Хмелёв, скончался 25-ого октября 2004 г., в возрасте 28 лет. Если Вы - специалист по обработке текстов, и хотели бы продолжить разработку этих программ, пожалуйста, свяжитесь с программистом сайта.
В статье посредством формального анализа текста решается задача определения авторства текста. Новый метод основывается на формальной математической модели последовательности букв текста как реализации цепи А.А. Маркова. Оказывается, частоты употребления пар букв очень хорошо характеризуют автора. Последнее утверждение проверено в объемном статистическом эксперименте на произведениях 82 писателей.
Метод, применяемый в данной статье для определения авторства текста, основывается на формальной математической модели встречаемости последовательности элементов текста как реализации цепи Маркова. В качестве элементов текста используются последовательности букв и последовательности грамматических классов слов. Оказывается, частоты употребления пар букв и пар грамматических классов в тексте на русском языке являются достаточно устойчивой характеристикой автора и, видимо, их можно использовать, чтобы решать проблемы спорного авторства текста. Проводится сопоставление результатов, полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей. В Приложении описано исследование Д.В. Хмелёва о возможности применения алгоритмов сжатия данных в задаче определения авторства.