На сайте размещены статьи по русской истории, публицистика, философия, статьи по психологии, а также по грамматике русского и древнерусского языков, в частности – Слова о полку Игореве.

Дм. Добров

Авторство текста

Дм. Добров • 31 октября 2015 г.

Иногда бывает любопытно, сам ли автор написал опубликованную им статью или книгу, например какой-нибудь честный политик, и возникает, разумеется, вопрос, можно ли установить авторство текста надежно, точными методами, опираясь на совершенно конкретные вещи? Понятно, что конкретными в данном случае могут быть только численные методы, и вопрос, стало быть, заключается только в том, что будем пересчитывать, каким образом и, главное, на каких основаниях, ибо при правильном подходе к решению задачи любой используемый метод должен быть обоснован теоретически — хотя бы самым примитивным образом, как это сделано ниже.

Чтобы понять метод определения авторства текста, обосновать его, зададим себе простой вопрос: что такое текст? Это последовательность предложений, множество, счетная величина, а предложение, в свою очередь,— это последовательность слов, множество, тоже счетная величина. Поскольку же набор предложений очевидным образом является периодической величиной, то в любом конечном тексте мы можем высчитать частоту вхождения в этот текст любой грамматической величины, количество на принятую единицу. Например, число сказуемых в любом тексте будет не менее количества предложений, а уж насколько будет оно больше, покажет количество придаточных предложений, употребляемых автором. Полученная частота и будет численно выраженной характеристикой одной черты авторского стиля, а именно — употребления в тексте сложных предложений.

Чтобы на деле применить приведенный принцип, нам понадобится образцовый текст или тексты автора и сомнительный его текст или тексты для сравнения, но понятно, что одной чертой стиля, частотой одной величины, ограничиваться было бы неразумно: вероятность истинного ответа будет невелика, ибо по единственному показателю возможно совпадение со стилем иных авторов. Таким образом, нужно будет исследовать несколько показателей авторского стиля, выраженных количественно по принципу, представленному выше.

В сущности, метод уже обоснован, но для удобства и более глубокого понимания предложенного метода нам лучше будет на время оставить частоты и множества, перейдя к функциям. Для этого нам нужно будет понять, что такое функция, а это, увы, отнюдь не так просто, как может показаться.

В простейшем частном случае функцией называется образцовое преобразование элементов одного множества в элементы иного, т.е. преобразование правильное, выполненное строго по заданному правилу. Например, слева перед нами лежит стопка не очиненных карандашей (это область определения функции), перед нами стоит точилка, а справа мы будем складывать очиненные карандаши, получая множество значений функции очинки карандашей. Понятно, что описанное преобразование карандашей всегда будет принципиально непротиворечивым, однозначным — в том смысле, что мы не сможем превратить один не очиненный карандаш в два очиненных или более. Поскольку же в общем случае функциональные преобразования могут быть весьма разными, в том числе умозрительными, как мы увидим ниже, то обычно при определении функции говорят не о преобразовании, а об отображении элементов одного множества на элементы иного, выполненном, разумеется, по правилу, правильно.

Понятно, что приведенное определение кажется глупым и никуда не годным, но в действительности это совсем не так. Это определение очень сложно для применения его в умозрительных случаях, теоретических, как видно будет ниже, и даже простое владение им открывает нам чуть ли не всю «высшую» математику. Для полного же владения хотя бы одним методом «высшей» математики следует понять еще, что такое производная функции, дифференциал.

Если говорить о физических процессах, то дифференциал представляет собой скорость функциональных преобразований. Например, если человек прошел 5 км за час, то дифференциалом данной функции преодоления расстояния будет скорость движения — 5 км/час (в идеале, надо добавить, говорят о пределе данного отношения, но нам столь высокие идеалы не понадобятся). Говоря же вообще, для вычисления дифференциала мы должны взять отношение изменения области значений функции (приращение функции) к изменению значения области ее определения (приращение аргумента функции). Так, если мы рассматриваем в тексте функцию сказуемого, повторение его по правилам синтаксиса, то для вычисления дифференциала сначала мы должны найти среднее число сказуемых в предложении (приращение функции, шаг), а потом отнести полученное к среднему количеству слов в предложении (приращение аргумента, на котором и определена функция сказуемого). Чтобы найти среднее количество сказуемых в предложении, мы должны число сказуемых текста, главных и придаточных, поделить на число его предложений, т.е. на число главных сказуемых, а чтобы найти среднее число слов в предложении, мы должны количество слов текста поделить на количество предложений, т.е. тоже на число главных сказуемых. Число главных сказуемых в отношении сократится: (а/c) : (b/c) = a/b, и останется отношение числа главных и придаточных сказуемых к числу слов — так сказать, квант действия, количество действия на слово в усредненном предложении, «скорость».

Мы вывели один численный математический показатель авторского стиля, авторства текста,— функцию употребления автором сказуемых, но в любом тексте любой автор употребляет отнюдь не только сказуемые, что и открывает простор для исследований.

Вспомним, что такое частота вхождения сказуемого — количество сказуемых на принятую единицу счета, слово в нашем случае. Мы видели, что частота вхождения сказуемого есть дифференциал функции сказуемого в тексте, периодического его повторения. Поскольку же все второстепенные члены предложения и подлежащее связаны со сказуемым, образуя с ним упорядоченное множество слов, заметно более сложное, чем просто функция, а именно — алгебраическую систему, функциональную в нашем случае, то мы можем высчитывать частоты любых членов предложения и даже частей речи, даже самые неожиданные, например отношение числа деепричастий к числу сказуемых,— все они будут иметь и грамматический смысл, и математический. Желательно, конечно, при нахождении показателей соблюдать грамматические правила. Например, деепричастия относятся к сказуемым, подчиняются им, а потому можно высчитывать усредненную их связь, так сказать дифференциал побочного действия. Очень важно также, чтобы эти грамматически определенные связи имели еще и математический смысл. Например, невежественные люди полагают, что уже само по себе среднее количество слов в предложении является важным численным показателем авторского стиля, т.е. функции в простейшем представлении, да еще и предложения они считают по авторским точкам — варвары. Математически следует отличать характеристику множества, пусть и усредненную, от характеристики именно функции как правила того или иного изменения заданной величины, определенной на тех или иных единицах, не обязательно времени, как в случае физических процессов.

Показанный выше метод представляет собой т.н. математический анализ, «высшую» математику, а точнее — дифференциальное исчисление, пусть и самое примитивное, буквально на пальцах. Это научный метод, а точнее — логика, которая может быть применена к текстам для определения их авторства.

Если же говорить о конкретной работе с текстами того или иного автора, то следует иметь, разумеется, образцовый текст — написанный именно данным автором — и тексты для сравнения, сомнительного авторства. Хорошо, если сомнительных текстов будет два или более, для сравнения их не только с образцовым текстом, но и друг с другом. Последнее даст меру истины: если расхождение показателей двух сомнительных текстов друг с другом будет заметно меньше, чем расхождение любого из них с текстом образцовым, то вывод очевиден. Например, если показатели двух сомнительных текстов у нас составят 0,04 и 0,055, а показатель образцового — 0,1, то разница на порядок величины определенно будет заметной. К сожалению, едва ли существует всеобщее допустимое отклонение показателей для разных текстов одного автора, но допустимое отклонение для данного автора может быть высчитано тем точнее, чем более доступно его текстов. Подсчетов здесь будет, конечно, много, но автоматизировать их нетрудно: нужно будет написать программу анализа текста по заданным параметрам. Задача эта будет по силам даже начинающему программисту, даже студенту.

Вопрос о величине исследуемого текста тоже легко может быть установлен экспериментально, если подсчеты автоматизированы. Нужно будет просто построить функцию увеличения отклонений показателя от уменьшения объема текста. Наверно, нарисуется что-то вроде экспоненты, т.е. принципиально вопрос будет совершенно ясен — минимальный размер текста для исследования. Например, если для анализа будет доступна целая диссертация или книга, то вовсе не обязательно будет обсчитывать ее в полном объеме — можно будет взять лишь несколько отрывков установленного объема, превосходящего минимально допустимый.

В общем, любые возникающие сложности на данном пути могут быть устранены экспериментальным путем, а непреодолимая сложность возможна только одна — если автор способен стилизовать свой текст, т.е. намеренно изменить те или иные его функции. К счастью, человек, который способен на стилизацию текста в избранном им художественном представлении, никогда не будет воровать тексты или нанимать себе авторов. Так что на деле любые проблемы решаемы.

Если у вас нет возможности автоматизировать процесс подсчетов, то несколько статей можно обсчитать и без этого, «вручную»,— потребуется только усидчивость. Не потребуется даже минимальный объем текста, если есть всего несколько статей, которые можно обсчитать полностью (объем статьи наверняка окажется достаточным для приемлемой точности). Для облегчения работы можно воспользоваться, например, текстовым редактором «Word», который автоматически считает количество слов в тексте и количество вхождений определенного стиля…

«Ручной» метод предпочтителен еще и тем, что результат может быть с успехом продемонстрирован любому человеку, представлен буквально на пальцах: не веришь — посчитай, убедись сам. Также и представленное выше обоснование метода понятно будет любому человеку — достаточно будет среднего образования или даже просто головы на плечах.

Для теоретического же обоснования именно «ручного» метода следует помнить: если человек сам не может ничего написать и вынужден прибегать к услугам, то показатели его стиля разительно будут отличаться от показателей того автора, который писать умеет. Так что проблема невелика: для решения ее не потребуется целый ученый институт и мощный компьютер — хватит только любопытства, которым и будет обеспечена необходимая усидчивость.

Зову живых