Квантитативная лингвистика
Квантитативная лингвистика
Усвоение науками отвлеченных понятий и методов математики расширяет их возможности, способствует открытию новых, более глубоких закономерностей. Не случайно еще в X в. ученый и философ эпохи Возрождения Николай Кузанский в трактате «Об ученом познании» утверждал, что все познания о природе необходимо записывать в цифрах, а все опыты над нею производить с весами в руках. Философ И. Кант был убеждён, что точное естествознание простирается до тех границ, в пределах которых возможно применение математического метода.
Если науки естественного цикла сравнительно давно заговорили на языке математики, то гуманитарные науки обратились к нему только в XX в. Первой среди них была лингвистика, занимающая особое, срединное положение среди всех областей человеческого познания. Системность языка, обобщенный характер его единиц – вот та благодатная почва, на которой стали плодотворно укореняться идеи и методы современной математики. В лингвистике есть все условия, необходимые, с точки зрения известное кибернетика Н, Винера, для математического исследования. Во-первых, в лингвистике влияние наблюдателя на объект наблюдения ничтожно мало, осознания явления наблюдателем недостаточно для того чтобы его изменить. Во-вторых, язык обладает длинными статистическими рядами [Леви-Строс 1985: 54–55].
Языкознание первым из гуманитарных наук от установки на полное и исчерпывающее описание отдельных фактов перешло к установке на обобщение, на поиски единого закона, объясняющего необозримое множество отдельных фактов. Эта познавательная установка и определила интерес к математическим методам.
Пока наиболее перспективным представляется исследование сущностных характеристик языка при помощи аппарата теории вероятности и математической статистики – квантитативная лингвистика. Собственно говоря, связь математики с языкознанием началась с попыток установить статистические свойства речи, поскольку языку присущи объективные количественные характеристики. Благодаря вероятностной природе языковой структуры, а также регулярности, упорядоченности языковых явлений, она легко поддается изучению математическим аппаратом теории вероятности и математической статистики. Уже существует большая специальная литература, отразившая результаты применения статистических методик в исследовании различных ярусов языковой системы.
Шире всего количественные методики используются при описании лексического уровня языковой системы. Лингвисты убеждены, что лексемный ярус системен, но это системность особого рода. В лексике целостность и устойчивость системы сочетается с автономностью частей (подсистем). В ней заметна массовость и случайность и одновременно господствует необходимость. Всё это характерно для вероятностных систем. Известен вывод Б.Н. Го* л овина: «Язык вероятностен, речь частотна». Квантитативная лингвистика возможна потому, что для речи характерна относительная стабильность частот отдельных элементов или групп элементов и устойчивое распределение элементов, выражающее наличие внутренней упорядоченности в системе. Единицами и уровнями квантитативного анализа являются словоформы, лексема и словоупотребление (Тулдава 1987].
Практическим результатом статистического изучения лексики являются частотные словари, отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются не только в алфавитном порядке, но и в порядке убывающей частотности. В первом случае это будет алфавитный частотный словарь, а во втором – ранговый частотный словарь. Частотные словари характеризуются следующими параметрами; объём текста (число словоупотреблений), объём словаря словоформ, объём словаря лексем.
Первым частотным словарём был словарь Кединга (1898). В течение XX в. составлено несколько сот частотных словарей и частотных списков для нескольких десятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был составлен Э. Штейнфельд (1963). Интересны материалы к частотному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. Засориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная проза, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тысяч слов. Самое частотное слово – предлог в (во), далее идут служебные слова и местоимения (и, не, на, я, быть, что, он, с, а, как, это). Самое частотное существительное – год.
В 90-х годах XX в. в Швеции вышел в свет «Частотный словарь современного русского языка» (Уппсала, 1993).
Количественная методика стала более эффективной с появлением вычислительной техники. С помощью формально-количественных методов изучается авторский идиостиль, под которым В.П. Григорьев понимает взаимосвязь между языковыми средствами и особенностями творческой позиции писателя, его взгляда на мир, на окружающую действительность.
Определение авторства с помощью формально-количественных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения авторства» (М., 1994). Специалисты исследовали несколько простых параметров авторского стиля и на базе большого количества произведений писателей XVIII–XX вв. статистически доказали, что доля всех служебных слов в данном прозаическом произведении является авторским инвариантом. Один из авторов, опираясь на модель цепей А.А. Маркова, предложил методику определения авторства, основанную на том, что по произведениям автора, которые достоверно им созданы, вычисляется матрица переходных частот употреблений пар букв. Затем такие матрицы строятся для каждого из авторов, «подозреваемых» в написании анонимного текста, и для каждого автора оценивается вероятность того, что именно он написал анонимный фрагмент текста. В результате автором анонимного текста полагается тот, у которого вычисленная оценка вероятности больше.
Знаменитый шедевр древнерусской словесности XII в. «Слово о полку Игореве», уникальность которого вот уже более столетия ставится скептиками под сомнение, был подвергнут жёсткой формально-количественной ревизии. Применение анализа частот парной встречаемости грамматических классов слов позволило наглядно доказать, что глубинная структура «Слова» – это структура языка XI столетия. Этот формально-количественный анализ не отвергает гипотезы историка Б.А. Рыбакова о боярине Петре Бориславиче как авторе «Слова о полку Игореве». Возможно, отчасти она и подтверждена. Однако, полагают исследователи, необходимо ещё более детальное исследование текстов, которое будет проведено в ближайшее время [От Нестора… 1994: 340].
В многолетний спор по поводу того, кто является истинным автором романа «Тихий Дон», в свое время включились скандинавские ученые, норвежско-шведский коллектив под руководством Г. Хьетсо. Они взяли тексты, бесспорно принадлежащие М. Шолохову, и тексты донского писателя Ф. Крюкова, которому приписывалось авторство великого романа, и проанализировали их, выявляя особенности писательской манеры каждого. Учёные сравнили длину предложений, распределения длины предложений по количеству слов, распределение частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов – в начале предложений, лексические спектры, повторяемость словарного запаса по богатству. Естественно, это оказалось возможным только с помощью мощной компьютерной техники. Математическая статистика при контрольной выборке на ЭВМ 12 тыс. фраз при 164637 словах представлена в 250 таблицах, формулах и графиках [Книжное обозрение. 1999. № 18–19. С. 6]. Вывод однозначен: из двух претендентов на авторство «Тихого Дона» Крюков явно обладает наименьшим правом. «…Применение математической статистики позволяет нам исключить возможность того, что роман написан Крюковым, тогда как авторство Шолохова исключить невозможно». Недавно найденная рукопись великого романа (885 рукописных страниц, 605 из которых написаны рукой самого Шолохова, а 285 страниц – женой писателя и её сестрой) окончательно утвердила авторство М. А. Шолохова и правоту скандинавских ученых [Наука и жизнь. 2000. № 1. С. 24–25].
В Эдинбурге (Англия) разработан аналитический метод, основанный на учёте зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм». С его помощью установлено, что каждому человеку свойствен прочно укоренившийся, неизменный стиль, который не поддаётся имитации. Например, стиль Т. Харди в «Руке Этельберты» (1876) убедительно совпадает со стилем «Джуда Неизвестного». Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его дара речи и нарушил двигательные способности. Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль. Английская писательница Джейн Остин не окончила повесть «Сандиция», которая обрывается на семьдесят третьем предложении одиннадцатой главы. Повесть была дописана другой писательницей. При чтении невозможно определить, где заканчивается текст Д. Остин, а метод позволяет точно найти инородную часть повести [За рубежом. 1990. № 44. С. 20—211.
Тот факт, что объём активного лексикона Шекспира составляет от 15 до 24 тыс. слов и что им введено в язык свыше 3200 новых слов, свидетельствует в пользу тех, кто считает, что Шекспир – это псевдоним, под которым творил не один человек. У Ф. Бэкона, которому некоторые приписывают авторство пьес и сонетов Шекспира, лексикон составлял 9—10 тыс. слов (у современного англичанина с высшим образованием словарный запас включает 4 тыс. лексем) [Знание – сила. 2000. № 2. С. 109].
Петербургский поэт и переводчик «Слова о полку Игореве» Андрей Чернов нашёл, что построение стихов загадочного древнерусского памятника подчиняется определенным математическим закономерностям, а именно – формуле «серебряного сечения». А. Чернов сделал заключение о том, что «Слово о полку Игореве» имеет девять песен и что в основу текста легла круговая композиция. Если в композиции «Слова» лежит круг, то у него должен быть «диаметр» и некая математическая закономерность. Число стихов во всех трёх частях «Слова» (их 804) А. Чернов разделил на число стихов в первой (или последней) части (256), в итоге получил 3,14, т. е. число «пи» с точностью до третьего знака. Эта же закономерность выявилась при изучении «Медного всадника» Пушкина, в котором использована круговая композиция, и храма Софии Полоцкой. А. Чернов сделал вывод: математический модуль автор «Слова» использовал интуитивно, неся внутри себя образ древнерусских архитектурных памятников. В те времена храм являл собой всеобъемлющий художественный идеал, оказывающий влияние на композицию и ритмику стихосложения. Исследователь назвал обнаруженную им закономерность в построении древнерусского литературного памятника и древнерусских храмов принципом «серебряного сечения» [Известия. 1995. 1 февр. С. 7].
Лингвостатистический анализ был использован в исследовании «Илиады» Гомера. Чтобы доказать, что Гомера не было, и все 24 песни «Илиады» по происхождению – самостоятельные произведения, соединенные в эпос позднее без особой переработки с целью унификации, была использована статистика отношений внутри синонимических пар (имен собственных, просто лексических пар, формул и т. п.). По мнению автора исследования Л. С. Клейна, наиболее полные возможности для классификации текстов представляют главные этнонимы греков (ахейцы, данаи и аргивяне): они все три синонимичны, массовы (употребляемость исчисляется сотнями), и они неравномерно и неодинаково распределяются по книгам «Илиады». Окончательный вывод исследователя состоит в том, что разная употребительность имен, а также предлогов и частиц говорит о том, что песни были не просто и не только источниками, а самостоятельными вкладами, ставшими составными частями поэмы, сохранность в окончательном тексте первоначально выбранных этнонимов, топонимов, теонимов и служебных слов (и это при наличии других синонимов) говорит о том, что переработка поэтической ткани при объединении самостоятельных песен в поэму была незначительной [Клейн 1998: 18, 96, 112, 436]. Как показано исследователем, фольклорные песни, составленные в разных местах древнегреческого мира, воспевали подвиги разных героев – участников и троянской войны, и прочих мифических кампаний. Песни приспосабливались к ранее существующим сюжетам, взаимопересекаясь, часто противоречили друг другу. «Стыки» разных песен были обнаружены тонко проведенным анализом.
Отдавая должное квантитативным методикам получения информации, не следует забывать и об ограниченности их. Известны три типа получения знаний: 1) интуитивный, 2) научный и 3) религиозный. Наука (по Хайдеггеру) есть знание, проверяющее себя, экспериментирующее со своим объектом и переделывающее его. Полагают, что наука в состоянии познать только те явления, свойства которых можно оценить числом. Например, работу гипнотизера нельзя описать математическими формулами, и тем не менее результаты её несомненны и воспроизводимы. Достижения индийских йогов – экспериментальный факт, многократно проверенный. Однако эти феномены не могут стать объектами точной науки, поскольку они не поддаются количественному описанию с помощью чисел и формул. Ограниченность науки также и в невозможности понять секрет искусства. И даже сам метод открытия глубоких научных истин лишь отчасти принадлежит науке и в значительной мере лежит в сфере искусства (Пономарёв 1989: 354–355].
Данный текст является ознакомительным фрагментом.