Главная » Статьи » Разное

Толстой как Facebook: зачем литературоведам математические модели

Что будет, если из «Гамлета» убрать Гамлета или Клавдия? И зачем нужен Горацио? Социологи и антропологи давно пользуются математической теорией графов для анализа отношений в сообществах. Литературоведы тоже стали пользоваться ею, чтобы под новым углом взглянуть на героев книг или проанализировать тысячи произведений одного жанра. Подробнее обо всем этом рассказал руководитель магистерской программы НИУ ВШЭ «Цифровые методы в гуманитарных науках» Даниил Скоринкин.

Теория графов

Мы с моими коллегами занимаемся цифровыми исследованиями в литературоведении — в частности, изучением художественных произведений с помощью сетевого анализа. Digital Literary Studies — достаточно новая область, открывающая интересные горизонты исследований. Это метод, который опирается на математическую теорию графов.

Изобретение теории графов принадлежит швейцарском математику Леонарду Эйлеру, по большей части жившему в России. В какой-то момент Эйлер заинтересовался старинной кенигсбергской задачей о семи мостах: жители города долго пытались понять, можно ли пройти по каждому из мостов по одному разу, не пройдя ни по одному из них дважды. Эту задачу пытались решить эмпирически, но Эйлер как настоящий математик построил научную модель. В процессе решения он понял, что ему не так важно, что это за острова и какие там растут деревья, — важно, что есть отделенные участки суши и мосты между ними. Когда Эйлер убрал все ненужное, у него осталась сухая и строгая модель, редуцирующая город до точек и линий. На обычном языке она называется сетью, а на языке математиков — графом.

С помощью такой модели можно изобразить разные объекты — например, транспортную систему (пример: схема московского метро) или круг друзей, а также представить и проанализировать социальные сети не только реальных, но и вымышленных персонажей. Простой способ установить связь — прямой диалог двух героев. Можно придумать и более сложные способы, а можно, напротив, предельно все упростить и устанавливать связь между персонажами всегда, когда они упоминаются в одном абзаце. Социальная сеть художественного текста вполне отображает структуру взаимодействия персонажей вне зависимости от принципов ее построения.

 

Социальные науки

В литературоведение анализ сетей пришел из социальных наук. Социологи и антропологи исследовали взаимодействие людей с помощью теории графов еще 80–90 лет назад, задолго до появления Facebook. Социопсихолог Якоб (Джекоб) Морено в середине 1930-х годов рисовал школьные сети. Он спрашивал детей, кто с кем хочет сидеть, таким образом моделируя сети популярности внутри классов и отношение учеников друг к другу. Морено делал это еще без применения строгих математических методов: он все визуализировал, рисовал связи и узлы, но ничего не считал.

После Второй мировой войны в Англии Макс Глакман создал Манчестерскую школу антропологии, которая в 1950-е годы активно изучала племенные сообщества и ввела одно из важнейших понятий в сетевом анализе — центральность. С помощью этого концепта ученые пытались формализовать понимание того, кто в конкретном сообществе является лидером мнений и центральной фигурой. В 1960-е годы идеи Манчестерской школы подхватили американские социологи, и произошел так называемый гарвардский прорыв, когда исследователи стали активно использовать сетевой анализ в социологии.

Социологи и антропологи придумали огромное количество сетевых центральностей, каждая из которых раскрывает определенные свойства узла. Чаще всего используют две метрики центральности. Самая простая из них — степень. Она позволяет количественно обозначить значимость узла (человека или персонажа) в сети. Скажем, степень узла может быть равна пяти, потому что он соединен с пятью другими узлами. Другая метрика центральности измеряет функцию узла в роли посредника, если это социальная сеть людей, — в роли связующего звена, соединяющего разные группы. Бывают персонажи, у которых не так много связей, но если их убрать, сеть начнет рассыпаться на отдельные группы. Эта метрика называется betweenness centrality. По-русски ее обозначают то как «центральность по посредничеству», то как «нагрузку» или «промежуточность», но канонического перевода, увы, нет (лексикон сетевого анализа вообще слабо разработан в русском языке).

Сетевой анализ дает возможность по формальным критериям выделять подгруппы внутри социальной сети людей.

Когда антрополог Уэйн Закари изучал клуб любителей карате, он записывал, кто с кем встречается после тренировок. Во время его исследования произошел конфликт между инструктором и руководством клуба. Половина участников ушла делать новый клуб с инструктором, а другая половина осталась или совсем бросила карате. Это была идеальная ситуация для тестирования данных Закари. У него была социальная сеть каратистов, то есть граф, в котором люди были представлены узлами. Исследователь написал программу, предсказывающую, кто в какой группе окажется после раскола. Этот случай хорош тем, что результаты можно было сравнить с реальными. Программа ошиблась всего в двух случаях — насчет людей, которые общались и с теми, кто поддерживал инструктора, и с теми, кто решил остаться в клубе.

 

Шекспир и Marvel

Однажды люди решили применить эту методику не только к исследованиям социального мира, но и к вымышленным сетям и художественным героям. Есть произведения с достаточно развитой системой персонажей, и интересно было посмотреть, как они взаимодействуют, похожи ли социальные сети, которые автор выстраивает в своей книге, на то, что происходит в реальной жизни.

Первая известная мне работа такого рода принадлежит двум немецким антропологам и была написана в 1998 году. Авторы проанализировали социальную структуру современного им романа Инго Шульце «Simple Storys», посвященного жизни одного немецкого городка на территории бывшей ГДР после объединения Германии. Исследователи построили сети вручную, в старой компьютерной программе, и показали, что персонажи, бывшие диссидентами в эпоху ГДР, объединяются в одну группу, а персонажи, бывшие партийной номенклатурой, — в другую. Это было небольшое разведочное исследование, но с тех пор появилось много других статей, и идею стали развивать.

Так, в более масштабной статье «The small world of Shakespeare’s plays» антропологи и социологи исследуют несколько пьес Шекспира: пытаются оценить, насколько они устроены так же, как человеческие сообщества, и проверить с точки зрения структуры сети идею small world (граф типа «мир тесен» или теорию шести рукопожатий).

Любые сети взаимодействия людей в реальном мире подчиняются общим законам и имеют схожую структуру. С одной стороны, они не суперплотные: люди образуют отдельные группы, не все связаны со всеми. С другой стороны, путь от одного произвольного узла до другого достаточно короток. Получается сеть отдельных сообществ, связанных друг с другом через более центральные узлы. Исследователи попытались проверить, устроены ли так же выдуманные сети — ведь, казалось бы, они не должны подчиняться естественным законам, потому что их выдумали писатели. Тем не менее сети в пьесах Шекспира сильно напоминают реальные сети, сопоставимые с ними по размеру.

Многие другие вымышленные социальные сети тоже напоминают сети реального мира. Так, физики и математики несколько раз исследовали вселенную Marvel. Автоматическим грубым способом, на основании того, что два персонажа появляются в одном куске комикса, они построили большую социальную сеть всех героев и злодеев вселенной. Выяснилось, что, во-первых, структура этой сети во многом напоминает сети реального мира (хотя в ней довольно короткий путь от одного узла до другого). Во-вторых,

положительные герои Marvel образуют одну большую сеть, а злодеи такой сети не формируют.

Авторы исследования интерпретируют это так: когда появляется новый, никому не известный персонаж, его нужно раскрутить, и для этого его цепляют в нагрузку к уже известному герою — например, к Капитану Америке, который оказался самым центральным персонажем в этой сети. Злодеям такая раскрутка не нужна, и они могут быть разными в каждой серии комиксов.

Авторы другого исследования в 2010 году изучали 60 британских романов и пытались проверить гипотезу, высказанную до них литературоведами, о том, что в XIX веке по мере индустриализации и перехода от описания деревенских сообществ к описанию сообществ городских меняется структура сетей романа. Гипотеза заключалась в том, что романы, описывающие события, происходящие в деревне, якобы содержат одно большое ядро и некоторое количество периферийных персонажей и не соответствуют по структуре графу типа «мир тесен». В другом типе романа, описывающем городские сети, предполагалось обнаружить много разных сообществ, как-то связанных друг с другом, но не образующих одного большого кластера. Подтвердить эту гипотезу исследователям не удалось.

 

Мой друг Горацио

Какое-то время сетевой анализ литературы осуществлялся без привлечения литературоведов. Авторы первых статей на эту тему — либо антропологи и социологи (для которых сетевой анализ — привычная вещь), либо вообще физики и математики. Но однажды на эту методику обратили внимание и филологи.

В этом смысле важной стала работа «Теория сетей, анализ сюжета» западного литературоведа Франко Моретти, который попытался применить сети для изучения нескольких пьес. В частности, он довольно подробно проанализировал сеть взаимодействия персонажей «Гамлета». Моретти высказал много теоретических соображений на тему того, зачем вообще филологам сетевой анализ и каковы его возможности. Он писал, что сеть может сжать время произведения, схлопнуть его на плоскость, превратить время в пространство и таким образом позволить увидеть что-то, что обычно не видно. Некоторые его идеи кажутся достаточно экстравагантными — в частности, он усердно искал «зону смерти» в «Гамлете» и утверждал, что все персонажи, связанные с Гамлетом и Клавдием (за исключением Озрика и Горацио, чья связь с Гамлетом очень слаба и не значима для сюжета), умирают, и это не случайно.

Моретти ничего не знал про центральности и довольно плохо работал на компьютере. Он просто брал нарисованную руками сеть и удалял из нее разных персонажей, пробовал: а что будет, если из «Гамлета» убрать Гамлета или Клавдия? Что тогда станет со структурой сети — распадется ли она на разные куски?

Оказалось, что по всем центральностям самый центральный — Гамлет. Это важный результат, поскольку

до сетевого анализа было неочевидно, что центральность социальной сети художественного текста коррелирует с его главным героем.

Следом за Гамлетом по количеству связей идет его дядя, король Клавдий, а третьим — Горацио. Моретти говорит, что не понимал роли Горацио в «Гамлете», пока не посмотрел на структуру сети. У Клавдия больше связей, но Горацио все равно важнее, потому что он соединяет два мира в пьесе — королевский и внешний. Что хорошо в теории графов — выводы Моретти легко проверить с помощью центральностей. Действительно, у Клавдия больше связей, чем у Горацио, но та самая центральность по посредничеству у него ниже.

Так формальные структурные метрики позволяют нам что-то сказать про функции разных персонажей. А дальше начинаются наши интерпретации. Человек читает книгу не так, как компьютер: он хорошо понимает смыслы, которые машина вообще не считывает, зато не запоминает какие-то конкретные мелкие вещи — например, сколько раз, кто и с кем поговорил. С помощью сетевого анализа мы можем к качественному измерению добавить количественное и попробовать говорить про художественный текст, опираясь на цифры и их визуализацию.

 

Distant reading

Но главная (и самая провокационная) идея Франко Моретти, за которую его любят, — это distant reading, «дальнее чтение». Когда литературоведы пристально читают книги, то ограничивают себя их ничтожным количеством, тем, что мы называем каноном. Скорее всего, это менее 1% художественной литературы — к тому же выбранной субъективно. Так,

из десятков тысяч детективов, написанных в конце XIX века, книги о Шерлоке Холмсе остались в каноне, а все остальные ушли в небытие, и никто их не читает.

То же самое — с викторианскими романами: по некоторым оценкам, их было написано порядка 60 тысяч в тот период. Ни один литературовед не сможет уместить в своей голове такое количество романов, чтобы сказать, что он действительно проанализировал весь жанр. По мнению Моретти, филология субъективна в выборе произведений, которые она исследует, и это неправильно. Это спорная идея, но некоторые люди ею вдохновились и стали придумывать инструменты и методы для «дальнего чтения».

Один из таких методов — сетевой анализ. Сеть хороша тем, что это совершенно формальная абстракция: просто граф, множество узлов и связей между ними. Если придумать, как автоматически извлекать эти графы из текстов (а такие способы есть), можно взять несколько сотен или тысяч текстов и попытаться проанализировать их сети. Хотя это и будет некоторое редуцирование, но оно позволит нам сказать что-то о большом количестве текстов.

С помощью сетевого анализа можно «с высоты птичьего полета» посмотреть на структуры разных литературных произведений. Так уже разглядели, например, нетипичную для пьесы структуру, когда персонажи связаны друг с другом по цепочке в скандальном для своего времени произведении — «Хороводе» Артура Шницлера. Другой пример — конца XVIII века, когда пьесы в целом были устроены похоже: ядро героев, взаимодействующих друг с другом, и периферийные персонажи. Немецкие авторы писали пьесы, во многом ориентируясь на классический французский театр, полагавшийся на античные образцы — тот самый классицизм с единством времени, места и действия. Но Гете под впечатлением от Шекспира написал совсем другую пьесу. В «Гец фон Берлихинген» явно более сложная структура: есть отдельные подсообщества, но нет центрального клубка.

Сетевой анализ хорош математической строгостью. Можно измерять формальные показатели сети, определяющие ее внутреннее устройство. Например, плотность — это отношение того, сколько в сети связей, к тому, сколько их вообще может быть с таким количеством узлов. Она варьируется в диапазоне от нуля до единицы. Если измерить плотности немецких пьес XVIII–XX веков, то выяснится, что у трагедий плотность ниже, чем у комедий. Комическое требует большего словесного выражения и большего взаимодействия между персонажами, чем трагическое.

Страдать, умирать и печалиться можно в одиночестве, а чтобы насмехаться и радоваться, как правило, нужно взаимодействовать с кем-то.

Бернард Шоу однажды в шутку сказал, что комедия — это произведение, которое заканчивается свадьбой. Кроме шуток: выяснилось, что довольно много комических пьес действительно заканчиваются свадьбой или иным торжеством, где все собираются вместе.

 

Русская сеть

Мы сделали аналогичный немецкому русский корпус. Он доступен онлайн, и в нем уже порядка 150 пьес — русская драма, начиная с Ломоносова, Сумарокова, Тредиаковского и заканчивая Маяковским и Булгаковым. Можно открыть любую пьесу и получить сеть и ее структурные параметры.

Увы, существует проклятие канона: в сети много текстов из школьной программы и иных произведений тех же авторов (Островского, Чехова, Пушкина и др.). Но в России в начале XIX века было много ремесленных писателей драм, и их пьесы совершенно не представлены в интернете. Поэтому в нашей базе каноничные авторы.

Их пьесы, в отличие от немецких, сложнее разграничить по жанру. По этой причине для первого исследования мы просто отделили явные комедии от не-комедий. И пока что на этом пробном опыте получается тот же результат, что и с немецким корпусом: комедии в целом оказываются более плотными, чем не-комедии.

Также мы решили проверить, какие русские пьесы обладают тем самым свойством small world. Одна из них — «Борис Годунов», ее структура не соответствует структуре пьес предшественников Пушкина. Здесь почти как с Гете: «Борис Годунов» во многом вдохновлен шекспировской драматургией и не соответствует стандартам классицистической пьесы.

В «Годунове» есть второстепенный персонаж Гаврила Пушкин. При визуализации сети видно, что он занимает более значимое положение, чем другие сподвижники Дмитрия Самозванца, что он важный промежуточный узел. В пьесе Гаврила действительно связывает отдельные пространства и является в некотором роде скрытым движителем вещей: ездит между Польшей и Москвой, пытаясь организовать дипломатический переход трона, потом уговаривает московского воеводу перейти на сторону самозванца, а в самом конце идет зачитывать указы нового царя к народу.

Сетевой анализ позволяет нам найти подобных персонажей и в других пьесах. Первый найденный нами — это дворянин Битяговский из пьесы «Смерть Иоанна Грозного» Алексея Толстого, двойной агент. Второй — Битков из пьесы Булгакова «Последние дни» («Александр Пушкин»), агент третьего отделения, приставленный к Пушкину следить за ним, но очень ему симпатизирующий.

Также мы визуализировали социальную сеть «Войны и мира», в нее вошли порядка 560 персонажей.

По основным метрикам центральности самыми центральными являются те, кого мы привыкли считать главными героями романа — Наташа Ростова, Андрей Болконский, Пьер Безухов и Николай Ростов. Но в целом сеть оказалась слишком плотна и велика, чтобы ее всерьез исследовать нашими методами. Дело еще и в том, что в ней слишком много временных пластов: действие «Войны и мира» происходит на протяжении 15 лет. Поэтому мы решили анализировать Толстого по частям, и это дало некоторые результаты. Например, в первой части первого тома происходит экспозиция персонажей, и в ней с точки зрения сетевого анализа хорошо выделяются две семьи — Ростовых и Болконских, а Курагины распадаются на части. Это согласуется с соображениями известного толстоведа Сергея Бочарова, который говорил, что Курагиным отказано в семейной общности.

Сетевой анализ — не замена традиционному литературоведению, но некоторая дополнительная оптика для него. С одной стороны, он дает масштаб и возможность посмотреть на огромное количество произведений «с высоты птичьего полета». С другой стороны, сетевой анализ позволяет нам глубоко проанализировать структуру одного конкретного произведения, посмотреть на то, как ведут себя его персонажи с точки зрения сетей.

https://theoryandpractice.ru

Всего комментариев: 0
avatar