Как байесовская статистика раскрыла величайшую загадку американской истории?

Как байесовская статистика раскрыла величайшую загадку американской истории?

Период с 1787 по 1788 год прочно вписан в историю США. За это время Александр Гамильтон (Alexander Hamilton), видный деятель войны за независимость США, и его коллеги — Джеймс Мэдисон (James Madison) и Джон Джей (John Jay), написали и опубликовали серию статей (объединенных в сборник «Записки Федералиста») в поддержку ратификации новоявленной Конституции Штатов. Значение этой работы трудно переоценить, поскольку именно благодаря 85 статьям конфедерация независимых колоний стала единым государством. Примечательно и то, что авторы публиковались под общим псевдонимом — Публий (Publius).

Но кем был этот Публий?

Годы спустя, уже после ратификации Конституции, когда «Записки Федералиста» стали больше, чем политической рекламой, и заняли место в истории, люди задались вопросом: кто из отцов-основателей написал тот или иной текст?

По этому вопросу Аарон Берр (Aaron Burr), третий вице-президент США, сказал следующее:

«Чтобы написать серию эссе, защищающих Конституцию Соединенных Штатов, Александр объединил усилия с Джеймсом Мэдисоном и Джоном Джеем. В течение шести месяцев они сумели создать 85 очерков, ставших известными под названием «Записки Федералиста». Известно, что Джей успел написать только 5 текстов, а Мэдисон — 29. Оставшиеся 51 принадлежат перу Гамильтона».

Но это лишь догадки Берра, который усугубил ситуацию тем, что убил (на дуэли) Гамильтона прежде, чем американцы успели разобраться с этим вопросом.

Хотя авторство большинства эссе не вызывает сомнений, споры не утихают вокруг двенадцати работ. Мэдисон утверждал, что эти сочинения принадлежат ему, сторонники Гамильтона указывали на обратное, и вскоре «Записки Федералиста» превратились в арену политических баталий.

Великой тайне пришел конец, когда в 1962 году за дело взялись ученые, но не историки или политологи, как вы могли подумать, а математики. Вооружившись пока еще не апробированной статистической теорией и десятками тысяч листов бумаги (дело было до появления компьютеров), три года Фредерик Мостеллер (Frederick Mosteller) и Дэвид Уоллес (David Wallace) скрупулезно анализировали письменные работы Гамильтона и Мэдисона, чтобы выявить закономерности подбора слов в тексте — своего рода лингвистическую подпись, с помощью которой можно определить автора текста.

Когда Мостеллер и Уоллес опубликовали результаты своего исследования, они не только раскрыли тайну американской истории, но и разработали новый математический способ анализа текстов. Внезапно статистики и программисты попробовали себя в роли детективов.

Десятилетия спустя этот метод статистической атрибуции стал использоваться в анализе религиозных текстов, повышении компьютерной безопасности, предоставлении убежища политическим беженцам. Наконец, благодаря ему удалось определить авторство книги, принадлежащей перу одного из самых популярных писателей, но изданной под псевдонимом.

Но все началось со странного римского имени — Публий.

Почему Публий?

В 18 веке использование псевдонимов при публикации политических сочинений было весьма распространено. Это обеспечивало автору текста определенную защиту. Когда Гамильтон, Мэдисон и Джей принялись за сочинение «Записок Федералиста», в которой намеревались «продать» Конституцию США избирателям Нью-Йорка, как вы понимаете, никакого закона, гарантирующего свободу слова, еще не существовало, и они рисковали собственными жизнями.

Но псевдоним был взят не только из соображений безопасности. До 1788 года никто не предпринимал попыток сформулировать американцам идею Конституции США, а «Записки Федералиста» были ничем иным, как монументальной политической рекламой объемом в 180 000 слов. Представьте себя на месте гражданина зарождающегося государства, которому предстоит выразить отношение перед доселе неизвестным ему документом: кого вы сочтете более убедительным — пару партизан и вчерашних вояк или скромного гражданина по имени Публий, главным намерением которого было «не мешать правому делу».

К сожалению, со временем проявились и недостатки псевдонима. Годы спустя люди начали задаваться вопросом: кому все же принадлежит та или иная статья? Подписанные одним именем работы не позволяли определить автора. Тогда без особых возражений было решено, что Мэдисон и Гамильтон написали 73 статьи, а Джею отвели всего 5. И еще оставалось несколько текстов, в отношении которых единого мнения не было.

К этому времени Гамильтон был тесно связан с Партией федералистов и ее платформой политической и финансовой централизации. Мэдисон, поначалу бывший сторонником Джея и Гамильтона, позже примкнул к противоположному политическому лагерю республиканцев, раскритиковал идею Гамильтона о необходимости национального банка и стал одним из основателей Демократической-Республиканской партии. Вспыхнувшее идеологическое противостояние Мэдисона и Гамильтона превратило вопрос о принадлежности важнейших трактатов в один из самых дискуссионных. 

Александр Гамильтон был смертельно ранен Аароном Берром на дуэли 11 июля 1804 года и унес в могилу правду об авторстве «Записок Федералиста»

Александр Гамильтон был смертельно ранен Аароном Берром на дуэли 11 июля 1804 года и унес в могилу правду об авторстве «Записок Федералиста»

Эта схватка продолжалась десятилетиями. В первые годы после смерти Гамильтона его сторонники опубликовали обновленное издание «Записок Федералиста», в котором все спорные статьи были приписаны перу павшего соотечественника. Эти выводы были подвергнуты критике приверженцами идей Мэдисона, и после его смерти в 1836 году ими было выпущено новое издание «Записок…» с предсказуемыми корректировками.

Историк Дуглас Адэр (Douglass Adair) комментирует: «Чередование веры и неверия, неизменный спутник любого спора, напрямую коррелирует с изменением престижа толкователей Конституции. А престиж определялся доминировавшими в стране интересами в каждый конкретный период: аграрными или капиталистическими».

Получается, что идеологические воззрения Гамильтона и Мэдисона отличались разительно. Тогда почему столь сложно отделить работы этих авторов друг от друга?

На самом деле, как по стилю, так и по содержанию, эссе Гамильтона и Мэдисона в «Записках…» почти неразличимы. Все они написаны восторженным, высокопарным слогом. По результатам анализа, проведенного математиками Мостеллером и Уоллесом, средняя длина предложений у обоих авторов равна 35 словам.

Что касается содержания, то «Записки Федералиста» должны были комплексно раскрывать значение новой Конституции. Хотя в дальнейшем взгляды обоих авторов сильно изменились, в этих эссе их интересы и мнения в отношении будущего страны совпадают.

Принимая во внимание то, что между текстами Гамильтона и Мэдисона не было существенных отличий, неудивительно, что долгое время проблема определения авторства 12 эссе казалась неразрешимой. Просто раньше не было технических возможностей подвергнуть тексты количественному анализу. Но все изменилось в 1959 году.

Количественный анализ «Записок Федералиста»

Где-то в конце 1950-х годов историк Дуглас Адэр заметил нечто забавное в сочинениях Гамильтона и Мэдисона.

Большую часть своей карьеры Адэр посвятил принадлежности тех самых двенадцати статей, и, наконец, ему удалось найти отличие между авторским стилем Гамильтона и манерой письма Мэдисона. Если Гамильтон в своих текстах использовал слово «while», Мэдисон предпочитал употреблять «whilst» (оба переводятся как союз «пока»).

Однако эту находку нельзя было назвать неоспоримым доказательством принадлежности текста Мэдисону или Гамильтону, поскольку некоторые из работ вообще не содержали этих слов, а в других — использовались оба слова.
И все же Адэр почувствовал, что наконец нащупал верное направление — и поэтому написал Мостеллеру.

Мостеллер был профессором в Гарварде (Harvard University) и приближался к тому, чтобы стать одним из самых выдающихся статистиков страны. Еще в 1940-х годах Мостеллер отметился исследованием на тему «Записок Федералиста». Объединившись с политологом Фредериком Уильямсом (Frederick Williams), он кропотливо измерил среднюю длину предложений в сочинениях Гамильтона и Мэдисона в надежде найти разницу между ними, чтобы затем использовать эти выводы для идентификации спорных текстов.

Но у них ничего не вышло: работы отцов-основателей США были на удивление схожими. Средняя длина предложения составляла уже известные нам 35 слов.

Следует отметить, что Мостеллер и Уильямс не были первыми, кто догадался обратить внимание на количественные характеристики текста.

Еще в 1851 году британский математик Огастес де Морган (Augustus De Morgan) предположил, что проверить авторство апостола Павла значительной части Нового Завета (14 посланий) можно, посчитав среднее число слов в предложении в каждом послании. Он так и не удосужился испытать свою догадку, но первым высказал мысль, что таким образом можно установить авторство текста. 

Джеймс Мэдисон: 4-ый Президент США, соавтор «Записок Федералиста»

Джеймс Мэдисон: 4-ый Президент США, соавтор «Записок Федералиста»

Спустя несколько десятилетий американский физик Томас Корвин Менденхолл (Thomas Corwin Mendenhall) все-таки опробовал этот метод. Но вместо того, чтобы подсчитывать число слов в предложениях, Менденхолл предположил, что отличить работы авторов можно на основе того, как часто они использовали большие и маленькие слова. Он сравнил отрывки из произведения Чарльза Диккенса «Оливер Твист» и «Ярмарки тщеславия» Уильяма Теккерея. Но средняя длина слова постоянно менялась от отрывка к отрывку, и какой-либо очевидной разницы между авторами найдено не было.

Но не все попытки статистического анализа текстов заканчивались неудачей. В 1939 году британский статистик Джордж Удни Юл (George Udny Yule) использовал описанный де Морганом метод и выяснил, что «Подражание Христу» (The Imitation of Christ) больше напоминало сочинение Фомы Кемпийского, монаха, жившего в 15 веке, чем Жана Жерсона, которому это произведение приписывалось.

Но в 1940-х годах попытки Мостеллера установить авторство спорных эссе, измеряя длину слов и предложений, не увенчались успехом. Позже описывая этот опыт, Мостеллер сказал, что он рассматривает свое исследование с Фредериком Уильямсом в качестве примера, иллюстрирующего тот факт, что неудачи в научных исследованиях неизбежны.

В письме, в котором Адэр уговаривал Мостеллера продолжить исследования в этой области, он обратил внимание статистика, что считать нужно не длину предложений, а количество конкретных слов. Если Мэдисон и Гамильтон отличались в использовании слов «while» и «whilst», в текстах могли быть и другие лингвистические подсказки, которые решили бы эту проблему.

Взвешивание доказательств

Летом 1959 года Мостеллер решил предпринять еще одну попытку исследования «Записок Федералиста». В этот раз он объединил усилия со статистиком из Чикагского университета (University of Chicago) Дэвидом Уоллесом. Исследование давало возможность ответить на два вопроса.

Во-первых, удавшийся опыт раскрыл бы одну из самых интригующих загадок американской истории, а во-вторых, исследование давало возможность опробовать перспективный, но спорный статистический метод.

С начала ХХ века статистика как наука была обусловлена конкретной интерпретацией природы вероятности. Любой «частотный» эксперимент начинался с выдвижения гипотезы — например, при подбрасывании монеты частота ее падения «орлом» равна 50% — а затем проводились эксперименты, в ходе которых становилось понятно, совпадает ли реальность с гипотезой или нет. Такая вероятность называлась частотной.

В отличие от частотной вероятности, Байесовский подход (который и планировали проверить статисты) в зависимости от данных определял относительную вероятность тот или иного события — например, что конкретное эссе написано Гамильтоном или Мэдисоном.

В первой половине 20-го века частотный подход доминировал в статистике, но к тому времени, когда Дуглас провел первый эксперимент с «while» и «whilst», по причине сильного противодействия старой школы статистики Байес занял более примирительную позицию к своим оппонентам.

«Хотя теорема Байеса и представляла несомненный интерес для исследователей, никаких масштабных экспериментов, способных подтвердить состоятельность этой научной разработки, проведено и опубликовано не было» — писали Мостеллер и Уоллес.

Словом, перед учеными открывался шанс попасть в историю.

«By», «To», «From», «Rooster»

Следует понимать, что в 1959 году даже такое простое действие, как подсчет числа определенных слов в тексте, было далеко не самой простой задачей.

«Каждое слово эссе размещалось на отдельной строке, а все произведение помещалось на длинной бумажной ленте — рассказывает Мостеллер. — Ножницами мы разрезали эту ленту на части, в каждой из которых находилось только одно слово. Затем все это вручную сортировалось. Потребовалось много помощников». И все же процесс подсчета занял несколько месяцев. Бывало, что случайный порыв воздуха от резко открытой двери смешивал ленты, уничтожая труды нескольких дней. 

IBM 7090, который Мостеллер и Уоллес использовали для анализа спорных 12 статей

IBM 7090, который Мостеллер и Уоллес использовали для анализа спорных 12 статей

Когда все слова были распечатаны и распределены по группам, команда Мостеллера и Уоллеса начала поиск отличий между текстами, а именно — те слова, которые Гамильтон мог использовать чаще Мэдисона, и наоборот. В приоритете были служебные слова — союзы, предлоги, артикли. Их люди применяют повсеместно и в схожем объеме, независимо от контекста.

«Количество используемых служебных слов, как правило, относительно постоянное. В отличие от остальных слов, служебные применяются довольно часто, что позволяет собрать достаточный объем данных» — объясняет Патрик Джаола (Patrick Juola), профессор информатики и эксперт по анализу текста при университете Дюкейн (Duquesne University). Он продолжает:

«В этом основное отличие служебных слов от остальных. Возьмем такое слово, как «задира» (rooster), которое, как мне кажется, довольно редко встречается в письменной речи. Если бы я взял слово «задира» в качестве идентификатора авторства, изучение материалов заняло бы месяцы, и не факт, что оно принесло бы результат. Возможно, автор вообще никогда не обращался к этому слову, или использовал его только раз».

Некоторые из этих служебных слов справляются с ролью идентификатора лучше, чем другие.

Например, Гамильтон и Мэдисон использовали слово «from» примерно равное число раз, в то время как слово «by» Мэдисон применял вдвое чаще. Поэтому Уоллес и Мостеллер оставили «by», но исключили из выборки «from». После нескольких лет работы ученые выделили 30 слов, позволявших отличить тексты отцов-основателей друг от друга.

Следующим шагом было построение статистической модели и проверка метода.
Загрузив в новенький IBM 7090 код, написанный в соответствии с теоремой Байеса, и обрабатывая за раз около 3000 слов («Чуть больше, и машина выходила из строя» — вспоминал позже Мостеллер), модель определила частоту использования слова «Upon» в одном из спорных эссе, а затем сравнила эти данные с частотой того же слова в сочинениях, авторство которых уже определилось. Было выяснено, что в большинстве работ Мэдисона слово «upon» не встречается вовсе, тогда как в сочинениях Гамильтона его частота равна 3,24 на каждую 1 000 слов. Другими словами, невысокая частота использования слова «upon» в спорных текстах будет указывать на авторство Мэдисона, а высокая — Гамильтона.

Насколько достоверны эти выводы? Ученые пропустили через модель 22 эссе, часть из которых принадлежала Мэдисону, а часть — Гамильтону. Модель сумела верно определить авторство каждой работы. Но даже в том случае, если полученные данные не были слишком убедительными, машина предсказывала — вероятность того, что работу написал Гамильтон (тогда как он ее и написал на самом деле), в 20 раз выше, чем Мэдисон. 

Кто использовал слово «Upon» чаще? Как часто встречается слово «upon» в сочинениях Гамильтона и Мэдисона?

Кто использовал слово «Upon» чаще? Как часто встречается слово «upon» в сочинениях Гамильтона и Мэдисона?

Наконец, пришло время проверить оставшиеся тексты. Результаты исследования указали — все 12 сочинений принадлежат Мэдисону.

Конечно, достоверность результатов не стопроцентная. Как отметил сам Мостеллер: «Эта вероятность не может быть ниже вероятности какого-либо немыслимого события». Что, если Джефферсон, вовсе не фигурирующий в этой истории, на деле написал все статьи? Что, если при сортировке слов были допущены грубые ошибки? Что, если авторы изначально хотели ввести всех в заблуждение? Разумеется, все это маловероятно — но возможно.

От Гамильтона до Гарри Поттера

Уоллес и Мостеллер не только положили конец тайне, разгадку которой не могли найти целых 174 года, но также стали пионерами в практическом использовании теоремы Байеса и запустили новое направление в анализе текста. Хотя попытки статистического анализа текста предпринимались ранее, ни один не был настолько академически строгим, математически сложным и исчерпывающим. В следующие годы статистический анализ текста стал повсеместным явлением. К примеру, совсем недавно Кристофер Марлоу (Christopher Marlowe) получил долгожданное признание как соавтора трех «шекспировских» пьес.

С 1962 года анализу подвергались Священное писание мормонов, сочинения, ошибочно приписываемые Марку Твену (Mark Twain), одна из книг о волшебной стране Оз за авторством Лаймена Фрэнка Баума (L. Frank Baum), радио-выступления Рональда Рейгана (Ronald Reagan) и др. Были проанализированы даже книги Джоан Роулинг (J.K. Rowling).

В июле 2013 года внештатный корреспондент английского издания Sunday Times решил проверить слух, что новый криминальный роман «Зов кукушки» (Cuckoo’s Calling) принадлежит автору известной серии о Гарри Поттере.

Журналист обратился за помощью к Патрику Джаола (Patrick Juola) — всемирно известному эксперту по анализу текстов и создателю специальной программы по установке авторства — Java Graphical Authorship Attribution Program (JGAAP). Эта программа была куда совершеннее модели, разработанной Уоллесом и Мостеллером. Анализ состоял не только из подсчета конкретных слов: система пыталась отличить тексты одного автора от другого по особенностям пунктуации, комбинации слов и буквосочетаний и ряду других показателей.

Хотя Уоллесу и Мостеллеру потребовались годы, чтобы завершить исследование, анализ произведений Джоан Роулинг и еще трех известных писателей и их сравнение с «Зовом кукушки» занял всего несколько часов.

«Синтаксис, лексика, пунктуация и сложность текста — все это идентично авторскому стилю Джоан Роулинг», — говорит Джаола. — «Вероятнее всего, Гэлбрейт (предполагаемый автор романов) — псевдоним Роулинг».

Вероятность ошибки, разумеется, не исключалась, но после публикации результатов исследования в газете Times Роулинг признала свое авторство. 

Джоан Роулинг

Джоан Роулинг

По словам Джаолы, результат свидетельствует о том, что статистический анализ текста — не магия. Сегодня Патрик продолжает совершенствовать программу.

Примечательно, что статистический анализ текста способен не только раскрыть тайны истории или установить авторство легендарных текстов. Иногда это спасает жизни. К примеру, однажды с Джаолой связался адвокат, чьим клиентом был человек, запрашивающий у правительства США статус беженца. Это был журналист, написавший ряд критических статей, где обличал репрессивный режим своей страны. Хотя статьи были опубликованы анонимно, журналист не сомневался, что его вычислят и убьют.

Журналисту необходимо было доказать таможне и Иммиграционной службе США, что он написал эти статьи и имеет право на политическое убежище. Джаола загрузил в программу работы этого журналиста, анонимные статьи и ряд статей других авторов. Программа установила — вероятность, что автором был кто-то другой, колеблется в пределах от 2.78% до 16.7%.

Так, статистический анализ спас жизнь человека и защитил свободу слова. Несомненно, Александр Гамильтон и Джеймс Мэдисон одобрили бы это.

Высоких вам конверсий! 

По материалам: priceonomics.com. Источник картинки: Eric K. Washington

25 декабря 2016

LPgenerator — профессиональная Landing Page платформа для увеличения продаж вашего бизнеса

  • Более 500 шаблонов в галерее
  • Инструменты оптимизации конверсии
  • Статистика и сквозная аналитика
  • CRM для работы с заявками и телефония
  • Визуальный редактор с расширенным функционалом
  • Быстрая техническая поддержка
  • Множество интеграций
  • Окупаемость инструмента — от 7 дней
blog comments powered by Disqus