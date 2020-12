Израильские ученые восстанавливают клинопись искусственным интеллектом

Понимать тексты, написанные на неизвестном языке, мертвом уже не одно тысячелетие — трудная задача. Еще сложнее восстановить недостающие фрагменты древнего текста – а с другой стороны, если ошибешься, все равно никто не заметит.

Для того чтобы заполнить лакуны, нужно для начала научиться читать и понимать исходный текст. Это, что называется, ишачья работа. Но группа израильских ученых под руководством Шая Гордина из Ариэльского университета изобрела дигитального ослика, наделенного искусственным интеллектом, который помогает им воссоздать недостающие фрагменты аккадских клинописных табличек.

В сентябре этого года их статья «Восстановление фрагментарных вавилонских текстов с использованием рекуррентных нейронных сетей» была опубликована в Proceedings of the National Academy of Sciences.

Слова «нейронные сети» звучат устрашающе, но это означает программное обеспечение, создателей которого вдохновляют принципы построения нервной системы. Основная концепция — научить машины учиться, думать и принимать решения. В данном случае компьютер находит правдоподобно звучащее восполнение недостающих фрагментов текста.

Не нужно обольщаться. Дигитальный ослик не умеет читать клинопись. Компьютеры не могут читать рукописные символы. Мы, животные, прекрасно распознаем буквы и цифры, по-разному написанные разными людьми, а машины – совсем нет. Гордин и его команда загоняют в свою машину транслитерацию сохранившихся вавилонских текстов.

А что дальше? В случае недостающих кусочков в папирусе или табличке люди по контексту интуитивно понимают, что во фрагменте «…аша мат…», скорее всего, речь идет о «вашей матушке» и ни о чем другом. С компьютерами дело обстоит иначе – все сводится к математике и вероятности тех или иных решений, основанных на полученных прежде знаниях.

Хорошей отправной точкой для расшифровки древней письменности является изучение начала начал.

Эврика в Уруке

Где-то более 10 тысяч лет назад ледниковый период пошел на убыль и жители Ближнего Востока начали переходить к оседлому образу жизни,выращивая и добывая пищу. И задолго до того, как они научились одомашнивать животных, не говоря уже об изобретении колеса, они уже занимались торговлей.

Возможно, именно торговля вдохновила на создание в Месопотамии около 7000 лет назад самой ранней формы общения -«псевдописьмо» на маленьких кусочках керамики. Они несли на себе упрощенные изображения, например, коровы или других древних товаров. Затем таблички стали крупнее, а потом на них стали возникать абстрактные знаки; штрихи, обозначающие цифры или, возможно, личные имена. Для этого использовались первые звуки различных конкретных слов, соединявшихся в новые слова, которые невозможно нарисовать.

«Египет и Шумер были в то время главными политическими образованиями, накопившими достаточно человеческих и материальных ресурсов, чтобы потребовалось создание сложной системы управления», — отмечает Гордин.

На смену «псевдописьму» пришло протописьмо: образная протоклинопись, начертанная на дощечках. Оно возникло около 5500 лет назад в городе Урук; вернее, это — единственное место, где такие таблички были найдены. «Кто-то в Уруке воскликнул «эврика»», — шутит Гордин.

По его словам, всего за несколько столетий протоклинопись становилась все более схематичной, и, очевидно, произошло это в Шумере. Иероглифическое письмо начало появляться в Древнем Египте примерно в то же время, около 5000 лет назад.

По словам Гордина, неясно, кто из них был первым. Вероятно, протоклинопись и протоиероглифы возникли одновременно и независимо друг от друга. Не исключено, что эти две формы письма влияли друг на друга.

И они породили клинопись: «клиновидный» логографический шрифт; значки возникали путем вдавливания заостренного тростника во влажную глину.

Одной из серьезных сложностей интерпретации текстов, записанных на табличках, является то, что «клинопись» — это не один язык. Она стала системой письма культур Леванта и Средиземноморья, говоривших на разных языках в период от 5000 до 2000 лет назад.

«Клинописная табличка в Уруке третьего тысячелетия (располагавшемся на территории современного Ирака) не была написана на том же языке, что и табличка в Кюлтепе во втором тысячелетии в Турции», — говорит Гордин. Учитывая то, что между народами региона существовали развитые торговые отношения, было естественно использовать одну и ту же базовую систему письма. Около 3800 лет назад аккадский язык стал лингва-франка Ближнего Востока.

По словам Гордина, в Леванте в период приблизительно от 3800 до 3500 лет назад ханаанцы тоже использовали клинопись, и то, что, по-видимому, было самым ранним алфавитом в мире. Не исключено, что ханаанцы изобрели алфавитное письмо. «Ханаанцы не сидели на месте и всегда могли найти работу в Древнем Египте», — объясняет Гордин. Вероятно, они не нуждались в навыках сложного иероглифического письма, и придумали более простую письменность на основе нескольких иероглифических знаков.

Таким образом, клинопись пришла в Левант с севера, а прото-алфавит — с юга, из Синая. Первые алфавитные системы из Египта распространились в Израиль, где их называют протоханаанскими. С помощью морских торговцев из Финикии консонантное письмо (в котором используются только или по преимуществу согласные) было введено во всем Средиземноморье и в Малой Азии.

Слава великому Дарию

К тому времени, когда клинопись вошла в обиход, письмо достигло стадии официальных записей, писем и шаблонных повествований о чудесах, совершенных правителем. Об этом сидетельствует Розеттский камень — стела, на которой был выгравирован указ, обожествлявший египетского царя Птолемея V; надпись датируется 196 годом до н.э. и сделана древнеегипетским иероглифическим письмом, а также на древнегреческом. Это была лишь первая из множества надписей, ввыполненных на нескольких языках. Что касается клинописи, существует гигантский многоязычный текст в Бехистуне (Иран). Подвиги Дария Великого описаны в трех разных клинописных шрифтах: староперсидском, эламском и аккадском. Важно отметить, что были также найдены копии этого текста на арамейском и древнегреческом языках.

Текст из Бехистуна был действительно монументальным: 15 метров в высоту, 25 метров в ширину и 100 метров в высоту; он был выбит на обрыве вдоль дороги, соединяющей Вавилон и Экбатану.

«Все тексты начинаются с Дария Великого», — объясняет Гордин. Таким образом, трудоемкий процесс интерпретации начался с осознания того факта, что имя царя было написано по слогам. Гордин отмечает, что в слоговом письме используются десятки возможных символов клинописи.

Чтобы погрузиться в мертвые языки, нужно много материала. В XIX веке исследование клинописи стало в академичеком мире Запада повальным увлечением, и было найдено огромное количество надписей, в немалой части — в Ниневии. «На 600 000 глиняных табличек и сотнях монументальных надписей зафиксированы более 10 миллионов слов. После открытия Ниневии познания в области клинописи существенно расширились», — говорит Гордин.

Благодаря запредельному эго Дария, лингвисты на протяжении десятилетий не спеша интерпретировали языки Вавилона и Ассирии. Потребовалось время, чтобы понять, что одни знаки были слогами, а другие — целыми словами; что символ солнца может относиться к солнцу, богу или звуку, подобному слову «солнце».

Язык и машина

Гордин говорит, что интерпретация мертвого языка — это математическая игра. Нейронные сети — это компьютеризированная модель, которая может понимать текст. Как? Он объясняет, что они превращают каждый символ или слово в число. Различные элементы этой электронной нейронной сети взаимодействуют между собой на языке чисел и создают модель языка.

Когда люди восстанавливают недостающие фрагменты текста, их интерпретация может быть субъективной. Быть человеком — значит ошибаться, быть предвзятым, и количественно оценить, насколько точна окончательная интерпретация, невозможно. И тут на сцену выходит машина.

Ученые решили искать подтверждение своей концепции с помощью поздневавилонских текстов периода Ахеменидов по той причине, что их очень много и они очень шаблонны. Модель была «обучена» примерно на 2000 этих текстов, а затем ее попросили закончить предложения, которые она раньше не знала.

По словам Гордина, машина оказалась способной определять структуры предложений даже лучше, чем ожидалось, и производила семантическую идентификацию, опираясь на статистические выводы, основанные на контексте.

Модель продемонстрировала свои таланты во всей красе, когда ей было предложено ответить на вопрос с несколькими вариантами ответов: какое слово поставить на месте пробела в данном предложении. «Тип правильных ответов или порядок выбора слова помогли нам узнать о модели больше, чем ее ошибки», — говорит Гордин.

Может ли машина работать самостоятельно? Нет. Так же, как ослик, который мало что сделает, если им не руководить. Но ученые пришли к выводу, что искусственный интеллект может избавить лингвистов и археологов, восстанавливающих обрывочные тексты, от огромной работы.

Рут Шустер, «ХаАрец»