«Это только начало»: учёные расшифровали сотни тысяч фрагментов Каирской генизы — многие впервые в истории
Группа исследователей из Израиля и ряда стран завершила цифровую расшифровку текстов, содержащихся в сотнях тысяч фрагментов знаменитой Каирской генизы, а также тысяч других рукописей на иврите. Об этом сообщила Национальная библиотека Израиля.
Проект MiDRASH, начатый в 2023 году после получения гранта Европейского исследовательского совета в размере 10 миллионов евро (11,5 млн долларов) на шесть лет, ставит целью реконструировать книжную культуру средневекового еврейства — и сделать это с помощью современных вычислительных технологий.
Все примерно 400 тысяч фрагментов генизы были сфотографированы и оцифрованы ещё в прошлом, но менее 15% когда-либо были расшифрованы, и множество фрагментов до сих пор никто не читал.
Профессор Даниэль Штёкль бен-Эзра из Парижа, один из руководителей проекта, пояснил, что теперь впервые появилась возможность анализировать огромный корпус материалов целостно: искать слова, сравнивать языковые варианты, сопоставлять жанры и выявлять переклички между рукописями.
Материалы генизы, хранившиеся в течение тысячелетия в синагоге Бен-Эзры в Каире — от молитвенников и писем до черновиков и трактатов — были обнаружены европейскими учёными в 1896 году. С тех пор большая часть собрания была вывезена в Великобританию, а позднее и в другие страны.
Поскольку около 90% еврейского населения Средневековья жило в землях ислама, то их библиотеки почти полностью исчезли, Каирская гениза стала уникальным источником знаний о жизни, быте, литературе и религии еврейского мира тех столетий.
Команда MiDRASH объединила палеографов, лингвистов, специалистов по еврейской литературе, компьютерных учёных и исследователей еврейской традиции. В проекте участвуют учёные из Национальной библиотеки Израиля, Тель-Авивского и Бар-Иланского университетов, Оксфорда, Парижа, Хайфы, а также исследовательская группа Принстонского проекта генизы.
Автоматическая система расшифровки создана на базе платформы eScriptorium и обучена на тысячах вручную выполненных транскрипций. Она способна обрабатывать тексты на иврите, а также на арамейском и иудео-арабском, которые используют еврейское письмо.
За ближайшие месяцы исследователи намерены расшифровать ещё порядка 10 миллионов изображений рукописей.
Тем не менее транскрипция — лишь начало. Ученых интересуют дальнейшие этапы: сравнительная лингвистика, установление источников цитирования и переписывания, прослеживание перемещения сюжетов, мотивов и интерпретаций между разными регионами и эпохами.
Работа над размещением всех материалов на сайте Национальной библиотеки уже началась. Каждая транскрипция будет сопровождаться фотографией оригинального фрагмента. По словам руководителей проекта, первые массивы данных должны стать общедоступными в течение года.
Чтобы повысить качество распознавания, библиотека запустила акцию «Transcribe-a-thon»: волонтёры помогают корректировать автоматические транскрипции, улучшая алгоритм машинного обучения.
Исследователи уверены, что благодаря этой работе удастся раскрыть множество тайных связей между текстами и восстановить историю развития еврейской мысли и книжности в Средние века: «Мы впервые можем задавать вопросы такого масштаба — и впервые имеем инструменты, чтобы на них ответить», — отмечают учёные.
