Новости

Новая технология искусственного интеллекта даст возможность любому, кто говорит на иврите, читать и изучать еврейские тексты

9 августа 2022, 19:00 Технологии
Поделиться

В течение сотен лет были напечатаны тысячи еврейских текстов и книг, но многие евреи – даже те, кто говорит на иврите, – испытывают трудности с их чтением, пишет журналист «The Jerusalem Post» Цвика Клйян.

Новаторская технология искусственного интеллекта, которая начнет работать на этой неделе, надеется дать возможность любому, кто говорит на иврите, читать и изучать эти ценные и важные тексты. Эта новая технология называется «Dicta Maivin» (эксперт по диктовке). Это новое дополнение и приложение организации «Dicta», которое делает доступной раввинскую литературу, автоматически озвучивая и расставляя знаки препинания, раскрывая аббревиатуры и идентифицируя исходные тексты. Эта новаторская технология скоро будет доступна всем, кто интересуется еврейскими текстами.

«Вы можете выбрать книгу из библиотеки «Dicta» и просмотреть ее в обработанном виде или загрузить любой раввинский текст, и «Maivin» обработает его автоматически в режиме реального времени», – рассказал профессор Моше Коппель, израильско-американский ученый-компьютерщик и знаток Талмуда, а также активист, пропагандирующий консервативные взгляды в Израиле. «Dicta» применяет передовые средства машинного обучения и обработки естественного языка для анализа текстов на иврите. «Наша цель состоит в том, чтобы избавить от рутины изучение классических и современных текстов на иврите, чтобы позволить исследователям сосредоточиться на более глубоких вопросах», – говорится на ее сайте.

«Dicta» может показаться начинающей технологической компанией, но на самом деле это некоммерческая организация, которая бесплатно предоставляет свои продукты на благо общества.

Как это используется

«Идея состоит в том, чтобы использовать ИИ (искусственный интеллект) с передовыми технологиями для обработки еврейских или ивритских текстов», – рассказал Коппел «The Jerusalem Post» во время интервью в своем доме в Эфрате. Он впервые сообщил СМИ, что флагманский продукт, над которым он работал последние пять лет, «почти готов». И его презентация пройдет на 18-м Всемирном конгрессе еврейских исследований, который состоится в Еврейском университете на следующей неделе. Коппел привел пример книги, которую можно отсканировать с помощью «Dicta Maivin» и предоставить доступ к тексту более широкой аудитории благодаря ее многочисленным функциям. «Допустим, у вас есть книга, написанная этим старым шрифтом Раши (шрифт для ивритских букв, основанный на сефардских рукописях 15-го века, очень популярный среди еврейских книг, которые были опубликованы за последние несколько сотен лет), и в нем нет никаких некудот (диакритических знаков, используемых для обозначения гласных или различения альтернативного произношения букв на иврите), в нем нет знаков препинания и, вероятно, даже есть ошибки», – объяснил он. Что касается ссылок, «в ней их миллион, но она не говорит вам, где находятся источники ссылки».

Коппел заметил, что в еврейских текстах много раз может быть написано «как сказал Рамбан», но там не будет точно указано, где он сказал или написал это. «Раввины могут цитировать Талмуд в своих книгах, даже не сообщая вам, где находится цитата; нет никакой атрибуции». Коппел взял свой мобильный телефон и продемонстрировал, как именно работает эта технология. «Что мы сделали, так это сделали так, чтобы вы могли взять свой телефон и сфотографировать страницу, и вы получите страницу обратно с текстом, который уже был распознан», – с энтузиазмом заявил он. «Это больше не картинка; она прошла оптическое распознавание символов (OCR); в тексте были исправлены ошибки, и он стал более доступным во многих отношениях. Вы могли бы расставить знаки препинания в этом тексте; вы могли бы вставить некудот. Любое из «рашейтевот» (еврейских сокращений) может быть объяснено. Вы просто наведете на него курсор, и он просто покажет вам, что оно обозначает».

Как древние, так и современные еврейские тексты содержат много сокращений на иврите, что может сделать их изучение очень трудным для тех, кто не имеет достаточно широкого образования или понимания. Коппел рассказал, что многие люди решают прекратить изучать такие тексты, поскольку, хотя они и говорят на иврите, они не знают, что означают все эти сокращения. Затем разработчик приложения показал, как технология связывает этот только что отсканированный текст с другими. Предложение с надписью «Как сказали мудрецы» без указания авторства покажет вам, кто из мудрецов сказал или написал это высказывание или цитату, просто нажав на онлайн-текст.

««Maivin» создает сноски для всех текстов, которые она сканирует», – заметил Коппел, объяснив, что приложение фактически воссоздает научное издание этой старой еврейской книги. Приятным дополнением к приложению «Dicta Maivin» является то, что шрифт Раши преобразуется в новый шрифт, который напоминает древний, но любой, кто умеет читать на иврите, сможет его прочитать. «Изобретательница шрифтов — моя невестка», – заметил Коппел с улыбкой. «Мы заказали у нее шрифт: для людей, которым нравится шрифт Раши, но которым трудно его понять. Это скорректированный шрифт Раши, который может прочитать любой желающий». «Прямо сейчас у нас в библиотеке миллионы книг», – заявил он. «Я не жду, пока вы сфотографируете эти книги – мы делаем это сами. Менее чем за час мы можем отсканировать целую книгу и выполнить всю обработку».

Как это работает

На вопрос, насколько «Maivin» автоматизирована и насколько она нуждается во вмешательстве человека, Коппел ответил, что она почти полностью автоматизирована. «Есть очень незначительная часть работы, которая на данный момент нуждается во вмешательстве», – подчеркнул он. Если технология сканирует слово, которого нет в иврите или которое редко используется во всех других еврейских текстах, которые она уже отсканировала, начинается второй этап. В этом случае используют новую технологию искусственного интеллекта под названием BERT, рассказал Коппел «The Post». «Способ работы BERT заключается в том, что вы даете ему контекст, выделяете одно слово, а затем говорите ему: угадай, каким должно быть это слово! Затем он дает вам порядок вероятностей слов, которые должны туда попасть». «Когда мы не уверены в каком–то слове, мы используем BERT. И мы также обучаем его, поскольку это технология машинного обучения, поэтому вы даете ему материал, и он учится во время этого обучения», – заявил он. Мы дали BERT всю раввинскую литературу, которую мы уже отсканировали, и сказали: «Хорошо, угадай, каким должно быть это слово в раввинском тексте».

Вмешательство человека происходит, по словам Коппела, только в 1% ситуаций, когда BERT дает список вероятных слов. «Мы даем текст практически любому, кто знает, как читать книгу, предпочтительно кому-то с опытом работы в ешиве. Им необязательно быть экспертом мирового значения». «Все, что мы делаем, на 100% бесплатно», – поделился Коппел, сообщив, что «Dicta» полностью поддерживается донорами.

Кто такой Моше Коппел?

Коппел вырос в Нью-Йорке, а после окончания средней школы учился в ешиве «Хар Эцион» в Алон Швут. Он вернулся, чтобы получить докторскую степень по математике в Нью-Йоркском университете. Прежде чем вернуться в Израиль, он защитил докторскую диссертацию в Принстоне. В течение десятков лет Коппел был сотрудником кафедры компьютерных наук в Университете Бар-Илан. Но большинство израильтян, вероятно, знают о нем или о его работе в качестве основателя Политического форума «Коэлет», базирующегося в Иерусалиме консервативно-либертарианского аналитического центра, финансируемого американским донором, имя которого держится в секрете. Он много раз упоминался израильскими новостными агентствами, как либеральными, так и консервативными, как один из самых влиятельных людей в стране.

Согласно сайту «Коэлет» форум «стремится обеспечить будущее Израиля как национального государства еврейского народа, укрепить демократию и расширить свободу личности и принципы свободного рынка в Израиле». По словам Коппела, «Maivin» готова к работе. «Это разрабатывалось в нашей лаборатории, и мы совершенствуем некоторые инструменты, которые лучше других. Большинство функций работают наилучшим из возможных способов. Пунктуационный аспект приложения на данный момент является проблемой; это не тот конечный продукт, который мы хотели бы получить. Я бы сказал, что функция аббревиатуры точна на 90%, что недостаточно хорошо. Но мы знаем, как ее улучшить, и это просто требует времени».

Большинство функций уже доступны в Интернете, как и новое приложение, и Коппел подчеркнул, что в ближайшие несколько дней некоторые из новых функций будут загружены на сайт. Так что для людей, которые искали лучшую возможность для чтения еврейских текстов, теперь есть «Dicta Maivin».

КОММЕНТАРИИ
Поделиться

Выбор редакции