Compreno — это технология перевода с естественного языка на универсальный язык понятий, разработанная российской ИТ-компанией ABBYY. Основу технологии составляет Универсальная семантическая иерархия (УСИ) — ядро языка понятий, которое насчитывает сегодня 60 тысяч элементов в универсальном разделе когнитивной модели, 80 тысяч — в русском разделе, и 90 тысяч — в английском.
Одно из основных применений Compreno — системы машинного перевода качественно нового уровня. До сих пор применяются в основном две модели автоматизированного перевода:
- перевод на основе правил (Rule-Based Translation Model, RBTM), используемый, например, в переводчике ПРОМТ;
- статистическая модель перевода, применяемая, например, в сервисе Google Translate.
Главный недостаток RBTM состоит в том, что она не учитывают семантику, то есть смысла переводимых текстов, а просто применяет правила преобразования синтаксических конструкций одного языка в синтаксические конструкции другого.
Статистическая модель опирается на обширную базу данных образцов перевода, собираемую по Интернету. Однако качественный перевод при этом получается только для популярных языковых пар и только по широко распространенным тематикам.
Проект Compreno реализует алгоритм машинного перевода нового поколения, основанный на УСИ. Вот его основные этапы:
- лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
- морфологический анализ (определение грамматических характеристик лексем);
- синтаксический анализ (установление структуры предложения);
- семантический анализ (выявление выражаемого значения в системе языка);
- синтез из универсальной семантической структуры предложения на выходном языке.
В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического древа, но только уже со стороны второго языка.
Использование технологии Compreno не ограничивается машинным переводом. Вот некоторые другие области ее возможного применения:
- полноценный интеллектуальный поиск (поиск по смыслу);
- извлечение фактов и связей между объектами поиска/мониторинга;
- мониторинг компаний и персоналий;
- классификация документов и поиска похожих по смыслу документов;
- реферирование и аннотирование (составление краткого содержания) длинных документов;
- анализ тональности в мониторинге;
- системы искусственного интеллекта самых разнообразных профилей и применений;
- автоматическое распознавание речи.
По словам президента ABBYY Сергея Андреева в создании технологии Compreno компания инвестировала $50 млн собственных средств, над проектом работают около 300 специалистов, которые уже затратили на проект тысячу человеколет. Коммерческие продукты на основе новой технологии должны появится в 2014−2015 годах.
На февраль 2012 года мировых аналогов у Compreno нет, хотя в некоторых университетах и ведутся разработки в аналогичных направлениях. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.
Самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться для более целенаправленного и узкого поиска в закрытых корпоративных системах.
Реагируя на публиккации о системе Compreno в «Компьютерре» и в газете «Коммерсантъ Наука», редакция сайта по информационным технологиям «Роем.ру» отмечает: «Удивляет, что в обоих случаях никто не пишет о том, как ему дали самостоятельно попереводить текст при помощи Compreno».
Источники:
- computerra.ru — Сергей Голубицкий, «Чудо Compreno», «Компьютерра онлайн», 28.02.2012.
- kommersant.ru — Андрей Анненков, «Программисты считают, что научили машину понимать смысл текста», «Коммарсантъ Наука», 05.12.2011.
- habrahabr.ru — тег «Compreno» в блоге компании ABBYY на сайте «Хабрахабр».
- tadviser.ru — статья «Compreno» на сайте Центра выбора технологий и поставщиков TAdviser.