АР09259556 Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта.
Актуальность
Системы обработки естественного языка сегодня востребованы в таких областях как контент центры, где в большинстве случаев человека- оператора могут заменять так называемые «боты» – системы с искусственным интеллектом, способные отвечать на разнообразные вопросы. Задачи обучения языку, и задача машинного перевода являются довольно похожими задачами, на высшем уровне обе задачи стремятся к цели понимания языка, текстов, предложений. Наличие таких систем на казахском языке в ближайшее время будет крайне необходимым для внедрения различных автоматизированных интеллектуальных систем.
Цель проекта
Целью данной работы является не только теоретическая и методологическая работа по исследованию эффективных платформ по обучению, с акцентом на государственный казахский язык, а разработка методов, алгоритмов и инструментальных средств для создания эффективных систем обучения казахскому языку с использованием систем искусственного интеллекта, включая машинный перевод, машинное обучение и распознавание речи.
Задачи проекта
Для достижения поставленной цели необходимо решить следующие основные задачи:
1) Создание объемных наборов данных как для задачи обучения пользователей, так и для задач искусственного интеллекта – машинного перевода, распознавания речи и глубокого обучения. Такие корпуса являются необходимым и важным источником обучающей информации как для обучающих сервисов и приложений, так и для машинного обучения и перевода.
2) Для получения и сохранения массивов текстовой информации из Интернета на казахском языке, а также текстов с имеющимися переводами будут разработаны механизмы и алгоритмы «краулинга» Интернет страниц, которые буду искать и выкачивать нужные тексты в специальное хранилище с последующей разметкой данного корпуса по различным признакам для дальнейшей работы.
3)Разработка интеллектуального алгоритма «выравнивания» для выделения параллельных пар предложений из параллельных текстов, который позволит в автоматическом режиме строить корпуса параллельных предложений из массивов параллельных текстов.
4) Разработка автоматизированного морфологического анализатора для обработки текстов, их анализа, и всей первичной работы во всех приложениях и сервисах
5) Разработка и интеграция сервисов и модулей обучения казахскому языку с системами машинного перевода и распознавания речи.
6) Создание информационной системы для практического использования полученных инструментов, и алгоритмов.
Полученные результаты проекта за 2021 г.
Изучена существующая литература и доступные онлайн источники по теме исследования. Выбрано и конкретизировано основное направление исследования. Осуществлен аналитический обзор по тематике исследования.
Разработан корпус государственного языка. Разработан и применен алгоритм интеллектуального парсинга данных источников для составления электронных словарей и справочников по казахскому языку
Разработаны метод и алгоритм выравнивания параллельных текстов (объемом не менее 3 миллиона предложений) для задач построения обучающих систем и систем машинного перевода.
Разработанные алгоритмы были проверены практическими экспериментами и оценками качества, и новизна работ апробирована публикациям и докладами на международных конференциях.
Члены исследовательской группы
Список публикации исполнителей темы АР09259556 за 2021 г.