kzruen

Проект: №AP09259556. Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта

Руководитель и члены проекта:

Руководитель проекта – PhD Рахимова Диана Рамазановна

СНС, PhD А.С. Кәрібаева

СНС, PhD М. Тұрдалыұлы

СНС, к.т.н Е.Р.Сулейменов

МНС Ә.О.Тұрғанбаева

МНС  А. Сулейменова

Инженер-программист Н. Лоновенко

Инженер-программист Д.Сулейменов

Цель проекта:

Цель проекта – является создание технологии (алгоритмы, методы, электронные ресурсы) системы обработки и обучения государственного языка с применением современных методов и подходов искусственного интеллекта, адаптированной под особенности казахского языка.

Задачи проекта:

Для достижения поставленной цели необходимо решить следующие основные задачи:

– Создание объемных наборов данных как для задачи обучения пользователей, так и для задач искусственного интеллекта – машинного перевода, распознавания речи и глубокого обучения.

– Разработка интеллектуального алгоритма «выравнивания» для выделения параллельных пар предложений из параллельных текстов

– Разработка автоматизированного морфологического анализатора для обработки текстов

– Разработка и интеграция сервисов и модулей обучения казахскому языку с системами машинного перевода и распознавания речи.

Создание интернет – сервисов и приложений для практического использования полученных инструментов и алгоритмов для в реальной жизни.

Результаты:

Получены следующие научно-технические результаты:

  • Выполнен сбор текстовых данных с применением системы скрайпинга материалов, автоматизированное получение данных из интернета по интересующей тематике.
  • Разработан метода выравнивания параллельного корпуса. Данный метод состоит двухэтапного выравнивания. Первая часть выравнивания использует инструмент Hunalign.

Вторая часть выравнивания основывается на основе словаря. В результате проделанной работы были собраны и обработаны следующие лингвистические данные:

– выше 100 тысяч небольших текстов на казахском языке: новости, материалы из журналов и т.д.

– свыше 300 книг на казахском языке, казахских и иностранных авторов, включая художественную литературу, сборники песен, книги по саморазвитию, бизнесу и т.д.

– более 2 миллиона казахско-русских параллельных предложений

– 200 тыс. словарных казахско-русских статей.

Для инструментов обработки казахского языка были разработаны подходы на основе нейронного и глубокого обучения и реализованы следующие работы:

  • Разработан морфологический анализатор для казахского языка на основе машинного обучения;
  • Разработан нейронный машинный перевода для англо-казахской и русско-казахской языковой пары, на основе RNN, BRNN и Transformer моделей;
  • Разработан подхода распознавания и синтеза речи государственного языка, на основе машинного обучения (BLSTM, ResNet).

Проведенные исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками как BLEU, TER и WER.

Практическим результатом проекта является разработка вэб-приложения под названием «Oqulyq». Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс следующих  дисциплин «Языковые ресурсы», «Технологии машинного перевода», «Машинное обучение в обработке естественного языка»  образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби, а также в учебный процесс дисциплины «Иностранный язык» (профессиональный) магистратуры 1 курса по образовательной программе 7М06101-«Программная инженерия» и 7М07204-«Технология и инжиниринг пищевых производств» Международного Инженерно-Технологического Университета.

По результатам выполнения проекта за 2021-2023 года опубликованы 26 публикации: в зарубежных изданиях – публикации, индексируемых в базах данных WoS и/или Scopus – 6 публикации; в отечественных изданиях, рекомендуемые КОКСОН МОН РК – 2 публикации; Опубликована одна монография в отечественном издании и одна коллективная монография в зарубежном издании. Получены 3 авторских свидетельства на разработанные программы ЭВМ. Результаты исследовании прошли апробацию на международных конференциях и научных семинарах.

Видео описание системы "Oqulyq"