Руководитель проекта – PhD Рахимова Диана Рамазановна
СНС, PhD А.С. Кәрібаева
СНС, PhD М. Тұрдалыұлы
СНС, к.т.н Е.Р.Сулейменов
МНС Ә.О.Тұрғанбаева
МНС А. Сулейменова
Инженер-программист Н. Лоновенко
Инженер-программист Д.Сулейменов
Цель проекта – является создание технологии (алгоритмы, методы, электронные ресурсы) системы обработки и обучения государственного языка с применением современных методов и подходов искусственного интеллекта, адаптированной под особенности казахского языка.
Для достижения поставленной цели необходимо решить следующие основные задачи:
– Создание объемных наборов данных как для задачи обучения пользователей, так и для задач искусственного интеллекта – машинного перевода, распознавания речи и глубокого обучения.
– Разработка интеллектуального алгоритма «выравнивания» для выделения параллельных пар предложений из параллельных текстов
– Разработка автоматизированного морфологического анализатора для обработки текстов
– Разработка и интеграция сервисов и модулей обучения казахскому языку с системами машинного перевода и распознавания речи.
Создание интернет – сервисов и приложений для практического использования полученных инструментов и алгоритмов для в реальной жизни.
Получены следующие научно-технические результаты:
Вторая часть выравнивания основывается на основе словаря. В результате проделанной работы были собраны и обработаны следующие лингвистические данные:
– выше 100 тысяч небольших текстов на казахском языке: новости, материалы из журналов и т.д.
– свыше 300 книг на казахском языке, казахских и иностранных авторов, включая художественную литературу, сборники песен, книги по саморазвитию, бизнесу и т.д.
– более 2 миллиона казахско-русских параллельных предложений
– 200 тыс. словарных казахско-русских статей.
Для инструментов обработки казахского языка были разработаны подходы на основе нейронного и глубокого обучения и реализованы следующие работы:
Проведенные исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками как BLEU, TER и WER.
Практическим результатом проекта является разработка вэб-приложения под названием «Oqulyq». Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс следующих дисциплин «Языковые ресурсы», «Технологии машинного перевода», «Машинное обучение в обработке естественного языка» образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби, а также в учебный процесс дисциплины «Иностранный язык» (профессиональный) магистратуры 1 курса по образовательной программе 7М06101-«Программная инженерия» и 7М07204-«Технология и инжиниринг пищевых производств» Международного Инженерно-Технологического Университета.
По результатам выполнения проекта за 2021-2023 года опубликованы 26 публикации: в зарубежных изданиях – публикации, индексируемых в базах данных WoS и/или Scopus – 6 публикации; в отечественных изданиях, рекомендуемые КОКСОН МОН РК – 2 публикации; Опубликована одна монография в отечественном издании и одна коллективная монография в зарубежном издании. Получены 3 авторских свидетельства на разработанные программы ЭВМ. Результаты исследовании прошли апробацию на международных конференциях и научных семинарах.