Руководитель проекта является PhD Рахимова Диана Рамазановна.
Основные члены исследовательской группы:
Д.т.н. профессор Тукеев Уалшер Ануарбекович,
МНС, Жуманов Ж.М.,
МНС, Шормакова А.Н.,
Инженер Турганбаева А.О.,
Инженер Абдуали Б.,
Инженер Амирова Д.
Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.
Для достижения данной цели в рамках проекта решены следующие задачи:
Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.
Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;
Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;
Разработана база знаний синонимов и фразеологизмов, классифицированная по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;
Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:
-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;
-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);
-метод summarization текста на казахском языка;
Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка. Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.
Основные результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:
Публикаций индексируемые в БД Web of Science иили Scopus:
Публикаций рекомендованные КОКСОН РК:
В результате данного исследования была реализована система обучения казахскому языку мобильного приложения для распознавания речи. Данное мобильное приложение, разработанное ИИВТ, выполнено по программе KazVoice, которая доступна пользователю в тестовом режиме. Для работы с данным приложением необходимо перейти в сеть https://t.me/kazakhASRB.t. При записи речи нажимается кнопка микрофона, с микрофона поступают речевые сигналы. Далее речевые сигналы автоматически считываются, и в этот момент пользователю виден результат в виде текста.