Разработка информационных технологий и исследование математических моделей, методов распознавания речи и анализа текстовой информации.
Цели и задачи лаборатории
Основной целью деятельности лаборатории является проведение научных исследований в области компьютерной инженерии и речевых технологии. Данные исследования включают разработку аппаратно-программных средств современных интеллектуальных систем, систем искусственного интеллекта, речевых технологий, компьютерной лингвистики и информационно-поисковых систем.
Приоритетными для лаборатории являются следующие задачи:
Свидетельства об интеллектуальной собственности
Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.
Для достижения данной цели в рамках проекта решены следующие задачи.
разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.
Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.
Руководитель проекта является PhD Рахимова Диана Рамазановна.
Основные члены исследовательской группы:
Д.т.н. профессор Тукеев Уалшер Ануарбекович,
МНС, Жуманов Ж.М.,
МНС, Шормакова А.Н.,
Инженер Турганбаева А.О.,
Инженер Абдуали Б.,
Инженер Амирова Д.
Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.
Для достижения данной цели в рамках проекта решены следующие задачи:
Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.
Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;
Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;
Разработана база знаний синонимов и фразеологизмов, классифицированная по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;
Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:
-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;
-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);
-метод summarization текста на казахском языка;
Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка. Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.
Основные результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:
Публикаций индексируемые в БД Web of Science иили Scopus:
Публикаций рекомендованные КОКСОН РК: