Цели и задачи лаборатории
Основной целью деятельности лаборатории является проведение научных исследований в области компьютерной инженерии и речевых технологии. Данные исследования включают разработку аппаратно-программных средств современных интеллектуальных систем, систем искусственного интеллекта, речевых технологий, компьютерной лингвистики и информационно-поисковых систем.
Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.
Для достижения данной цели в рамках проекта решены следующие задачи.
разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.
Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.
Руководитель проекта является PhD Рахимова Диана Рамазановна.
Основные члены исследовательской группы:
Д.т.н. профессор Тукеев Уалшер Ануарбекович,
МНС, Жуманов Ж.М.,
МНС, Шормакова А.Н.,
Инженер Турганбаева А.О.,
Инженер Абдуали Б.,
Инженер Амирова Д.
Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.
Для достижения данной цели в рамках проекта решены следующие задачи:
Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.
Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;
Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;
Разработана база знаний синонимов и фразеологизмов, классифицированная по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;
Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:
-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;
-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);
-метод summarization текста на казахском языка;
Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка. Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.
Основные результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:
Публикаций индексируемые в БД Web of Science иили Scopus:
Публикаций рекомендованные КОКСОН РК:
Бұл зерттеудің нәтижиесінде сөйлеуді тану үшін мобильдік қосымшаны қазақ тіліне үйрету жүйесі іске асырылды. АЕТИ әзірлемелеген бұл мобильді қосымша KazVoice бағдарламасы бойынша орындалған, ол пайдаланушыға тестілік режимде қолжетімді етіп жасалған. Берілген қосымшамен жұмыс істеу үшін hhtps://t.me/kazakhASRB.t желісіне өту керек. Сөйлеуді жазу үщін микрофон кнопкасы басылады, микрофоннан сөйлеу сигналдары келіп түседі. Одан әрі де сөйлеу сигналдары автоматты оқылып, ізбе-із сол сәтте мәтін түріндегі нәтиже пайдаланушыға көрінеді.
Руководитель проекта: Мамырбаев Оркен Жумажанович
Исследовательскиая группа:
Разработка информационной модели системы автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет сетях. Разрабатываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.
Для достижения поставленной цели необходимо решить следующие основные задачи:
данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.
Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.
При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.
Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.
Реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.
Правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.
1) Планируется опубликовать 3 статьи или обзора в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science или имеющих процентиль по CiteScore в базе Scopus не менее 35 и 1 статья в журналах, рекомендованных КОКСОН.
2) Планируется опубликование 1 монографии с участием ученых Украины в казахском издательстве или издательстве Украины.
3) Распространение результатов работ среди потенциальных пользователей, сообщества ученых и широкой общественности будет осуществляться посредством публикаций результатов исследования в открытой печати. Планируется получение авторского свидетельства на разработанный программный продукт. Все исходные коды программного продукта будут доступны на сайте нашей организации и будут загружены в GitHub с открытым доступом.
4) Другие измеримые результаты в соответствии с требованиями конкурсной документации и особенностями проекта.
1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры;
2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС);
3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.