Лаборатория компьютерной инженерии интеллектуальных систем

Зав. лабораторией

доктор PhD Мамырбаев О.Ж.

Разработка информационных технологий и исследование математических моделей, методов распознавания речи и анализа текстовой информации.

Цели и задачи лаборатории

Основной целью деятельности лаборатории является проведение научных исследований в области компьютерной инженерии и речевых технологии. Данные исследования включают разработку аппаратно-программных средств современных интеллектуальных систем, систем искусственного интеллекта, речевых технологий, компьютерной лингвистики и информационно-поисковых систем.

Приоритетными для лаборатории являются следующие задачи:

  • Исследование в области искусственного интеллекта и речевых технологий.
  • Разработка и исследование мультиязычной системы распознавания речи.
  • Разработка новой технологии автоматического распознавания речи для малоресурсных языков.
  • Исследование теории байесовских сетей для решении различных прикладных задач в разных направлениях науки и производства.
  • Исследование теории клеточных нейронных сетей с сингулярным возмущением.
  • Разработка методов и моделей поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах.
  • Разработка эффективных алгоритмов и моделей обработки текстовых данных с использованием последних достижений компьютерной лингвистики.
  • Публикация научных статей в высокорейтинговых журналах по результатам исследования.

Свидетельства об интеллектуальной собственности

  • Мамырбаев О.Ж; Тұрдалыұлы М.; Мекебаев Н.О; Тұрдалықызы Т.; Сейтқали Б.Н., Дуйсенбаева А.Ж..; Авт. св. №142 «System of automatic creation of vocabulary for ASR»/ опубл. 22.01.2019 МЮ РК.

Проект: № АР05131073. Методы и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Цель проекта:

Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.

Для достижения данной цели в рамках проекта решены следующие задачи.

  1. Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных [16, 17]:
    • проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах [1, 6];
    • разработан общий подход к формализации и идентификации криминально значимой информации [4];
    • осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации [7, 17].
  1. Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:
  • обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов [5];
  • разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
  • создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
  • проанализированы существующих проблем формализации и автоматизации казахского языка;
  • создана логико-лингвистической модель Open Information Extraction для текстов казахского языка [9].
  1. Разработаны корпуса современного веб-контента казахского, русского и английского языков [15,18]:
  • рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики [10];
  • разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах [12];
  • создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики [11];
  • показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов [11].
  1. Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события [16]:
    • проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
    • разработана формальная модель грамматических способов выражения  факта побуждения к действию в английском языке [3];
  • рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности [16];
  • разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов [10, 14];
  • разработана технология поиска семантически близких коротких фрагментов текста [2, 8].
  1. Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.
  • осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
  • рассмотрены особенности реализации и экспериментальные результаты модели Open IE [10];
  • создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике [13];
  • построена модель оценки качества технологии определения семантической близости документа  к узкоспециализированной тематике [13];

разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.

Публикации:

  1. Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. – 
Р. 333-347
  2. Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
  3. Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
  4. Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
  5. Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
  6. Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
  7. Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
  8. Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
  9. Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1, 
1714829.
  10. Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
  11. The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
  12. Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
  13. Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
  14. Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторские свидетельства:

Монографии:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

 

 

Книги:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Программный продукт:

Проект: № АР05132950. Разработка информационно-аналитической поисковой системы данных на казахском языке

Руководитель и члены проекта:

Руководитель проекта является PhD Рахимова Диана Рамазановна.

Основные члены исследовательской группы:

Д.т.н. профессор Тукеев Уалшер Ануарбекович,

МНС, Жуманов Ж.М.,

МНС, Шормакова А.Н.,

Инженер Турганбаева А.О.,

Инженер Абдуали Б.,

Инженер Амирова Д.

Цель проекта:

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.

Для достижения данной цели в рамках проекта решены следующие задачи:

Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан  lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.

Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;

Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;

Разработана база знаний синонимов и фразеологизмов, классифицированная   по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;

Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:

-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;

-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);

-метод summarization текста на казахском  языка;

Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка.  Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.

Публикации:

Основные  результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:

Публикаций индексируемые в БД Web of Science иили Scopus:

  1. Rakhimova, D., Turganbayeva, A. Auto-abstracting of texts in the Kazakh language // Proceedings of the 6th International Conference on Engineering & MIS. – 2020. – P. 1-5 // https://doi.org/10.1145/3410352.3410832.
  2. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. – 2019. – Vol. 96, №6. – P. 1896-1908
  3. Rakhimova D., Turganbayeva A. Lemmatization of big data in the Kazakh language // Cборник трудов 5-ой Междунар. конф. по инжинирингу и информационным системам управления ICEMIS2019. – 2019. – С. 73-77.
  4. Shormakova A., Zhumanov Zh., Abduali B., Rakhimova D., Amirova D. Analytical Processing of Textual Resources and Documents in the Kazakh Language // Journal of Engineering and Applied Sciences. – 2019. – 14, Issue: 20. – P. 7714-7721. // DOI: 10.36478/jeasci.2019.7714.7721
  5. Rakhimova D., Shormakova A. Problems of semantics of words of the Kazakh Language in the information retrieval //Lecture Notes in Artificial Intelligence Computational Collective Intelligence. –Springer, 2019. – 11684, Part II. – P. 70-81. https://doi.org/10.1007/978-3-030-28374-2_7
  6. Ualsher Tukeyev, Diana Rakhimova, Aliya Turganbayeva, Dina Amirova, Balzhan Abduali, Aidana Karibayeva. Lexicon-free stemming for Kazakh language information retrieval // IEEE 12th International Conference on Application of Information and Communication Technologies. Almaty, 2018. – P. 95-98

Публикаций рекомендованные КОКСОН РК:

  1. Rakhimova D., Turganbayeva A. Semantic analysis of the Kazakh language based on the approach of neural networks // News of the national academy of sciences of the Republic of Kazakhstan, Physico-mathematical series. – 2020. – Vol. 5, No 333. – P. 68-75 // https://doi.org/10.32014/2020.2518-1726.84.
  2. Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского языка // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20. – № 4. – С. 545-551 Санкт -Петербург, Россия // doi: 10.17586/2226-1494-2020-20-4-545-551.
  3. Рахимова Д.Р., Сатыбалдиев А.Р. Алгоритм сбора текстовых данных на казахском языке // Вестник КазНПУ им. Абая. Серия «Физико-математические науки». – 2020. – № 2 (70). – С. 261-267.
  4. Абдуали Б.А., Әмірова Д.Т., Рахимова Д.Р., Кәрібаева А.С. Аналитическая обработка текстовых ресурсов и документов на казахском языке // Вестник КазНИТУ. – 2019. – №2 (132). – C. 356-362.
  5. Рахимова Д.Р., Шормакова А.Н., Тұрғанбаева Ә.О. Разработка электронных ресурсов для казахского языка // Вестник КазНИТУ. – 2019. – №3 (133). – C. 161-166.
  6. А.Н. Шормакова. Екі табиғи тілдегі аударылған мәтінді туралау // Вестник КазНИТУ. – 2018.№4(128).C. 344-349.

Труды международных конференций:

  1. Рахимова Д.Р., Турганбаева А.О., Сатыбалдиев А. Исследование подходов по извлечению ключевых слов из текста // Матер. V Межд. науч. конф. “Информатика и прикладная математика”. – Алматы, 2020. – С. 252-258.
  2. Рахимова Д.Р., Аблатип А.Ж., Мәтіндердегі террористік бағыттағы сөздерді анықтау // Сб. ст. по матер. CLXVI междунар. науч.-практ. конф. «Молодой исследователь: вызовы и перспективы». – М., Изд. «Интернаука», 2020. – № 19 (166). – С. 439-444.
  3. Рахимова Д.Р., Жуманов Ж.М. Разработка архитектуры информационно-аналитической поисковой системы обработки данных на казахском языке // Матер. науч. конф. «Современные проблемы информатики и вычислительных технологий». – Алматы: ИИВТ МОН РК, 2020. – С. 287-291.
  4. Abduali B., Karibayeva A., Amirova D. Formation of the synthetic corpora for Kazakh on the base of endings complete system // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 114-120 (связи с поздней печатью публикация не была включена в 2018г.).
  5. Рахимова Д.Р., Нурхан А.К., Исследование и создание размеченного корпуса текстов для казахского языка // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 127-133 (связи с поздней печатью публикация не была включена в 2018г.).
  6. Рахимова Д.Р., Сейтжаппар М.А. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // Матер. науч. конф. ИИВТ МОН РК «Cовременные проблемы информатики и вычислительных технологий». – Алматы, 2019. – C. 66-74.
  7. Amirova D., Karibayeva A. Rakhimova D., Problems of lexical polysemy for the Kazakh language // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. Алматы, 2018.Ч.2C. 18-28.
  8. Рахимова Д.Р. Жомартова Л.М., Мусаев М.С., Семантический  поиск на основе модели векторного представления слов // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика»  посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2–  C. 95-103.
  9. Рахимова Д., Жуманов Ж., Давлетова С. Экономическая эффективность комплексной технологии расширения ресурсов для казахского языка. // Матер. 14-й междунар. азиатской школы-семинара «Проблемы оптимизации сложных систем».- Кыргызская республика, 2018.Ч. 2 , – C. 151-159.
  10. Рахимова Д.Р. Жомартова Л.М., Исследование реккурентных нейронных сетей для моделирования естественных языков флективных классов // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы,2018. – C. 103-107.
  11. Рахимова Д.Р.  Мусаев М.С., Особенности обработки текстов естественного языка в разработке интеллектуальной поисковой системы. // Матер.  науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы, 2018. – C. 185-189.

Книги:

«Вычислительная обработка казахского языка»

Практические результаты

Kazakh ASR

Бұл зерттеудің нәтижиесінде сөйлеуді тану үшін мобильдік қосымшаны қазақ тіліне үйрету жүйесі іске асырылды. АЕТИ әзірлемелеген бұл мобильді қосымша KazVoice  бағдарламасы бойынша орындалған, ол пайдаланушыға тестілік режимде қолжетімді етіп жасалған. Берілген қосымшамен жұмыс істеу үшін hhtps://t.me/kazakhASRB.t желісіне өту керек. Сөйлеуді жазу үщін микрофон кнопкасы басылады,  микрофоннан сөйлеу сигналдары келіп түседі. Одан әрі де сөйлеу сигналдары автоматты оқылып, ізбе-із сол сәтте мәтін түріндегі нәтиже пайдаланушыға көрінеді.