Лаборатория компьютерной инженерии интеллектуальных систем

Зав. лабораторией

доктор PhD Мамырбаев О.Ж.

Разработка информационных технологий и исследование математических моделей, методов распознавания речи и анализа текстовой информации.

Цели и задачи лаборатории

Основной целью деятельности лаборатории является проведение научных исследований в области компьютерной инженерии и речевых технологии. Данные исследования включают разработку аппаратно-программных средств современных интеллектуальных систем, систем искусственного интеллекта, речевых технологий, компьютерной лингвистики и информационно-поисковых систем.

Приоритетными для лаборатории являются следующие задачи:

  • Исследование в области искусственного интеллекта и речевых технологий.
  • Разработка и исследование мультиязычной системы распознавания речи.
  • Разработка новой технологии автоматического распознавания речи для малоресурсных языков.
  • Исследование теории байесовских сетей для решении различных прикладных задач в разных направлениях науки и производства.
  • Исследование теории клеточных нейронных сетей с сингулярным возмущением.
  • Разработка методов и моделей поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах.
  • Разработка эффективных алгоритмов и моделей обработки текстовых данных с использованием последних достижений компьютерной лингвистики.
  • Публикация научных статей в высокорейтинговых журналах по результатам исследования.

Свидетельства об интеллектуальной собственности

  • Мамырбаев О.Ж; Тұрдалыұлы М.; Мекебаев Н.О; Тұрдалықызы Т.; Сейтқали Б.Н., Дуйсенбаева А.Ж..; Авт. св. №142 «System of automatic creation of vocabulary for ASR»/ опубл. 22.01.2019 МЮ РК.

Проект: № АР05131073. Методы и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Цель проекта:

Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.

Для достижения данной цели в рамках проекта решены следующие задачи.

  1. Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных [16, 17]:
    • проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах [1, 6];
    • разработан общий подход к формализации и идентификации криминально значимой информации [4];
    • осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации [7, 17].
  1. Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:
  • обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов [5];
  • разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
  • создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
  • проанализированы существующих проблем формализации и автоматизации казахского языка;
  • создана логико-лингвистической модель Open Information Extraction для текстов казахского языка [9].
  1. Разработаны корпуса современного веб-контента казахского, русского и английского языков [15,18]:
  • рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики [10];
  • разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах [12];
  • создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики [11];
  • показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов [11].
  1. Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события [16]:
    • проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
    • разработана формальная модель грамматических способов выражения  факта побуждения к действию в английском языке [3];
  • рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности [16];
  • разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов [10, 14];
  • разработана технология поиска семантически близких коротких фрагментов текста [2, 8].
  1. Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.
  • осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
  • рассмотрены особенности реализации и экспериментальные результаты модели Open IE [10];
  • создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике [13];
  • построена модель оценки качества технологии определения семантической близости документа  к узкоспециализированной тематике [13];

разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.

Публикации:

  1. Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. – 
Р. 333-347
  2. Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
  3. Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
  4. Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
  5. Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
  6. Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
  7. Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
  8. Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
  9. Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1, 
1714829.
  10. Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
  11. The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
  12. Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
  13. Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
  14. Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторское свидетельство:

Монографии:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

 

 

Книги:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Программный продукт:

Проект: № АР05132950. Разработка информационно-аналитической поисковой системы данных на казахском языке

Руководитель и члены проекта:

Руководитель проекта является PhD Рахимова Диана Рамазановна.

Основные члены исследовательской группы:

Д.т.н. профессор Тукеев Уалшер Ануарбекович,

МНС, Жуманов Ж.М.,

МНС, Шормакова А.Н.,

Инженер Турганбаева А.О.,

Инженер Абдуали Б.,

Инженер Амирова Д.

Цель проекта:

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.

Для достижения данной цели в рамках проекта решены следующие задачи:

Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан  lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.

Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;

Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;

Разработана база знаний синонимов и фразеологизмов, классифицированная   по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;

Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:

-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;

-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);

-метод summarization текста на казахском  языка;

Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка.  Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.

Публикации:

Основные  результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:

Публикаций индексируемые в БД Web of Science иили Scopus:

  1. Rakhimova, D., Turganbayeva, A. Auto-abstracting of texts in the Kazakh language // Proceedings of the 6th International Conference on Engineering & MIS. – 2020. – P. 1-5 // https://doi.org/10.1145/3410352.3410832.
  2. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. – 2019. – Vol. 96, №6. – P. 1896-1908
  3. Rakhimova D., Turganbayeva A. Lemmatization of big data in the Kazakh language // Cборник трудов 5-ой Междунар. конф. по инжинирингу и информационным системам управления ICEMIS2019. – 2019. – С. 73-77.
  4. Shormakova A., Zhumanov Zh., Abduali B., Rakhimova D., Amirova D. Analytical Processing of Textual Resources and Documents in the Kazakh Language // Journal of Engineering and Applied Sciences. – 2019. – 14, Issue: 20. – P. 7714-7721. // DOI: 10.36478/jeasci.2019.7714.7721
  5. Rakhimova D., Shormakova A. Problems of semantics of words of the Kazakh Language in the information retrieval //Lecture Notes in Artificial Intelligence Computational Collective Intelligence. –Springer, 2019. – 11684, Part II. – P. 70-81. https://doi.org/10.1007/978-3-030-28374-2_7
  6. Ualsher Tukeyev, Diana Rakhimova, Aliya Turganbayeva, Dina Amirova, Balzhan Abduali, Aidana Karibayeva. Lexicon-free stemming for Kazakh language information retrieval // IEEE 12th International Conference on Application of Information and Communication Technologies. Almaty, 2018. – P. 95-98

Публикаций рекомендованные КОКСОН РК:

  1. Rakhimova D., Turganbayeva A. Semantic analysis of the Kazakh language based on the approach of neural networks // News of the national academy of sciences of the Republic of Kazakhstan, Physico-mathematical series. – 2020. – Vol. 5, No 333. – P. 68-75 // https://doi.org/10.32014/2020.2518-1726.84.
  2. Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского языка // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20. – № 4. – С. 545-551 Санкт -Петербург, Россия // doi: 10.17586/2226-1494-2020-20-4-545-551.
  3. Рахимова Д.Р., Сатыбалдиев А.Р. Алгоритм сбора текстовых данных на казахском языке // Вестник КазНПУ им. Абая. Серия «Физико-математические науки». – 2020. – № 2 (70). – С. 261-267.
  4. Абдуали Б.А., Әмірова Д.Т., Рахимова Д.Р., Кәрібаева А.С. Аналитическая обработка текстовых ресурсов и документов на казахском языке // Вестник КазНИТУ. – 2019. – №2 (132). – C. 356-362.
  5. Рахимова Д.Р., Шормакова А.Н., Тұрғанбаева Ә.О. Разработка электронных ресурсов для казахского языка // Вестник КазНИТУ. – 2019. – №3 (133). – C. 161-166.
  6. А.Н. Шормакова. Екі табиғи тілдегі аударылған мәтінді туралау // Вестник КазНИТУ. – 2018.№4(128).C. 344-349.

Труды международных конференций:

  1. Рахимова Д.Р., Турганбаева А.О., Сатыбалдиев А. Исследование подходов по извлечению ключевых слов из текста // Матер. V Межд. науч. конф. “Информатика и прикладная математика”. – Алматы, 2020. – С. 252-258.
  2. Рахимова Д.Р., Аблатип А.Ж., Мәтіндердегі террористік бағыттағы сөздерді анықтау // Сб. ст. по матер. CLXVI междунар. науч.-практ. конф. «Молодой исследователь: вызовы и перспективы». – М., Изд. «Интернаука», 2020. – № 19 (166). – С. 439-444.
  3. Рахимова Д.Р., Жуманов Ж.М. Разработка архитектуры информационно-аналитической поисковой системы обработки данных на казахском языке // Матер. науч. конф. «Современные проблемы информатики и вычислительных технологий». – Алматы: ИИВТ МОН РК, 2020. – С. 287-291.
  4. Abduali B., Karibayeva A., Amirova D. Formation of the synthetic corpora for Kazakh on the base of endings complete system // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 114-120 (связи с поздней печатью публикация не была включена в 2018г.).
  5. Рахимова Д.Р., Нурхан А.К., Исследование и создание размеченного корпуса текстов для казахского языка // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 127-133 (связи с поздней печатью публикация не была включена в 2018г.).
  6. Рахимова Д.Р., Сейтжаппар М.А. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // Матер. науч. конф. ИИВТ МОН РК «Cовременные проблемы информатики и вычислительных технологий». – Алматы, 2019. – C. 66-74.
  7. Amirova D., Karibayeva A. Rakhimova D., Problems of lexical polysemy for the Kazakh language // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. Алматы, 2018.Ч.2C. 18-28.
  8. Рахимова Д.Р. Жомартова Л.М., Мусаев М.С., Семантический  поиск на основе модели векторного представления слов // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика»  посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2–  C. 95-103.
  9. Рахимова Д., Жуманов Ж., Давлетова С. Экономическая эффективность комплексной технологии расширения ресурсов для казахского языка. // Матер. 14-й междунар. азиатской школы-семинара «Проблемы оптимизации сложных систем».- Кыргызская республика, 2018.Ч. 2 , – C. 151-159.
  10. Рахимова Д.Р. Жомартова Л.М., Исследование реккурентных нейронных сетей для моделирования естественных языков флективных классов // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы,2018. – C. 103-107.
  11. Рахимова Д.Р.  Мусаев М.С., Особенности обработки текстов естественного языка в разработке интеллектуальной поисковой системы. // Матер.  науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы, 2018. – C. 185-189.

Книги:

«Вычислительная обработка казахского языка»

Практические результаты