Лаборатория компьютерной инженерии интеллектуальных систем2 – Институт информационных и вычислительных технологий

Лаборатория компьютерной инженерии интеллектуальных систем

Разработка информационных технологий и исследование математических моделей, методов распознавания речи и анализа текстовой информации.

Цели и задачи лаборатории

Основной целью деятельности лаборатории является проведение научных исследований в области компьютерной инженерии и речевых технологии. Данные исследования включают разработку аппаратно-программных средств современных интеллектуальных систем, систем искусственного интеллекта, речевых технологий, компьютерной лингвистики и информационно-поисковых систем.

Свидетельства об интеллектуальной собственности

Мамырбаев О.Ж; Тұрдалыұлы М.; Мекебаев Н.О; Тұрдалықызы Т.; Сейтқали Б.Н., Дуйсенбаева А.Ж..; Авт. св. №142 «System of automatic creation of vocabulary for ASR»/ опубл. 22.01.2019 МЮ РК.

Приоритетными для лаборатории являются следующие задачи:

Исследование в области искусственного интеллекта и речевых технологий.
Разработка и исследование мультиязычной системы распознавания речи.
Разработка новой технологии автоматического распознавания речи для малоресурсных языков.
Исследование теории байесовских сетей для решении различных прикладных задач в разных направлениях науки и производства.
Исследование теории клеточных нейронных сетей с сингулярным возмущением.
Разработка методов и моделей поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах.
Разработка эффективных алгоритмов и моделей обработки текстовых данных с использованием последних достижений компьютерной лингвистики.
Публикация научных статей в высокорейтинговых журналах по результатам исследования.

Проекты

Корпус казахской речи

Многоязычное автоматическое распознавание речи

Корпус казахской речи

Многоязычное автоматическое распознавание речи

Проект: № АР05131073. Методы и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Цель проекта:

Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.

Для достижения данной цели в рамках проекта решены следующие задачи.

Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных [16, 17]:
- проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах [1, 6];
- разработан общий подход к формализации и идентификации криминально значимой информации [4];
- осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации [7, 17].

Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:

обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов [5];
разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
проанализированы существующих проблем формализации и автоматизации казахского языка;
создана логико-лингвистической модель Open Information Extraction для текстов казахского языка [9].

Разработаны корпуса современного веб-контента казахского, русского и английского языков [15,18]:

рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики [10];
разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах [12];
создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики [11];
показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов [11].

Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события [16]:
- проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
- разработана формальная модель грамматических способов выражения факта побуждения к действию в английском языке [3];

рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности [16];
разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов [10, 14];
разработана технология поиска семантически близких коротких фрагментов текста [2, 8].

Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.

осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
рассмотрены особенности реализации и экспериментальные результаты модели Open IE [10];
создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике [13];
построена модель оценки качества технологии определения семантической близости документа к узкоспециализированной тематике [13];

разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.

Публикации:

Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. –  Р. 333-347
Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1,  1714829.
Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторские свидетельства:

Авторское свидетельство

Монографии:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

Монография

Книги:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Программный продукт:

Проект: № АР05132950. Разработка информационно-аналитической поисковой системы данных на казахском языке

Руководитель и члены проекта:

Руководитель проекта является PhD Рахимова Диана Рамазановна.

Основные члены исследовательской группы:

Д.т.н. профессор Тукеев Уалшер Ануарбекович,

МНС, Жуманов Ж.М.,

МНС, Шормакова А.Н.,

Инженер Турганбаева А.О.,

Инженер Абдуали Б.,

Инженер Амирова Д.

Цель проекта:

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.

Для достижения данной цели в рамках проекта решены следующие задачи:

Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.

Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;

Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;

Разработана база знаний синонимов и фразеологизмов, классифицированная по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;

Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:

-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;

-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);

-метод summarization текста на казахском языка;

Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка. Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.

Публикации:

Основные результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:

Публикаций индексируемые в БД Web of Science иили Scopus:

Rakhimova, D., Turganbayeva, A. Auto-abstracting of texts in the Kazakh language // Proceedings of the 6th International Conference on Engineering & MIS. – 2020. – P. 1-5 // https://doi.org/10.1145/3410352.3410832.
Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. – 2019. – Vol. 96, №6. – P. 1896-1908
Rakhimova D., Turganbayeva A. Lemmatization of big data in the Kazakh language // Cборник трудов 5-ой Междунар. конф. по инжинирингу и информационным системам управления ICEMIS2019. – 2019. – С. 73-77.
Shormakova A., Zhumanov Zh., Abduali B., Rakhimova D., Amirova D. Analytical Processing of Textual Resources and Documents in the Kazakh Language // Journal of Engineering and Applied Sciences. – 2019. – 14, Issue: 20. – P. 7714-7721. // DOI: 10.36478/jeasci.2019.7714.7721
Rakhimova D., Shormakova A. Problems of semantics of words of the Kazakh Language in the information retrieval //Lecture Notes in Artificial Intelligence Computational Collective Intelligence. –Springer, 2019. – 11684, Part II. – P. 70-81. https://doi.org/10.1007/978-3-030-28374-2_7
Ualsher Tukeyev, Diana Rakhimova, Aliya Turganbayeva, Dina Amirova, Balzhan Abduali, Aidana Karibayeva. Lexicon-free stemming for Kazakh language information retrieval // IEEE 12^thInternational Conference on Application of Information and Communication Technologies. Almaty, 2018. – P. 95-98

Публикаций рекомендованные КОКСОН РК:

Rakhimova D., Turganbayeva A. Semantic analysis of the Kazakh language based on the approach of neural networks // News of the national academy of sciences of the Republic of Kazakhstan, Physico-mathematical series. – 2020. – Vol. 5, No 333. – P. 68-75 // https://doi.org/10.32014/2020.2518-1726.84.
Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского языка // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20. – № 4. – С. 545-551 Санкт -Петербург, Россия // doi: 10.17586/2226-1494-2020-20-4-545-551.
Рахимова Д.Р., Сатыбалдиев А.Р. Алгоритм сбора текстовых данных на казахском языке // Вестник КазНПУ им. Абая. Серия «Физико-математические науки». – 2020. – № 2 (70). – С. 261-267.
Абдуали Б.А., Әмірова Д.Т., Рахимова Д.Р., Кәрібаева А.С. Аналитическая обработка текстовых ресурсов и документов на казахском языке // Вестник КазНИТУ. – 2019. – №2 (132). – C. 356-362.
Рахимова Д.Р., Шормакова А.Н., Тұрғанбаева Ә.О. Разработка электронных ресурсов для казахского языка // Вестник КазНИТУ. – 2019. – №3 (133). – C. 161-166.
А.Н. Шормакова. Екі табиғи тілдегі аударылған мәтінді туралау // Вестник КазНИТУ. – 2018. –№4(128). –C. 344-349.

Труды международных конференций:

Рахимова Д.Р., Турганбаева А.О., Сатыбалдиев А. Исследование подходов по извлечению ключевых слов из текста // Матер. V Межд. науч. конф. “Информатика и прикладная математика”. – Алматы, 2020. – С. 252-258.
Рахимова Д.Р., Аблатип А.Ж., Мәтіндердегі террористік бағыттағы сөздерді анықтау // Сб. ст. по матер. CLXVI междунар. науч.-практ. конф. «Молодой исследователь: вызовы и перспективы». – М., Изд. «Интернаука», 2020. – № 19 (166). – С. 439-444.
Рахимова Д.Р., Жуманов Ж.М. Разработка архитектуры информационно-аналитической поисковой системы обработки данных на казахском языке // Матер. науч. конф. «Современные проблемы информатики и вычислительных технологий». – Алматы: ИИВТ МОН РК, 2020. – С. 287-291.
Abduali B., Karibayeva A., Amirova D. Formation of the synthetic corpora for Kazakh on the base of endings complete system // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 114-120 (связи с поздней печатью публикация не была включена в 2018г.).
Рахимова Д.Р., Нурхан А.К., Исследование и создание размеченного корпуса текстов для казахского языка // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 127-133 (связи с поздней печатью публикация не была включена в 2018г.).
Рахимова Д.Р., Сейтжаппар М.А. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // Матер. науч. конф. ИИВТ МОН РК «Cовременные проблемы информатики и вычислительных технологий». – Алматы, 2019. – C. 66-74.
Amirova D., Karibayeva A. Rakhimova D., Problems of lexical polysemy for the Kazakh language // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2– C. 18-28.
Рахимова Д.Р. Жомартова Л.М., Мусаев М.С., Семантический поиск на основе модели векторного представления слов // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2– C. 95-103.
Рахимова Д., Жуманов Ж., Давлетова С. Экономическая эффективность комплексной технологии расширения ресурсов для казахского языка. // Матер. 14-й междунар. азиатской школы-семинара «Проблемы оптимизации сложных систем».- Кыргызская республика, 2018. –Ч. 2 , – C. 151-159.
Рахимова Д.Р. Жомартова Л.М., Исследование реккурентных нейронных сетей для моделирования естественных языков флективных классов // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». – Алматы,2018. – C. 103-107.
Рахимова Д.Р. Мусаев М.С., Особенности обработки текстов естественного языка в разработке интеллектуальной поисковой системы. // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». –Алматы, 2018. – C. 185-189.

Книги:

«Вычислительная обработка казахского языка»

Экспертное заключение

Экспертное заключение на информационно-аналитическую поисковую систему данных на казахском языке, выполненную в рамках проекта AP05132950

Практические результаты

Kazakh ASR

Бұл зерттеудің нәтижиесінде сөйлеуді тану үшін мобильдік қосымшаны қазақ тіліне үйрету жүйесі іске асырылды. АЕТИ әзірлемелеген бұл мобильді қосымша KazVoice бағдарламасы бойынша орындалған, ол пайдаланушыға тестілік режимде қолжетімді етіп жасалған. Берілген қосымшамен жұмыс істеу үшін hhtps://t.me/kazakhASRB.t желісіне өту керек. Сөйлеуді жазу үщін микрофон кнопкасы басылады, микрофоннан сөйлеу сигналдары келіп түседі. Одан әрі де сөйлеу сигналдары автоматты оқылып, ізбе-із сол сәтте мәтін түріндегі нәтиже пайдаланушыға көрінеді.

Проект: №AP09259309. Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода

Руководитель и члены проекта:

Руководитель проекта: Мамырбаев Оркен Жумажанович

Исследовательскиая группа:

Мамырбаев О.Ж. – Руководитель НИР, зам.ген.директора, PhD, СНС (https://orcid.org/0000-0001-8318-3794);
Хайрова Н.Ф. – д.т.н. наук, профессор, ГНС (https://orcid.org/0000-0002-9826-0286)
Шаронова Н.В. – д.т.н., профессор, ГНС (https://orcid.org/0000-0002-7555-1507)
Шаяхметова А.С. – PhD, СНС (https://orcid.org/0000-0002-4072-3671)
Мухсина К.Ж. – PhD, МНС (https://orcid.org/0000-0002-8627-1949)
Ыбытаева Г.С. – МНС (https://orcid.org/0000-0002-4243-0928)
Дюсебаев С.Р. – Переводчик
Картбаев А.Ж. – PhD, СНС (https://orcid.org/0000-0003-0592-5865)

Цель проекта:

Разработка информационной модели системы автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет сетях. Разрабатываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.

Задачи проекта:

Для достижения поставленной цели необходимо решить следующие основные задачи:

Создание первичной базовой мета-онтологии «Противоправный Интернет-контент», которая будет иметь ограниченный размер и структуру. В рамках задачи должны быть созданы терминологические тезаурусы казахского, русского и английского языков, на базе имеющихся корпусов данной тематики трех указанных языков, а также определены классы онтологии, их свойства и отношения между классами.
Разработка метода автоматического наполнения и дополнения созданной базовой онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов криминально значащей текстовой информации Веб-сетей. Разработанный метод должен использовать статистические подходы и ранее созданную информационно-лингвистическую модель Open Information Extraction, предназначенную для извлечения триплетов фактов из неструктурированных текстов.
Осуществление автоматического наполнения онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов текстов, содержащих криминально значащую информацию. Онтология должна включать лексику казахского, русского и английского языков и иметь объем достаточный для ее практического использования в моделях информационного поиска. На этом этапе исследования необходимо осуществить предварительную лингвистическую обработку текстов корпусов, выявить формальные закономерности между определенными лингвистическими формализмами в текстах и реальными сущностями, классами сущностей и отношениями для каждого из трех языков, а также определить алгоритм автоматического выделения классов сущностей и отношений между ними.
Разработка метода и инструментария семантической разметки корпусов казахского, русского и английских текстов криминально значащей информации Интернет контента. Метод должен базироваться на созданной онтологии и выровненном параллельном казахско-русском корпусе криминально окрашенных текстов. Для решения данной задачи и формирования множества семантических меток (tagset) предлагается использовать как выработанные классы онтологии, так и имеющиеся подходы в решении задачи идентификации сущности (Entity Recognition) NLP (Natural Language Processing). На данном этапе необходимо осуществить семантическую разметку имеющихся корпусов криминально окрашенных текстов.
Разработка интегрированной технологии поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, которая будет включать, как методы машинного обучения с учителем (supervised machine learning), так и дополнительные дифференцирующие семантические признаки криминальной окрашенности текстов, получаемые на базе онтологического подхода
Создание эффективного алгоритма и программных средств системы автоматического мониторинга Интернет-ресурсов, которые позволят осуществлять автоматический поиск и анализа многоязычного противоправного контента Интернета. На данном этапе исследования должна быть доказана эффективность разработанной технологии идентификации противоправной текстовой информации, на базе онтологического подхода.

Научная новизна

данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.

Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.

При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.

Объект исследования:

Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.

Основные конструктивные и технико-экономические показатели, эффективность:

Реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.

Область применения:

Правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.

Ожидаемые результаты:

1) Планируется опубликовать 3 статьи или обзора в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science или имеющих процентиль по CiteScore в базе Scopus не менее 35 и 1 статья в журналах, рекомендованных КОКСОН.

2) Планируется опубликование 1 монографии с участием ученых Украины в казахском издательстве или издательстве Украины.

3) Распространение результатов работ среди потенциальных пользователей, сообщества ученых и широкой общественности будет осуществляться посредством публикаций результатов исследования в открытой печати. Планируется получение авторского свидетельства на разработанный программный продукт. Все исходные коды программного продукта будут доступны на сайте нашей организации и будут загружены в GitHub с открытым доступом.

4) Другие измеримые результаты в соответствии с требованиями конкурсной документации и особенностями проекта.

Полученные результаты:

1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры;

2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС);

3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.

Cписок публикаций:

Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Galiya Ybytayeva, Yuliia Lytvynenko. Automatic Multilingual Ontology Generation Based on Texts Focused on Criminal Topic / Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. – 2021. – Vol.1. – P. 108-117.
Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., & Nuranbayeva, B. Development of security systems using DNN and i & x-vector classifiers // Eastern-European Journal of Enterprise Technologies. – 2021. – Vol. 4/9 (112). – P. 32–45 // https://doi.org/10.15587/1729-4061.2021.239186.
Г.С. Ыбытаева, О.Ж. Мамырбаев, Н.Ф. Хайрова, Б.Ж. Жумажанов. Қазақ тіліндегі мәтіндерде коллокацияларды анықтаудың статистикалық әдістерін талдау // Матер. VI Междунар. науч. конф. «Информатика и прикладная математика». – Алматы, Казахстан, 2021. – С. 256-262.
Kartbayev A., Mamyrbayev O., Khairova N., Ybytayeva G., Abilkaiyr N., Mussayeva D. Correction of Kazakh synthetic text using finite state automata // Journal of Theoretical and Applied Information Technology. – 2021. – Vol 99, Issue 23 (в печати).
Г.С. Ыбытаева, Н.Ф. Хайрова, К.Ж. Мухсина, Б.Ж. Жумажанов. Лингвистикалық онтологияны қолдану және қалыптастыру мәселелеріне шолу//News of the National Academy of Sciences of the Republic of Kazakhstan. Physics and information technology series. Volume 1, Number 341 (2022), pp. 96-106 https://doi.org/10.32014/2022.2518-1726.121