Проект: №АР05131073. Методы и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Цель проекта:

Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.

Для достижения данной цели в рамках проекта решены следующие задачи.

Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных;
- проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах;
- разработан общий подход к формализации и идентификации криминально значимой информации;
- осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации.

Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:

обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов;
разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
проанализированы существующих проблем формализации и автоматизации казахского языка;
создана логико-лингвистической модель Open Information Extraction для текстов казахского языка.

Разработаны корпуса современного веб-контента казахского, русского и английского языков:

рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики;
разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах;
создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики;
показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов.

Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события:
- проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
- разработана формальная модель грамматических способов выражения факта побуждения к действию в английском языке;

рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности;
разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов;
разработана технология поиска семантически близких коротких фрагментов текста.

Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.

осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
рассмотрены особенности реализации и экспериментальные результаты модели Open IE;
создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике;
построена модель оценки качества технологии определения семантической близости документа к узкоспециализированной тематике;

разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.

Публикации:

Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. –  Р. 333-347
Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1,  1714829.
Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторские свидетельства:

Авторское свидетельство

Монографии:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

Монография

Книги:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Цель проекта:

Публикации:

Авторские свидетельства:

Монографии:

Книги:

Программный продукт: