kzruen

Проект: №АР05131073. Методы и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Цель проекта:

Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.

Для достижения данной цели в рамках проекта решены следующие задачи.

  1. Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных;
    • проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах;
    • разработан общий подход к формализации и идентификации криминально значимой информации;
    • осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации.
  1. Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:
  • обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов;
  • разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
  • создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
  • проанализированы существующих проблем формализации и автоматизации казахского языка;
  • создана логико-лингвистической модель Open Information Extraction для текстов казахского языка.
  1. Разработаны корпуса современного веб-контента казахского, русского и английского языков:
  • рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики;
  • разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах;
  • создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики;
  • показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов.
  1. Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события:
    • проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
    • разработана формальная модель грамматических способов выражения  факта побуждения к действию в английском языке;
  • рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности;
  • разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов;
  • разработана технология поиска семантически близких коротких фрагментов текста.
  1. Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.
  • осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
  • рассмотрены особенности реализации и экспериментальные результаты модели Open IE;
  • создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике;
  • построена модель оценки качества технологии определения семантической близости документа  к узкоспециализированной тематике;

разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.

Публикации:

  1. Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. – 
Р. 333-347
  2. Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
  3. Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
  4. Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
  5. Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
  6. Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
  7. Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
  8. Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
  9. Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1, 
1714829.
  10. Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
  11. The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
  12. Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
  13. Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
  14. Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторские свидетельства:

Монографии:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

 

 

Книги:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Программный продукт: