Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода

Информация о проекте

Проект №AP09259309

Руководитель проекта: Мамырбаев Оркен Жумажанович

Наименование темы проекта: Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода

Цель проекта: разработка информационной модели системы автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет сетях. Разрабатываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.

Задачи проекта. Для достижения поставленной цели необходимо решить следующие основные задачи

  1. Создание первичной базовой мета-онтологии «Противоправный Интернет-контент», которая будет иметь ограниченный размер и структуру. В рамках задачи должны быть созданы терминологические тезаурусы казахского, русского и английского языков, на базе имеющихся корпусов данной тематики трех указанных языков, а также определены классы онтологии, их свойства и отношения между классами.
  2. Разработка метода автоматического наполнения и дополнения созданной базовой онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов криминально значащей текстовой информации Веб-сетей. Разработанный метод должен использовать статистические подходы и ранее созданную информационно-лингвистическую модель Open Information Extraction, предназначенную для извлечения триплетов фактов из неструктурированных текстов.
  3. Осуществление автоматического наполнения онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов текстов, содержащих криминально значащую информацию. Онтология должна включать лексику казахского, русского и английского языков и иметь объем достаточный для ее практического использования в моделях информационного поиска. На этом этапе исследования необходимо осуществить предварительную лингвистическую обработку текстов корпусов, выявить формальные закономерности между определенными лингвистическими формализмами в текстах и реальными сущностями, классами сущностей и отношениями для каждого из трех языков, а также определить алгоритм автоматического выделения классов сущностей и отношений между ними.
  4. Разработка метода и инструментария семантической разметки корпусов казахского, русского и английских текстов криминально значащей информации Интернет контента. Метод должен базироваться на созданной онтологии и выровненном параллельном казахско-русском корпусе криминально окрашенных текстов. Для решения данной задачи и формирования множества семантических меток (tagset) предлагается использовать как выработанные классы онтологии, так и имеющиеся подходы в решении задачи идентификации сущности (Entity Recognition) NLP (Natural Language Processing). На данном этапе необходимо осуществить семантическую разметку имеющихся корпусов криминально окрашенных текстов.
  5. Разработка интегрированной технологии поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, которая будет включать, как методы машинного обучения с учителем (supervised machine learning), так и дополнительные дифференцирующие семантические признаки криминальной окрашенности текстов, получаемые на базе онтологического подхода
  6. Создание эффективного алгоритма и программных средств системы автоматического мониторинга Интернет-ресурсов, которые позволят осуществлять автоматический поиск и анализа многоязычного противоправного контента Интернета. На данном этапе исследования должна быть доказана эффективность разработанной технологии идентификации противоправной текстовой информации, на базе онтологического подхода.

Научная новизна данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.

Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.

При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.

Объект исследования: модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.

Основные конструктивные и технико-экономические показатели, эффективность: реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.

Область применения: правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.

Ожидаемые результаты

1) Планируется опубликовать 3 статьи или обзора в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science или имеющих процентиль по CiteScore в базе Scopus не менее 35 и 1 статья в журналах, рекомендованных КОКСОН.

2) Планируется опубликование 1 монографии с участием ученых Украины в казахском издательстве или издательстве Украины.

3) Распространение результатов работ среди потенциальных пользователей, сообщества ученых и широкой общественности будет осуществляться посредством публикаций результатов исследования в открытой печати. Планируется получение авторского свидетельства на разработанный программный продукт. Все исходные коды программного продукта будут доступны на сайте нашей организации и будут загружены в GitHub с открытым доступом.

4) Другие измеримые результаты в соответствии с требованиями конкурсной документации и особенностями проекта.

Полученные результаты: 1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры; 2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС); 3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.

Исследовательскиая группа:

  • Мамырбаев О.Ж. – Руководитель НИР, зам.ген.директора, PhD, СНС (https://orcid.org/0000-0001-8318-3794);
  • Хайрова Н.Ф. – д.т.н. наук, профессор, ГНС (https://orcid.org/0000-0002-9826-0286)
  • Шаронова Н.В. – д.т.н., профессор, ГНС (https://orcid.org/0000-0002-7555-1507)
  • Шаяхметова А.С. – PhD, СНС (https://orcid.org/0000-0002-4072-3671)
  • Мухсина К.Ж. – PhD, МНС (https://orcid.org/0000-0002-8627-1949)
  • Ыбытаева Г.С. – МНС (https://orcid.org/0000-0002-4243-0928)
  • Дюсебаев С.Р. – Переводчик
  • Картбаев А.Ж. – PhD, СНС (https://orcid.org/0000-0003-0592-5865)

Cписок публикаций:

  • Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Galiya Ybytayeva, Yuliia Lytvynenko. Automatic Multilingual Ontology Generation Based on Texts Focused on Criminal Topic / Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. – 2021. – Vol.1. – P. 108-117.
  • Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., & Nuranbayeva, B. Development of security systems using DNN and i & x-vector classifiers // Eastern-European Journal of Enterprise Technologies. – 2021. – Vol. 4/9 (112). – P. 32–45 // https://doi.org/10.15587/1729-4061.2021.239186.
  • Г.С. Ыбытаева, О.Ж. Мамырбаев, Н.Ф. Хайрова, Б.Ж. Жумажанов. Қазақ тіліндегі мәтіндерде коллокацияларды анықтаудың статистикалық әдістерін талдау // Матер. VI Междунар. науч. конф. «Информатика и прикладная математика». – Алматы, Казахстан, 2021. – С. 256-262.
  • Kartbayev A., Mamyrbayev O., Khairova N., Ybytayeva G., Abilkaiyr N., Mussayeva D. Correction of Kazakh synthetic text using finite state automata // Journal of Theoretical and Applied Information Technology. – 2021. – Vol 99, Issue 23 (в печати).