Проект: №AP09259309. Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода – Институт информационных и вычислительных технологий

Руководитель и члены проекта:

Мамырбаев О.Ж. – Руководитель НИР, зам.ген.директора, PhD, СНС (https://orcid.org/0000-0001-8318-3794);
Хайрова Н.Ф. – д.т.н., профессор, ГНС (https://orcid.org/0000-0002-9826-0286)
Шаронова Н.В. – д.т.н., профессор, ГНС (https://orcid.org/0000-0002-7555-1507)
Мухсина К.Ж. – PhD, CНС (https://orcid.org/0000-0002-8627-1949)
Ыбытаева Г.С. – МНС (https://orcid.org/0000-0002-4243-0928)
Картбаев А.Ж. – PhD, СНС (https://orcid.org/0000-0003-0592-5865)

Цель проекта:

Разработка информационной модели автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет. Модель будет включать онтологию «Противоправный Интернет-контент» для казахского, русского и английского языков, специализированные корпуса текстов и программный инструментарий поиска и анализа криминально значащих текстов, предназначенный для поддержки аналитиков государственных служб по выявлению текстов противоправного содержания.

Задачи проекта:

Создание первичной базовой мета-онтологии «Противоправный Интернет-контент», которая будет иметь ограниченный размер и структуру. В рамках задачи должны быть созданы терминологические тезаурусы казахского, русского и английского языков, на базе имеющихся корпусов данной тематики трех указанных языков, а также определены классы онтологии, их свойства и отношения между классами.
Разработка метода автоматического наполнения и дополнения созданной базовой онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов криминально значащей текстовой информации Веб-сетей. Разработанный метод должен использовать статистические подходы и ранее созданную информационно-лингвистическую модель Open Information Extraction, предназначенную для извлечения триплетов фактов из неструктурированных текстов.
Осуществление автоматического наполнения онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов текстов, содержащих криминально значащую информацию. Онтология должна включать лексику казахского, русского и английского языков и иметь объем достаточный для ее практического использования в моделях информационного поиска. На этом этапе исследования необходимо осуществить предварительную лингвистическую обработку текстов корпусов, выявить формальные закономерности между определенными лингвистическими формализмами в текстах и реальными сущностями, классами сущностей и отношениями для каждого из трех языков, а так же определить алгоритм автоматического выделения классов сущностей и отношений между ними.
Разработка метода и инструментария семантической разметки корпусов казахского, русского и английских текстов криминально значащей информации Интернет контента. Метод должен базироваться на созданной онтологии и выровненном параллельном казахско-русском корпусе криминально окрашенных текстов. Для решения данной задачи и формирования множества семантических меток (tagset) предлагается использовать как выработанные классы онтологии, так и имеющиеся подходы в решении задачи идентификации сущности (Entity Recognition) NLP (Natural Language Processing). На данном этапе необходимо осуществить семантическую разметку имеющихся корпусов криминально окрашенных текстов.
Разработка интегрированной технологии поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, которая будет включать, как методы машинного обучения с учителем (supervised machine learning), так и дополнительные дифференцирующие семантические признаки криминальной окрашенности текстов, получаемые на базе онтологического подхода
Создание эффективного алгоритма и программных средств системы автоматического мониторинга Интернет-ресурсов, которые позволят осуществлять автоматический поиск и анализа многоязычного противоправного контента Интернета. На данном этапе исследования должна быть доказана эффективность разработанной технологии идентификации противоправной текстовой информации, на базе онтологического подхода.

Научная новизна

данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.

Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.

При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.

Объект исследования:

Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.

Основные конструктивные и технико-экономические показатели, эффективность:

Реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.

Область применения:

Правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.

Ожидаемые результаты:

В ходе выполнения проекта будет разработан метод и осуществлена автоматическая генерация онтологии «Противоправный интернет-контент» для казахского, русского и английского языков.
Будут дополнены корпуса криминально значащей информации, содержащейся в Интернет сетях, для казахского, русского и английского языков.
Будет разработан метод семантического анализа и семантической разметки созданных динамически наполняемых многоязычных текстовых корпусов, акцентированный на выделении лингвистических и лексических маркеров противоправного контента.
Будет создана интегрированная технология поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, включающая методы машинного обучения и онтологический подход. На базе технологии будет разработан эффективный алгоритм и программные средства системы автоматического мониторинга Интернет-ресурсов, которые позволят осуществить автоматический поиск и анализа многоязычного противоправного контента Интернета. Эффективность созданных моделей, методов и алгоритмов будет доказана практическими экспериментами.

Полученные результаты:

1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры;

2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС);

3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.

Cписок публикаций:

Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Galiya Ybytayeva, Yuliia Lytvynenko. Automatic Multilingual Ontology Generation Based on Texts Focused on Criminal Topic / Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. – 2021. – Vol.1. – P. 108-117.
Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., & Nuranbayeva, B. Development of security systems using DNN and i & x-vector classifiers // Eastern-European Journal of Enterprise Technologies. – 2021. – Vol. 4/9 (112). – P. 32–45 // https://doi.org/10.15587/1729-4061.2021.239186.
Г.С. Ыбытаева, О.Ж. Мамырбаев, Н.Ф. Хайрова, Б.Ж. Жумажанов. Қазақ тіліндегі мәтіндерде коллокацияларды анықтаудың статистикалық әдістерін талдау // Матер. VI Междунар. науч. конф. «Информатика и прикладная математика». – Алматы, Казахстан, 2021. – С. 256-262.
Kartbayev A., Mamyrbayev O., Khairova N., Ybytayeva G., Abilkaiyr N., Mussayeva D. Correction of Kazakh synthetic text using finite state automata // Journal of Theoretical and Applied Information Technology. – 2021. – Vol 99, Issue 23 (в печати).
Г.С. Ыбытаева, Н.Ф. Хайрова, К.Ж. Мухсина, Б.Ж. Жумажанов. Лингвистикалық онтологияны қолдану және қалыптастыру мәселелеріне шолу//News of the National Academy of Sciences of the Republic of Kazakhstan. Physics and information technology series. Volume 1, Number 341 (2022), pp. 96-106 https://doi.org/10.32014/2022.2518-1726.121