Проект №AP09259309
Руководитель проекта: Мамырбаев Оркен Жумажанович
Наименование темы проекта: Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода
Цель проекта: разработка информационной модели системы автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет сетях. Разрабатываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.
Задачи проекта. Для достижения поставленной цели необходимо решить следующие основные задачи
- Создание первичной базовой мета-онтологии «Противоправный Интернет-контент», которая будет иметь ограниченный размер и структуру. В рамках задачи должны быть созданы терминологические тезаурусы казахского, русского и английского языков, на базе имеющихся корпусов данной тематики трех указанных языков, а также определены классы онтологии, их свойства и отношения между классами.
- Разработка метода автоматического наполнения и дополнения созданной базовой онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов криминально значащей текстовой информации Веб-сетей. Разработанный метод должен использовать статистические подходы и ранее созданную информационно-лингвистическую модель Open Information Extraction, предназначенную для извлечения триплетов фактов из неструктурированных текстов.
- Осуществление автоматического наполнения онтологии «Противоправный Интернет-контент», на базе имеющихся корпусов текстов, содержащих криминально значащую информацию. Онтология должна включать лексику казахского, русского и английского языков и иметь объем достаточный для ее практического использования в моделях информационного поиска. На этом этапе исследования необходимо осуществить предварительную лингвистическую обработку текстов корпусов, выявить формальные закономерности между определенными лингвистическими формализмами в текстах и реальными сущностями, классами сущностей и отношениями для каждого из трех языков, а также определить алгоритм автоматического выделения классов сущностей и отношений между ними.
- Разработка метода и инструментария семантической разметки корпусов казахского, русского и английских текстов криминально значащей информации Интернет контента. Метод должен базироваться на созданной онтологии и выровненном параллельном казахско-русском корпусе криминально окрашенных текстов. Для решения данной задачи и формирования множества семантических меток (tagset) предлагается использовать как выработанные классы онтологии, так и имеющиеся подходы в решении задачи идентификации сущности (Entity Recognition) NLP (Natural Language Processing). На данном этапе необходимо осуществить семантическую разметку имеющихся корпусов криминально окрашенных текстов.
- Разработка интегрированной технологии поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, которая будет включать, как методы машинного обучения с учителем (supervised machine learning), так и дополнительные дифференцирующие семантические признаки криминальной окрашенности текстов, получаемые на базе онтологического подхода
- Создание эффективного алгоритма и программных средств системы автоматического мониторинга Интернет-ресурсов, которые позволят осуществлять автоматический поиск и анализа многоязычного противоправного контента Интернета. На данном этапе исследования должна быть доказана эффективность разработанной технологии идентификации противоправной текстовой информации, на базе онтологического подхода.
Научная новизна данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.
Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.
При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.
Объект исследования: модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.
Основные конструктивные и технико-экономические показатели, эффективность: реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.
Область применения: правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.
Ожидаемые результаты
1) Планируется опубликовать 3 статьи или обзора в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science или имеющих процентиль по CiteScore в базе Scopus не менее 35 и 1 статья в журналах, рекомендованных КОКСОН.
2) Планируется опубликование 1 монографии с участием ученых Украины в казахском издательстве или издательстве Украины.
3) Распространение результатов работ среди потенциальных пользователей, сообщества ученых и широкой общественности будет осуществляться посредством публикаций результатов исследования в открытой печати. Планируется получение авторского свидетельства на разработанный программный продукт. Все исходные коды программного продукта будут доступны на сайте нашей организации и будут загружены в GitHub с открытым доступом.
4) Другие измеримые результаты в соответствии с требованиями конкурсной документации и особенностями проекта.
Полученные результаты: 1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры; 2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС); 3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.
Исследовательскиая группа:
- Мамырбаев О.Ж. – Руководитель НИР, зам.ген.директора, PhD, СНС (https://orcid.org/0000-0001-8318-3794);
- Хайрова Н.Ф. – д.т.н. наук, профессор, ГНС (https://orcid.org/0000-0002-9826-0286)
- Шаронова Н.В. – д.т.н., профессор, ГНС (https://orcid.org/0000-0002-7555-1507)
- Шаяхметова А.С. – PhD, СНС (https://orcid.org/0000-0002-4072-3671)
- Мухсина К.Ж. – PhD, МНС (https://orcid.org/0000-0002-8627-1949)
- Ыбытаева Г.С. – МНС (https://orcid.org/0000-0002-4243-0928)
- Дюсебаев С.Р. – Переводчик
- Картбаев А.Ж. – PhD, СНС (https://orcid.org/0000-0003-0592-5865)
Cписок публикаций:
- Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Galiya Ybytayeva, Yuliia Lytvynenko. Automatic Multilingual Ontology Generation Based on Texts Focused on Criminal Topic / Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. – 2021. – Vol.1. – P. 108-117.
- Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., & Nuranbayeva, B. Development of security systems using DNN and i & x-vector classifiers // Eastern-European Journal of Enterprise Technologies. – 2021. – Vol. 4/9 (112). – P. 32–45 // https://doi.org/10.15587/1729-4061.2021.239186.
- Г.С. Ыбытаева, О.Ж. Мамырбаев, Н.Ф. Хайрова, Б.Ж. Жумажанов. Қазақ тіліндегі мәтіндерде коллокацияларды анықтаудың статистикалық әдістерін талдау // Матер. VI Междунар. науч. конф. «Информатика и прикладная математика». – Алматы, Казахстан, 2021. – С. 256-262.
- Kartbayev A., Mamyrbayev O., Khairova N., Ybytayeva G., Abilkaiyr N., Mussayeva D. Correction of Kazakh synthetic text using finite state automata // Journal of Theoretical and Applied Information Technology. – 2021. – Vol 99, Issue 23 (в печати).