Разработка информационной модели автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет. Модель будет включать онтологию «Противоправный Интернет-контент» для казахского, русского и английского языков, специализированные корпуса текстов и программный инструментарий поиска и анализа криминально значащих текстов, предназначенный для поддержки аналитиков государственных служб по выявлению текстов противоправного содержания.
данного проекта заключается в новом интегрированном подходе смыслового анализа текстового контента Интернета, базирующемся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области.
Проект включает также разработку метода автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения фактов из неструктурированных документов. Использование данной модели позволяет автоматизировать наполнение онтологии сущностями и отношениями между ними, извлеченными из созданных корпусов текстов, содержащих криминально окрашенные тексты.
При выполнении проекта предполагается впервые в Республике Казахстан разработать онтологию предметной области противоправного текстового контента интернета для трех языков: казахского, русского и английского. Следует заметить, что в открытых мировых источниках нет доступных информации о подобных онтологиях достаточного для практического применения объема.
Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.
Реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках; созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.
Правоохранительных и специальных государственных организаций; социальные службы; учебные заведения и другие государственные учреждения.
1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры;
2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС);
3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE.