Проект направлен на решение общей фундаментальной проблемы формирования методологических основ создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка. В рамках данной общей проблемы, в проекте решена конкретная прикладная задача: разработана информационно-лингвистической технология автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабо-структурированных тестовых массивах казахского, русского и английского языков, на базе моделирования функции понимания человеческого интеллекта.
Для достижения данной цели в рамках проекта решены следующие задачи.
- Проведен аналитический обзор основных проблем в области технологии поиска противоправной информации в текстовых данных;
- проанализировано состояние и перспективы развития методов формализации и поиска информации в неструктурированных текстовых массивах;
- разработан общий подход к формализации и идентификации криминально значимой информации;
- осуществлен обзор существующих возможностей использования методов Information Extraction для извлечения криминально значимой информации.
- Разработана логико-лингвистическая модель извлечения фактов из текстовых массивов естественного языка:
- обосновано использование алгебры конечных предикатом в качестве математического инструментария моделирования семантики неструктурированных и слабо-структурированных текстов;
- разработана логико-лингвистическая модель извлечения фактов из слабоструктурированных текстов русского языка;
- создана информационная технология извлечения фактов из слабо-структурированных английских текстов;
- проанализированы существующих проблем формализации и автоматизации казахского языка;
- создана логико-лингвистической модель Open Information Extraction для текстов казахского языка.
- Разработаны корпуса современного веб-контента казахского, русского и английского языков:
- рассмотрены особенности формирования казахско-русского параллельного корпуса текстов криминальной тематики;
- разработана информационная технология идентификации и анализа криминально-значимой информации в текстовых корпусах;
- создана информационная технология выравнивания созданного параллельного корпуса казахско-русского корпуса текстов криминальной тематики;
- показаны практические результаты реализации разработанной модели Open IE на трех корпусах русского, казахского и английского текстов.
- Исследована зависимость между лингвистическими формализмами в текстах веб-контента и реальной сущностью общественно значимого события:
- проведен обзор существующих подходов генерация структурированной машинно-читаемой информации из неструктурированных текстов;
- разработана формальная модель грамматических способов выражения факта побуждения к действию в английском языке;
- рассмотрены гносеологические аспекты информационных процессов определения семантических/лексических и грамматических идентификаторов криминальности;
- разработан метод выявления семантических идентификаторов КЗИ в корпусе текстов;
- разработана технология поиска семантически близких коротких фрагментов текста.
- Оценена эффективность разработанных технологий идентификации криминально значимой информации на базе созданных корпусов.
- осуществлен сравнительный анализ метрик оценки эффективности моделей машинного обучения. Обосновано использование метрики числовых оценок, использующей в качестве объективно измеряемых показателей эффективности моделей машинного обучения кортеж, включающий коэффициенты полноты, точности и меру Ван Ризбергена.
- рассмотрены особенности реализации и экспериментальные результаты модели Open IE;
- создана методика экспертной оценки качества технологии определения семантической близости текстов к противоправной тематике;
- построена модель оценки качества технологии определения семантической близости документа к узкоспециализированной тематике;
разработаны рекомендации по созданию информационной технологии идентификации знаний в текстовых массивах, с целью выделения информации, имеющей значение для предотвращения противоправных действий.