kzruen

Ғылыми жоба: №AP09259309. Көп тілді құқыққа қайшы веб-контентті онтологиялық тәсіл негізінде автоматты іздеу және талдау жүйесінің ақпараттық моделі мен бағдарламалық құралдары

Зерттеу тобы:

Жобаның мақсаты:

Интернет желілерінде қазақ, орыс және ағылшын тілдеріндегі құқыққа қайшы мәтіндерді автоматты анықтау жүйесінің ақпараттық моделін құру. Ақпараттық модельге «Құқыққа қайшы Интернет-контент» онтологиясы, мәтіндердің мамандандырылған корпустары және мемлекеттік қызмет аналитиктерін құқыққа қайшы мазмұнды мәтіндерді анықтау бойынша қолдауға арналған экстремистік және криминалды мазмұнды мәтіндерді іздеу мен талдаудың бағдарламалық құралдары кіреді.

Жобаның мақсаттары:

  1. Шектеулі мөлшерлі және құрылымды «Құқыққа қайшы Интернет-контент» бастапқы базалық мета-онтология құру. Міндет шеңберінде қазақ, орыс және ағылшын тілдерінің терминологиялық тезаурустары, аталған үш тілдің осы тақырыптағы корпустарының негізінде құрылуы, сондай-ақ онтология сыныптары, олардың қасиеттері мен сыныптар арасындағы қатынастар анықталуы тиіс.
  2. Веб-желілердің криминалды мазмұнды мәтіндік ақпаратына негізделе отырып, «Құқыққа қайшы Интернет-контент» базалық онтологиясын автоматты түрде толтыру және толықтыру әдісін жасау. Жасалған әдіс статистикалық тәсілдер мен құрылымданбаған мәтіндерден фактілердің триплеттерін алуға арналған Open Information Extraction бұрын құрылған ақпараттық-лингвистикалық моделін қолдануды көздейді.
  3. Қылмыстық мазмұнды ақпаратты қамтитын мәтіндердің қолда бар корпустары негізінде «Құқыққа қайшы Интернет-контент» онтологиясын автоматты түрде толтыруды жүзеге асыру. Онтология қазақ, орыс және ағылшын тілдерінің лексикасын қамтуы және оны ақпараттық іздеу модельдерінде практикалық қолдану үшін жеткілікті көлемде болуы тиіс. Зерттеудің осы кезеңінде корпус мәтіндерін алдын-ала лингвистикалық өңдеуді жүзеге асыру, мәтіндердегі белгілі бір лингвистикалық формализмдер мен нақты мәндер, мәндер кластары мен үш тілдің әрқайсысы үшін қатынастар арасындағы ресми заңдылықтарды анықтау, сонымен қатар мәндер кластарын автоматты түрде бөлу алгоритмін және олардың арасындағы қатынастарды анықтау қажет.
  4. Интернет контенттің қылмыстық мазмұнды ақпаратының қазақ, орыс және ағылшын мәтіндерінің корпустарын семантикалық белгілеу әдісі мен құралдарын жасау. Әдіс құрылған онтологияға және криминалды мазмұнды мәтіндердің параллельді қазақ-орыс корпусына негізделуі керек. Бұл мәселені шешу және көптеген семантикалық белгілерді қалыптастыру үшін (tagset) онтологияның дамыған кластарын да, NLP (Natural Language Processing) мәнін (Entity Recognition) анықтау мәселесін шешуде қолда бар тәсілдерді қолдану ұсынылады. Бұл кезеңде криминалды мазмұнды объектілердің қолда бар корпустарын семантикалық белгілеуді жүзеге асыру қажет
  5. Әлеуметтік желілерде және басқа да Интернет көздерінде қазақ, орыс және ағылшын тілдерінде құқыққа қайшы контентті іздеу мен талдаудың интеграцияланған технологиясын әзірлеу, ол мұғаліммен машиналық оқыту әдістерін (supervised machine learning), сондай-ақ онтологиялық тәсіл негізінде алынатын мәтіндердің криминалды мазмұнды семантикалық дифференциалдық белгілерінің қосымша әдістерін қамтитын болады.
  6. Көп тілді құқыққа қарсы Интернет контентін автоматты түрде іздеуге және талдауға мүмкіндік беретін Интернет-ресурстарға автоматты түрде мониторинг жүргізу жүйесінің тиімді алгоритмі мен бағдарламалық құралдарын құру. Зерттеудің осы кезеңінде онтологиялық тәсіл негізінде құқыққа қарсы мәтіндік ақпаратты анықтаудың дамыған технологиясының тиімділігі дәлелденуі керек.

Бұл жобаның ғылыми жаңалығы

машиналық оқыту әдістерін бір мезгілде қолдануға және пәндік аймақтың онтологиясынан алынған саралау белгілерін күшейтуге негізделген Интернеттің мәтіндік мазмұнын семантикалық талдаудың жаңа кешенді тәсілінде жатыр.

Жоба сонымен қатар құрылымдалмаған құжаттардан фактілерді алудың логикалық-лингвистикалық моделіне негізделген «Құқыққа қайшы интернет-контент» лингвистикалық онтологиясын автоматты түрде генерациялау әдістемесін әзірлеуді қамтиды.

Бұл модельді пайдалану қылмыстық боялған мәтіндерден тұратын құрылған мәтіндік корпустан алынған объектілермен және олардың арасындағы қатынастармен онтологияны толтыруды автоматтандыруға мүмкіндік береді.

Жобаны жүзеге асыру барысында Қазақстан Республикасында алғаш рет үш тілде: қазақ, орыс және ағылшын тілдерінде құқыққа қайшы интернет-мәтіндік контенттің пәндік саласының онтологиясын әзірлеу көзделуде. Айта кету керек, әлемдік ашық дереккөздерде мұндай онтологиялар туралы практикалық қолдану үшін жеткілікті ақпарат жоқ.

Зерттеу нысаны:

онтологиялық тәсіл негізінде қазақ, орыс және ағылшын тілдеріндегі құқыққа қайшы мәтіндік ақпаратты автоматты түрде іздеу және талдау үлгілері мен әдістері.

Негізгі конструкторлық және техникалық-экономикалық көрсеткіштері, тиімділігі:

бұл жобаны жүзеге асыру қазақ, орыс және ағылшын тілдеріндегі мәтіндерді мағыналық өңдеудің тиімділігін арттыруға мүмкіндік береді; құрылған жоғары мамандандырылған онтология «Құқыққа қайшы интернет-контент» қазақ тілінің жаңа лингвистикалық ресурсын білдіреді, ол кейінгі әзірлемелердің ғылыми әлеуетін арттырады.

Қолдану саласы:

құқық қорғау және арнаулы мемлекеттік ұйымдар; әлеуметтік қызметтер; оқу орындары және басқа да мемлекеттік мекемелер.

Күтілетін нәтижелер:

Жобаны орындау барысында күтілетін негізгі нәтижелер:

  • Жобаны орындау барысында қазақ, орыс және ағылшын тілдері үшін «Құқыққа қайшы Интернет-контент» онтологиясының автоматты генерациясы жүзеге асырылатын болады.
  • Қазақ, орыс және ағылшын тілдері үшін Интернет желілеріндегі криминалдық мазмұнды ақпарат корпустары толықтырылады.
  • Құқыққа қайшы контенттің лингвистикалық және лексикалық маркерлерін бөліп көрсетуге бағытталған динамикалық толтырылған көптілді мәтіндік корпустарды семантикалық талдау және семантикалық белгілеу әдісі әзірленетін болады.
  • Машиналық оқыту әдістері мен онтологиялық тәсілді қамтитын қазақ, орыс және ағылшын тілдеріндегі әлеуметтік желілерде және басқа да Интернет көздерде құқыққа қайшы контент іздеу мен талдаудың интеграцияланған технологиясы жасалатын болады. Технология базасында интернет-ресурстардың автоматты мониторингі жүйесінің тиімді алгоритмі мен бағдарламалық құралдары әзірленетін болады, олар көптілді құқыққа қайшы Интернетт контентін автоматты іздеуді және талдауды жүзеге асыруға мүмкіндік береді. Жасалған модельдердің, әдістер мен алгоритмдердің тиімділігі практикалық тәжірибелермен дәлелденеді.

Алынған нәтижелер:

1) көлемі мен құрылымы шектеулі мета-онтологияны білдіретін қазақ, орыс және ағылшын тілдерінің құқыққа қайшы лексикасының негізгі терминологиялық тезаурусы;

2) топтық онлайн пікірталас қауымдастықтарының қылмыстық мәні бар мәтіндерінің кеңейтілген корпусы;

3) қолда бар корпусқа және OdEE мәтінінен оқиғаларды шығаруға арналған әзірленген тәсілге негізделген автоматты онтологияны генерациялау әдісі.

Жарияланымдар тізімі:

  • Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Galiya Ybytayeva, Yuliia Lytvynenko. Automatic Multilingual Ontology Generation Based on Texts Focused on Criminal Topic / Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. – 2021. – Vol.1. – P. 108-117.
  • Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., & Nuranbayeva, B. Development of security systems using DNN and i & x-vector classifiers // Eastern-European Journal of Enterprise Technologies. – 2021. – Vol. 4/9 (112). – P. 32–45 // https://doi.org/10.15587/1729-4061.2021.239186.
  • Г.С. Ыбытаева, О.Ж. Мамырбаев, Н.Ф. Хайрова, Б.Ж. Жумажанов. Қазақ тіліндегі мәтіндерде коллокацияларды анықтаудың статистикалық әдістерін талдау // Матер. VI Междунар. науч. конф. «Информатика и прикладная математика». – Алматы, Казахстан, 2021. – С. 256-262.
  • Kartbayev A., Mamyrbayev O., Khairova N., Ybytayeva G., Abilkaiyr N., Mussayeva D. Correction of Kazakh synthetic text using finite state automata // Journal of Theoretical and Applied Information Technology. – 2021. – Vol 99, Issue 23 (в печати).
  • Г.С. Ыбытаева, Н.Ф. Хайрова, К.Ж. Мухсина, Б.Ж. Жумажанов. Лингвистикалық онтологияны қолдану және қалыптастыру мәселелеріне шолу//News of the National Academy of Sciences of the Republic of Kazakhstan. Physics and information technology series. Volume 1, Number 341 (2022), pp. 96-106 https://doi.org/10.32014/2022.2518-1726.121