Ғылыми жоба: №АР05131073. Құрылымдалмаған және жартылай құрылымдалған мәтіндік жиындарда криминалдық маңызы бар ақпарат іздеу мен талдаудың әдістері және модельдері. – Институт информационных и вычислительных технологий

Жобаның мақсаты:

Жоба табиғи тіл мәтіндеріндегі мағынаның танымдық және семантикалық сәйкестендіргіштерін анықтаудың логикалық-лингвистикалық модельдерін құрудың әдіснамалық негіздерін қалыптастырудың жалпы іргелі мәселесін шешуге бағытталған. Осы жалпы проблема шеңберінде жобада нақты қолданбалы міндет шешілді: адам интеллектісін түсіну функциясын модельдеу негізінде қазақ, орыс және ағылшын тілдерінің құрылымданбаған және әлсіз құрылымдалған тестілік массивтерінде қылмыстық маңызы бар құрамдас бөлікті автоматты түрде анықтаудың, бөліп көрсетудің, іздеудің және талдаудың ақпараттық-лингвистикалық технологиясы әзірленді.

Осы мақсатқа қол жеткізу үшін жоба шеңберінде мынадай міндеттер шешілді.

Мәтіндік деректерде құқыққа қарсы ақпаратты іздеу технологиясы саласындағы негізгі проблемаларға талдамалық шолу жүргізілді:

құрылымданбаған мәтіндік массивтерде ақпаратты рәсімдеу және іздеу әдістерінің жағдайы мен даму перспективалары талданды;
қылмыстық маңызды ақпаратты ресімдеу мен сәйкестендірудің жалпы тәсілі жасалды;
қылмыстық маңызды ақпаратты алу үшін Information Extraction әдістерін пайдаланудың қазіргі мүмкіндіктеріне шолу жасалды.

Табиғи тілдің мәтіндік массивтерінен фактілерді алудың логикалық-лингвистикалық моделі жасалды:

алгебраны ақырлы предикаттың құрылымданбаған және әлсіз құрылымдалған мәтіндердің семантикасын модельдеудің математикалық құралы ретінде қолдануы негізделген;
орыс тілінің әлсіз құрылымдалған мәтіндерінен фактілерді алудың логикалық-лингвистикалық моделі жасалды;
нашар құрылымдалған ағылшын мәтіндерінен фактілерді алудың ақпараттық технологиясы жасалды;
қазақ тілін формализациялау және автоматтандыру мәселелері талданды;
қазақ тілінің мәтіндері үшін Open Information Extraction логикалық-лингвистикалық моделі құрылды.

Қазақ, орыс және ағылшын тілдерінің заманауи веб-контентінің корпустары әзірленді:

қылмыстық тақырыптағы мәтіндердің қазақ-орыс параллель корпусын қалыптастыру ерекшеліктері қарастырылды;
мәтіндік корпустардағы қылмыстық-маңызды ақпаратты анықтау және талдаудың ақпараттық технологиясы жасалды;
қазақ-орыс корпусында жасалған криминалдық тақырыптағы мәтіндерді теңестірудің ақпараттық технологиясы жасалды;
орыс, қазақ және ағылшын мәтіндерінің үш корпусында Open IE әзірленген моделін іске асырудың практикалық нәтижелері көрсетілген.

Веб-мазмұн мәтіндеріндегі лингвистикалық формализмдер мен әлеуметтік маңызды оқиғаның нақты мәні арасындағы байланыс зерттелді:

құрылымданбаған мәтіндерден құрылымдық машинамен оқылатын ақпаратты құрудың қолданыстағы тәсілдеріне шолу жасалды;
ағылшын тілінде іс-әрекетке ынталандыру фактісін білдірудің грамматикалық әдістерінің ресми моделі жасалды;
криминализмнің семантикалық/лексикалық және грамматикалық идентификаторларын анықтаудың ақпараттық процестерінің эпистемологиялық аспектілері қарастырылады;
мәтін корпусында ҚМА семантикалық идентификаторларын анықтау әдісі жасалды;
мәтіннің семантикалық жағынан жақын қысқа үзінділерін іздеу технологиясы жасалды.

Құрылған ғимараттар негізінде қылмыстық маңызды ақпаратты сәйкестендірудің әзірленген технологияларының тиімділігі бағаланды.

Машиналық оқыту модельдерінің тиімділігін бағалау өлшемдеріне салыстырмалы талдау жүргізілді. Ван Ризбергеннің толықтығы, дәлдігі және өлшемі коэффициенттерін қоса алғанда, Машиналық оқыту модельдерінің тиімділігінің объективті өлшенетін көрсеткіштері ретінде пайдаланылатын сандық бағалау метрикасын қолдану негізделген.
Open IE моделінің іске асырылу ерекшеліктері мен эксперименттік нәтижелері қарастырылады;
құқыққа қайшы тақырыпқа мәтіндердің семантикалық жақындығын анықтау технологиясының сапасын сараптамалық бағалау әдістемесі жасалды;
құжаттың тарсалалы тақырыпқа семантикалық жақындығын анықтау технологиясының сапасын бағалау моделі құрылды;
құқыққа қайшы әрекеттерді болдырмау үшін маңызды ақпаратты бөлу мақсатында мәтіндік массивтерде білімді сәйкестендірудің ақпараттық технологиясын құру бойынша ұсыныстар жасалды.

Жарияланымдар:

Khairova N., Lewoniewski W., Węcel K., Mamyrbayev О., Mukhsina K. Comparative Analysis of the Informativeness and Encyclopedic Style of the Popular Web Information Sources // Business Information Systems. Lecture Notes in Business Information Processing. – Springer, Cham, 2018. — Vol 320. –  Р. 333-347
Khairova, S. Petrasova, W. Lewoniewski, O. Mamyrbayev, K. Mukhsina. Automatic Extraction of Synonymous Collocation Pairs from a Text Corpus // Proceedings of the Federated Conference on Computer Science and Information Systems. – 2018. — Vol. 15. — Р. 485–488
Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж., Пилипенко А. А. Моделирование грамматических способов выражения семантики факта в английском предложении // Матер. ІІІ Междунар. науч. конф. «Информатика и прикладная математика», посв. 80-летнему юбилею проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. – Т. 2. – С. 136–144.
Хайрова Н. Ф., Мамырбаев О.Ж., Избасаров Е.Ж., Мухсина К. Ж. Формальная модель оценивания качества экстракции и идентификации знаний из слабоструктурированной тестовой информации // Матер. науч. конф. института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2018. – С. 306-310.
Мамырбаев О. Ж., Мухсина К. Ж., Хайрова Н. Ф., Колесник А. С. Лингвистические инструменты выявления криминально окрашенной текстовой информации веб-контента // Вестник казахстанско-британского технического университета. – 2018. – № 3(46). – С. 112-117.
Khairova, N.; Kolesnyk, A.; Mamyrbayev, O. and Mukhsina, K. (2019). The Influence of Various Text Characteristics on the Readability and Content Informativeness. In Proceedings of the 21st International Conference on Enterprise Information Systems — Volume 1: ICEIS, ISBN 978-989-758-372-8, pages 462-469. DOI: 10.5220/0007755004620469
Мамырбаев О. Ж., Хайрова Н. Ф., Мухсина К. Ж. Қазақ тіліндегі мәтіндердегі қылмыстық мәнді коллакцияларды анықтау / Вестник КазАТК им. М. Тынышпаева, рекомендуемый ККСОН МОН РК. – №3(110). – 2019. – 170 -175 c.
Khairova, S. Petrasova, O. Mamyrbayev and K. Mukhsina (2019) Detecting Collocations Similarity via Logical-Linguistic Model. In Proceedings of the Workshop on meaning relations between phrases and sentences — May 23, 2019, Gothenburg, Sweden, pages 15-22.
Nina Khairova, Orken Mamyrbayev, Kuralay Mukhsina, Anastasiia Kolesnyk. Logical-Linguistic model for multilingual open information extraction // Cogent Engineering, 2020, 7:1,  1714829.
Open Information Extraction as Additional Source for Kazakh Ontology Generation / Nina Khairova, Svitlana Petrasova, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings Asian Conference on Intelligent Information and Database Systems ACIIDS 2020, Phuket, Thailand, March 23–26, 2020. — Cham, 2020. — Part I. — P. 86–96
The Aligned Kazakh–Russian Parallel Corpus Focused on the Criminal Theme / Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Kuralay Mukhsina // Proceedings of the Conference Computational Linguistics and Intelligent Systems, CoLInS 2019. — 2019. — P. 116–125.
Хаирова Н., Колесник А., Мамырбаев О., Мухсина К. Выровненный казахско-русский параллельный корпус, ориентированный на криминальную тематику / Вестник Алматинского университета энергетики и связи № 1 (48) 2020. – c.84-92.
Nina Khairova, Anastasiia Kolesnyk, Orken Mamyrbayev, Svitlana Petrasova. Applying VSM to Identify the Criminal Meaning of Texts. COLINS 2020, р. 20-31
Similar text fragments extraction for identifying common wikipedia communities / Svitlana Petrasova, Nina Khairova, Włodzimierz Lewoniewski, Orken Mamyrbayev, Kuralay Mukhsina // Data. — 2018. — Vol. 3, № 4. — P. 66. — DOI: 10.3390/data3040066.

Авторлық куәліктер:

Авторлық куәліктер

Монографиялар:

Хайрова Н. Ф. Некоторые аспекты технологии идентификации криминально значимой информации в многоязычных текстовых массивах / Хайрова Н. Ф., Мамырбаев О. Ж., Мухсина К. Ж. – Алматы: Институт информационных и вычислительных технологий, 2020. – 92 с.

Монография

Кітаптар:

Хайрова Н. Ф., Мамырбаев О. Ж., Петрасова С. В., Мухсина К. Ж.

Современные технологии обработки текстовых данных на базе пакета NLTK Python : учеб. пособ. / Н. Ф. Хайрова, О. Ж. Мамырбаев, С. В. Петрасова, К. Ж. Мухсина. Харьков : ООО «В деле», 2020. 134 с. На русском языке.

Жобаның мақсаты:

Жарияланымдар:

Авторлық куәліктер:

Монографиялар:

Кітаптар:

Бағдарламалық қамтамасыз ету: