enrukz
enrukz

Ғылыми жоба: №АР05132950. Қазақ тіліндегі деректердің ақпараттық-талдамалық іздеу жүйесін әзірлеу

Жоба жетекшісі мен мүшелері:

Жобаның жетекшісі Рахимова Диана Рамазанқызы болып табылады.

Зерттеу тобының негізгі мүшелері:

Т. ғ. д., профессор Тукеев Уалшер Ануарбекович,

КҒҚ, Жұманов З. М.,

КҒҚ, Шормакова А.Н.,

Инженер Тұрғанбаева А. О.,

Инженер Абдуали Б.,

Инженер Амирова Д.

Жобаның мақсаты:

Құрылымданбаған дереккөздерден, қазақ тіліндегі деректер мен мәтіндердің үлкен ауқымынан жаңа ақпарат пен білім алу үшін компьютерлік лингвистиканың соңғы жетістіктерін пайдалана отырып, табиғи тілді өңдеу саласындағы қазіргі заманғы технологиялар негізінде мәтіндік деректерді өңдеудің тиімді алгоритмдері мен модельдерін әзірлеу болып табылады.

Осы мақсатқа қол жеткізу үшін жоба шеңберінде келесі міндеттер шешілді:

Қазақ тілінің аяқталуы мен жұрнақтарын жіктеудің толық жүйесі жасалды. Lexicon-free stemming алгоритмі қазақ тілінің аяқталуларын жіктеудің әзірленген жүйесін пайдалана отырып әзірленген. Құрылған алгоритмнің ерекшелігі – оның жылдамдығы және өте оңай репродукциясы.

Қазақ тілінің ерекшеліктерін ескере отырып, деректерді өңдеудің әзірленген модульдері (токенезация, лемматизация, морфологиялық талдау) ерекше ерекшеліктер болып табылады;

Қазақ тіліндегі мәтіндерді автоматты түрде толтыру алгоритмі және белгілерді қолдана отырып құжаттарды индекстеу алгоритмі әзірленді;

Ақпараттық-аналитикалық іздеу жүйесінің сапасын жақсартуға мүмкіндік беретін қазақ тіліне арналған фразеологиялық бірліктердің құрылымдық қалыптасуы мен тағайындау түрлері бойынша жіктелген синонимдер мен фразеологиялық бірліктердің білім базасы жасалды;

Құрылымдық және құрылымданбаған үлкен деректерді өңдеу және талдау үшін жасанды интеллектті қолдана отырып, әртүрлі мақсаттағы қолданбалы бағдарламалық шешімдерді құру арқылы ақпараттық-аналитикалық өңдеу модулі жасалды. Болашақта осы модульдің алгоритмдері мен әдістерін үлкен мәтіндік деректерді талдауды шешу үшін жеке де, кешенде де қолдануға болады:

– қазақ тіліндегі құжаттардан түйінді сөздерді (сөз тіркестерін) алу алгоритмі;

– Машиналық оқыту технологияларын қолдана отырып, мәтінді семантикалық талдау алгоритмі (Machine Learning);

– қазақ тіліндегі мәтінді summarization әдісі;

Табиғи тілді ақпараттық іздеу мен семантикалық өңдеудегі заманауи технологиялар мен әдістерді ескере отырып, ақпараттық-аналитикалық іздеу жүйесінің архитектурасы құрылды және прототипі жасалды.  Іздеу жүйесінің ақпараттық-іздеу модулінің ішкі модульдері жасалды. Технологиялық шешім қабылдау мақсатында ақпараттық жүйенің икемді архитектурасы әзірленді. Жүйенің барлық бағдарламалық модульдері әлсіз байланысқан архитектураны алуға мүмкіндік беретін байланыстырушы буын ретінде әрекет ететін интеграциялық модульдермен (аралық деректер қоймасы) байланысты. Жобалауға бұл тәсіл модульдердің салыстырмалы түрде оңай масштабталуы мен жаңартылуына қол жеткізуге мүмкіндік береді.

Жарияланымдар:

Жоба бойынша ғылыми-зерттеу және техникалық қызмет жұмысының негізгі нәтижелері келесі жарияланымдарда ұсынылған:

Web of Science немесе Scopus ДБ индекстелетін жарияланымдар:

  1. Rakhimova, D., Turganbayeva, A. Auto-abstracting of texts in the Kazakh language // Proceedings of the 6th International Conference on Engineering & MIS. – 2020. – P. 1-5 // https://doi.org/10.1145/3410352.3410832.
  2. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. – 2019. – Vol. 96, №6. – P. 1896-1908
  3. Rakhimova D., Turganbayeva A. Lemmatization of big data in the Kazakh language // Cборник трудов 5-ой Междунар. конф. по инжинирингу и информационным системам управления ICEMIS2019. – 2019. – С. 73-77.
  4. Shormakova A., Zhumanov Zh., Abduali B., Rakhimova D., Amirova D. Analytical Processing of Textual Resources and Documents in the Kazakh Language // Journal of Engineering and Applied Sciences. – 2019. – 14, Issue: 20. – P. 7714-7721. // DOI: 10.36478/jeasci.2019.7714.7721
  5. Rakhimova D., Shormakova A. Problems of semantics of words of the Kazakh Language in the information retrieval //Lecture Notes in Artificial Intelligence Computational Collective Intelligence. –Springer, 2019. – 11684, Part II. – P. 70-81. https://doi.org/10.1007/978-3-030-28374-2_7
  6. Ualsher Tukeyev, Diana Rakhimova, Aliya Turganbayeva, Dina Amirova, Balzhan Abduali, Aidana Karibayeva. Lexicon-free stemming for Kazakh language information retrieval // IEEE 12th International Conference on Application of Information and Communication Technologies. Almaty, 2018. – P. 95-98

ҚР БжҒСБК ұсынылған жарияланымдар:

  1. Rakhimova D., Turganbayeva A. Semantic analysis of the Kazakh language based on the approach of neural networks // News of the national academy of sciences of the Republic of Kazakhstan, Physico-mathematical series. – 2020. – Vol. 5, No 333. – P. 68-75 // https://doi.org/10.32014/2020.2518-1726.84.
  2. Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского языка // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20. – № 4. – С. 545-551 Санкт -Петербург, Россия // doi: 10.17586/2226-1494-2020-20-4-545-551.
  3. Рахимова Д.Р., Сатыбалдиев А.Р. Алгоритм сбора текстовых данных на казахском языке // Вестник КазНПУ им. Абая. Серия «Физико-математические науки». – 2020. – № 2 (70). – С. 261-267.
  4. Абдуали Б.А., Әмірова Д.Т., Рахимова Д.Р., Кәрібаева А.С. Аналитическая обработка текстовых ресурсов и документов на казахском языке // Вестник КазНИТУ. – 2019. – №2 (132). – C. 356-362.
  5. Рахимова Д.Р., Шормакова А.Н., Тұрғанбаева Ә.О. Разработка электронных ресурсов для казахского языка // Вестник КазНИТУ. – 2019. – №3 (133). – C. 161-166.
  6. А.Н. Шормакова. Екі табиғи тілдегі аударылған мәтінді туралау // Вестник КазНИТУ. – 2018.№4(128).C. 344-349.

Халықаралық конференция материалдары:

  1. Рахимова Д.Р., Турганбаева А.О., Сатыбалдиев А. Исследование подходов по извлечению ключевых слов из текста // Матер. V Межд. науч. конф. “Информатика и прикладная математика”. – Алматы, 2020. – С. 252-258.
  2. Рахимова Д.Р., Аблатип А.Ж., Мәтіндердегі террористік бағыттағы сөздерді анықтау // Сб. ст. по матер. CLXVI междунар. науч.-практ. конф. «Молодой исследователь: вызовы и перспективы». – М., Изд. «Интернаука», 2020. – № 19 (166). – С. 439-444.
  3. Рахимова Д.Р., Жуманов Ж.М. Разработка архитектуры информационно-аналитической поисковой системы обработки данных на казахском языке // Матер. науч. конф. «Современные проблемы информатики и вычислительных технологий». – Алматы: ИИВТ МОН РК, 2020. – С. 287-291.
  4. Abduali B., Karibayeva A., Amirova D. Formation of the synthetic corpora for Kazakh on the base of endings complete system // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 114-120 (связи с поздней печатью публикация не была включена в 2018г.).
  5. Рахимова Д.Р., Нурхан А.К., Исследование и создание размеченного корпуса текстов для казахского языка // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 127-133 (связи с поздней печатью публикация не была включена в 2018г.).
  6. Рахимова Д.Р., Сейтжаппар М.А. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // Матер. науч. конф. ИИВТ МОН РК «Cовременные проблемы информатики и вычислительных технологий». – Алматы, 2019. – C. 66-74.
  7. Amirova D., Karibayeva A. Rakhimova D., Problems of lexical polysemy for the Kazakh language // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. Алматы, 2018.Ч.2C. 18-28.
  8. Рахимова Д.Р. Жомартова Л.М., Мусаев М.С., Семантический  поиск на основе модели векторного представления слов // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика»  посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2–  C. 95-103.
  9. Рахимова Д., Жуманов Ж., Давлетова С. Экономическая эффективность комплексной технологии расширения ресурсов для казахского языка. // Матер. 14-й междунар. азиатской школы-семинара «Проблемы оптимизации сложных систем».- Кыргызская республика, 2018.Ч. 2 , – C. 151-159.
  10. Рахимова Д.Р. Жомартова Л.М., Исследование реккурентных нейронных сетей для моделирования естественных языков флективных классов // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы,2018. – C. 103-107.
  11. Рахимова Д.Р.  Мусаев М.С., Особенности обработки текстов естественного языка в разработке интеллектуальной поисковой системы. // Матер.  науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы, 2018. – C. 185-189.

Кітаптар:

«Вычислительная обработка казахского языка»

Практикалық нәтижелер

Kazakh ASR

В результате данного исследования была реализована система обучения казахскому языку мобильного приложения для распознавания речи. Данное мобильное приложение, разработанное ИИВТ, выполнено по программе KazVoice, которая доступна пользователю в тестовом режиме. Для работы с данным приложением необходимо перейти в сеть https://t.me/kazakhASRB.t. При записи речи нажимается кнопка микрофона, с микрофона поступают речевые сигналы. Далее речевые сигналы автоматически считываются, и в этот момент пользователю виден результат в виде текста.