enrukz
enrukz

Проект: №АР05132950. Разработка информационно-аналитической поисковой системы данных на казахском языке

Руководитель и члены проекта:

Руководитель проекта является PhD Рахимова Диана Рамазановна.

Основные члены исследовательской группы:

Д.т.н. профессор Тукеев Уалшер Ануарбекович,

МНС, Жуманов Ж.М.,

МНС, Шормакова А.Н.,

Инженер Турганбаева А.О.,

Инженер Абдуали Б.,

Инженер Амирова Д.

Цель проекта:

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из неструктурированных источников, больших массивов данных и текстов на казахском языке.

Для достижения данной цели в рамках проекта решены следующие задачи:

Разработана полная система классификация окончаниий и суффиксов казахского языка. Разработан  lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Отличительными особенностями построенного алгоритма является его скорость и достаточно легкая воспроизводимость.

Разработана модель и система размеченного корпуса казахского языка, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка;

Разработаны алгоритм автоматического пополнения текстов на казахском языке и алгоритм индексирования документов с помощью признаков;

Разработана база знаний синонимов и фразеологизмов, классифицированная   по структурному образованию фразеологизмов и типам назначений для казахского языка, которые позволяют улучшить качество информационно-аналитической поисковой системы;

Разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением искусственного интеллекта для обработки и анализа как структурированных, так и неструктурированных больших данных. Алгоритмы и методы данного модуля в дальнейшем могут применяться как по отдельности, так и в комплексе для решения анализа больших текстовых данных:

-алгоритм извлечения ключевых слов (фраз) из документов на казахском языке;

-алгоритм семантического анализа текста, c применением технологий машинного обучения (Machine Learning);

-метод summarization текста на казахском  языка;

Построена архитектура и разработан прототип информационно-аналитической поисковой системы, с учетов современных технологии и методов в информационном поиске и семантической обработки естественного языка.  Разработаны подмодули информационно-поискового модуля поисковой системы. С целью технологического решения разработана гибкая архитектура информационной системы. Все программные модули системы связаны между собой интеграционными модулями (промежуточными хранилищами данных), выступающими в качестве связывающих звеньев, позволяющих получить слабо-связную архитектуру. Такой подход к проектированию позволяет достичь относительно легкой масштабируемости и обновляемости модулей.

Публикации:

Основные  результаты работы научно-исследоватеьской и технической деятельности по проекту представлены в следующих публикациях:

Публикаций индексируемые в БД Web of Science иили Scopus:

  1. Rakhimova, D., Turganbayeva, A. Auto-abstracting of texts in the Kazakh language // Proceedings of the 6th International Conference on Engineering & MIS. – 2020. – P. 1-5 // https://doi.org/10.1145/3410352.3410832.
  2. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. – 2019. – Vol. 96, №6. – P. 1896-1908
  3. Rakhimova D., Turganbayeva A. Lemmatization of big data in the Kazakh language // Cборник трудов 5-ой Междунар. конф. по инжинирингу и информационным системам управления ICEMIS2019. – 2019. – С. 73-77.
  4. Shormakova A., Zhumanov Zh., Abduali B., Rakhimova D., Amirova D. Analytical Processing of Textual Resources and Documents in the Kazakh Language // Journal of Engineering and Applied Sciences. – 2019. – 14, Issue: 20. – P. 7714-7721. // DOI: 10.36478/jeasci.2019.7714.7721
  5. Rakhimova D., Shormakova A. Problems of semantics of words of the Kazakh Language in the information retrieval //Lecture Notes in Artificial Intelligence Computational Collective Intelligence. –Springer, 2019. – 11684, Part II. – P. 70-81. https://doi.org/10.1007/978-3-030-28374-2_7
  6. Ualsher Tukeyev, Diana Rakhimova, Aliya Turganbayeva, Dina Amirova, Balzhan Abduali, Aidana Karibayeva. Lexicon-free stemming for Kazakh language information retrieval // IEEE 12th International Conference on Application of Information and Communication Technologies. Almaty, 2018. – P. 95-98

Публикаций рекомендованные КОКСОН РК:

  1. Rakhimova D., Turganbayeva A. Semantic analysis of the Kazakh language based on the approach of neural networks // News of the national academy of sciences of the Republic of Kazakhstan, Physico-mathematical series. – 2020. – Vol. 5, No 333. – P. 68-75 // https://doi.org/10.32014/2020.2518-1726.84.
  2. Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского языка // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20. – № 4. – С. 545-551 Санкт -Петербург, Россия // doi: 10.17586/2226-1494-2020-20-4-545-551.
  3. Рахимова Д.Р., Сатыбалдиев А.Р. Алгоритм сбора текстовых данных на казахском языке // Вестник КазНПУ им. Абая. Серия «Физико-математические науки». – 2020. – № 2 (70). – С. 261-267.
  4. Абдуали Б.А., Әмірова Д.Т., Рахимова Д.Р., Кәрібаева А.С. Аналитическая обработка текстовых ресурсов и документов на казахском языке // Вестник КазНИТУ. – 2019. – №2 (132). – C. 356-362.
  5. Рахимова Д.Р., Шормакова А.Н., Тұрғанбаева Ә.О. Разработка электронных ресурсов для казахского языка // Вестник КазНИТУ. – 2019. – №3 (133). – C. 161-166.
  6. А.Н. Шормакова. Екі табиғи тілдегі аударылған мәтінді туралау // Вестник КазНИТУ. – 2018.№4(128).C. 344-349.

Труды международных конференций:

  1. Рахимова Д.Р., Турганбаева А.О., Сатыбалдиев А. Исследование подходов по извлечению ключевых слов из текста // Матер. V Межд. науч. конф. “Информатика и прикладная математика”. – Алматы, 2020. – С. 252-258.
  2. Рахимова Д.Р., Аблатип А.Ж., Мәтіндердегі террористік бағыттағы сөздерді анықтау // Сб. ст. по матер. CLXVI междунар. науч.-практ. конф. «Молодой исследователь: вызовы и перспективы». – М., Изд. «Интернаука», 2020. – № 19 (166). – С. 439-444.
  3. Рахимова Д.Р., Жуманов Ж.М. Разработка архитектуры информационно-аналитической поисковой системы обработки данных на казахском языке // Матер. науч. конф. «Современные проблемы информатики и вычислительных технологий». – Алматы: ИИВТ МОН РК, 2020. – С. 287-291.
  4. Abduali B., Karibayeva A., Amirova D. Formation of the synthetic corpora for Kazakh on the base of endings complete system // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 114-120 (связи с поздней печатью публикация не была включена в 2018г.).
  5. Рахимова Д.Р., Нурхан А.К., Исследование и создание размеченного корпуса текстов для казахского языка // Сборник матер. Шестой Междунар. конф. по компьютерной обработке тюркских языков «TurkLang-2018». – Ташкент, Узбекистан, 2018. – C. 127-133 (связи с поздней печатью публикация не была включена в 2018г.).
  6. Рахимова Д.Р., Сейтжаппар М.А. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // Матер. науч. конф. ИИВТ МОН РК «Cовременные проблемы информатики и вычислительных технологий». – Алматы, 2019. – C. 66-74.
  7. Amirova D., Karibayeva A. Rakhimova D., Problems of lexical polysemy for the Kazakh language // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика» посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. Алматы, 2018.Ч.2C. 18-28.
  8. Рахимова Д.Р. Жомартова Л.М., Мусаев М.С., Семантический  поиск на основе модели векторного представления слов // Матер. 3-й междунар. науч. конф. «Информатика и прикладная математика»  посв. 80-летию проф. Бияшева Р.Г. и 70-летию проф. Айдарханова М.Б. – Алматы, 2018. –Ч.2–  C. 95-103.
  9. Рахимова Д., Жуманов Ж., Давлетова С. Экономическая эффективность комплексной технологии расширения ресурсов для казахского языка. // Матер. 14-й междунар. азиатской школы-семинара «Проблемы оптимизации сложных систем».- Кыргызская республика, 2018.Ч. 2 , – C. 151-159.
  10. Рахимова Д.Р. Жомартова Л.М., Исследование реккурентных нейронных сетей для моделирования естественных языков флективных классов // Матер. науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы,2018. – C. 103-107.
  11. Рахимова Д.Р.  Мусаев М.С., Особенности обработки текстов естественного языка в разработке интеллектуальной поисковой системы. // Матер.  науч. конф. Института информационных и вычислительных технологий МОН РК «Современные проблемы информатики и вычислительной технологий». Алматы, 2018. – C. 185-189.

Книги:

«Вычислительная обработка казахского языка»

Практические результаты

Kazakh ASR

В результате данного исследования была реализована система обучения казахскому языку мобильного приложения для распознавания речи. Данное мобильное приложение, разработанное ИИВТ, выполнено по программе KazVoice, которая доступна пользователю в тестовом режиме. Для работы с данным приложением необходимо перейти в сеть https://t.me/kazakhASRB.t. При записи речи нажимается кнопка микрофона, с микрофона поступают речевые сигналы. Далее речевые сигналы автоматически считываются, и в этот момент пользователю виден результат в виде текста.