Лаборатория анализа и моделирования информационных процессов

Заведующий лабораторией – кандидат технических наук
Мусабаев Рустам Рафикович

+7 777 283 15 33; +7 727 272 03 86
rustam@iict.kz; rmusab@gmail.com
РК, 050010, г.Алматы, ул.Шевченко 28, каб. 320

Спектр исследований, проводимых в лаборатории «Анализа и моделирования информационных процессов» (АМИП) включает разнообразные научные направления в области математической кибернетики, распознавания образов, обработки данных на естественном языке, компьютерной лингвистики, машинного обучения, компьютерного зрения, анализа и синтеза речи и др.  Сотрудниками лаборатории получены значимые результаты в научном направлении “Метаэвристические методы комбинаторной и глобальной оптимизации”, такие как разработка численных методов решения задач глобальной оптимизации при кластеризации Big Data.

Научные направления лаборатории АМИП:

  • анализ и моделирование информационных процессов;
  • метаэвристические методы комбинаторной и глобальной оптимизации;
  • высокопроизводительные вычисления;
  • большие данные (Big Data);
  • машинное обучение;
  • интеллектуальный анализ данных;
  • компьютерная лингвистика;
  • алгоритмы обработки текстов на естественном языке;
  • автоматический анализ и синтез речевых сигналов.

В настоящее время в лаборатории «Анализа и моделирования информационных процессов» реализуется проекты, связанные с разработкой информационно-аналитических систем в области медиа-аналитики и оценки медиа-рисков, а также по робастному автоматическому распознаванию речевых сигналов с самообучением.

Ранее в лаборатории АМИП осуществлялась реализация проекта по автоматическому многомодальному анализу и синтезу эмоциональной составляющей в речевых аудиовизуальных сигналах, а также по разработке системы смыслового поиска текстов нового поколения.

В 2012 году группа молодых учёных под руководством заведующего лабораторией АМИП Мусабаева Р.Р. стала обладателем премии имени Д.А. Кунаева для молодых ученых за лучшую работу в области естественных наук.

Проект: № BR05236839 Разработка информационных технологий и систем для стимулирования устойчивого развития личности как одна из основ развития цифрового Казахстана

Практические применения:

«Media Analytics» (https://github.com/KindYAK/NLPMonitor) – информационная система для многокритериального анализа текстовой информации представленной в открытых текстовых источниках на основе Big Data технологий для поддержки принятия управленческих решений.

На современном этапе технологического развития общества всё большее социальное значение приобретает цифровая информация, получаемая из различных сетевых информационных источников. Происходит непрерывное увеличение объёмов общедоступной информации. Отдельные индивидуумы и их группы являются как источниками размещаемой в сети информации, так и её потребителями. Сама по себе информация, представленная в сетевых источниках, может иметь различную степень социальной значимости, может оказывать различные влияния, как на отдельные социальные группы, так и на весь социум в целом. В виду этого возникает важная научно-практическая задача, по комплексной оценке, потенциального воздействия различной информации на различные социальные группы или на социум в целом. Целью данной работы являются исследование и разработка различных методик для оценки влияния открытых информационных источников на социум на основе анализа публикуемой текстовой информации и их алгоритмическая реализация в составе соответствующей информационно-аналитической системы.

Архитектура информационной системы

Процесс тематического моделирования

Анализ социальной значимости информации в динамике

Дашборд по анализу тональности публикуемой текстовой информации

Отображение анализируемых показателей на геоинформационной системе

FlakyLib – это Python библиотека семейства алгоритмов k-средних, оптимизированная для кластеризации больших данных. Большинство алгоритмов в FlakyLib распараллелены и оптимизированы для высокопроизводительных вычислений с помощью Numba, которая переводит функции Python в оптимизированный машинный код во время выполнения с использованием стандартной библиотеки компилятора LLVM. Все алгоритмы FlakyLib направлены на решение задачи кластеризации с критерием). Библиотека кластеризации FlakyLib – это мощный инструмент для кластеризации больших данных с использованием высокопроизводительных вычислений и передовых подходов к глобальной оптимизации, таких как поиск с чередующимися окрестностями (VNS – Variable Neighbourhood Search). Библиотека кластеризации FlakyLib – это библиотека с открытым исходным кодом, доступна на  https://github.com/R-Mussabayev/flakylib. Различные варианты использования и руководство пользователя можно найти в формате Jupyter notebook: https://github.com/R-Mussabayev/flakylib/blob/master/flakylib_demo.ipynb

Визуализация процесса кластерного анализа

Испытание алгоритма на синтетических наборах данных

Реализованы системы синтеза и распознавания речи, речевые базы данных (БД), инструментарий для автоматического формирования и разметки речевых БД, системы автоматическая обработки текстов на казахском языке. Разработан комплекс программ, реализующий унифицированные методы синтеза речевого сигнала по фонемному тексту применительно к казахскому языку. Построен алгоритм фонетического транскрибирования текстов на казахском языке. Предложен метод фонетико-акустической классифи­кации речевого сигнала, позволяющий унифицировать фонетико-акустическую структуру языка. Создан специализированный язык фонетического представления, который позволяет задавать и описывать фонетические и интонационные формы речи. С его помощью описываются исходные данные модели, что позволяет осуществлять гибкое межсистемное взаимодействие.

Приложение синтеза казахской речи по тексту

Информационная система для формирования просодически размеченного устного корпуса казахского языка

Рустам Мусабаев демонстрирует разработанную технологию 3-х мерного машинного зрения

 

Публикации:

Список наиболее значимых публикаций

  1. Mussabayev, R.R., Kalimoldayev, M.N., Amirgaliyev, Y.N., Tairova, A.T., Mussabayev, T.R. (2018). Calculation of 3D Coordinates of a Point on the Basis of a Stereoscopic System. Open Engineering 8(1), pp. 109-117. (CiteScore Percentile = 38)
  2. Mussabayev, R.R., Kalimoldayev, M.N., Amirgaliyev, Y.N., Mussabayev, T.R. (2016). Automatic speech segmentation using throat-acoustic correlation coefficients. Open Engineering 6(1), pp. 335-346. (CiteScore Percentile = 38)
  3. Alexander Krassovitskiy, Nenad Mladenovic, Rustam Mussabayev (2020) Decomposition/Aggregation K-means for Big Data. In: Kochetov Y., Bykadorov I., Gruzdeva T. (eds) Mathematical Optimization Theory and Operations Research. MOTOR 2020. Communications in Computer and Information Science, vol 1275. Springer, Cham. https://doi.org/10.1007/978-3-030-58657-7_32 (CiteScore Percentile = 31)
  4. Mukhamediev R., Yakunin K., Mussabayev R., Buldybayev T., Kuchin Y., Murzakhmetov S., Yelis M. Classification of Negative Information on Socially Significant Topics in Mass Media // Symmetry. -2020. – V. 12(12). -P. 1-23. https://doi.org/10.3390/sym12121945 (Clarivate Analytics 2-ой квартиль (Q2) по данным Journal Citation Reports, CiteScore Percentile = 61)
  5. Krassovitskiy, A., Mussabayev, R. (2018). Energy-based centroid identification and cluster propagation with noise detection. Lecture Notes in Computer Science 11055 LNAI, pp. 523-533. (CiteScore Percentile = 57)
  6. Toleu, A., Tolegen, G., Mussabayev, R. (2019). Comparison of Various Approaches for Dependency Parsing. 15th International Asian School-Seminar Optimization Problems of Complex Systems, OPCS 2019, pp. 192-195.
  7. Toleu A., Tolegen G., Mussabayev R. (2020) Deep Learning for Multilingual POS Tagging. In: Hernes M., Wojtkiewicz K., Szczerbicki E. (eds) Advances in Computational Collective Intelligence. ICCCI 2020. Communications in Computer and Information Science, vol 1287. Springer, Cham. https://doi.org/10.1007/978-3-030-63119-2_2 (Scopus SJR=0.18, Percentile = 31)
  8. Seitkali, D., Musabayev, R. (2019). Using centroid keywords and word mover’s distance for single document extractive summarization. ACM International Conference Proceeding Series, pp. 149-152.
  9. Toleu, A., Tolegen, G., Mussabayev, R. (2019). KeyVector: Unsupervised keyphrase extraction using weighted topic via semantic relatedness. Computacion y Sistemas 23(3), pp. 861-869. https://doi.org/10.13053/CyS-23-3-3264 (CiteScore Percentile = 24)
  10. Mussabayev, R.R., Amirgaliyev, Y.N., Tairova, A.T., Mussabayev, T.R., Koibagarov, K.C. (2017). The technology for the automatic formation of the personal digital voice pattern. Application of Information and Communication Technologies, AICT 2016 – Conference Proceedings 7991733
  11. Barakhnin, V.B., Mukhamedyev, R.I., Mussabaev, R.R., Yu Kozhemyakina, O., Issayeva, A., Kuchin, Y.I., Murzakhmetov, S.B., Yakunin, K.O. Methods to identify the destructive information // Journal of Physics: Conf. Series, – Vol. 1405, – I. 1, Big Data and Artificial Intelligence Conf.; – Moscow; Russian Federation; – 2019
  12. Tolegen G., Toleu A., Mussabayev R. Voted-Perceptron Approach for Kazakh Morphological Disambiguation // Proc. of the 1st Joint SLTU and CCURL Workshop. – SLTU-CCURL, – 2020, – P. 258–264
  13. Khoroshilov Al-dr A., Musabayev R.R., Kozlovskaya Ya.D., Nikitin Yu. A., Khoroshilov A. A. Automatic Detection and Classification of Information Events in Media Texts // Automatic Documentation and Mathematical Linguistics, – 2020, – Vol. 54, No. 4, – P. 202–214
  14. Yakunin K., Kuchin Y., Mukhamediev R., Musabayev R. Classification of negative publication in mass media using topic modeling// Journal of Physics: Conf. Series. – 2020. – C. 1-12 (Scopus, Cite Score =0.7)
  15. Yakunin K., Ionescu G.M., Murzakhmetov S., Mussabayev R., Filatova O., Mukhamediev R. Propaganda Identification Using Topic Modelling // Procedia Computer Science. -2020. -V.178. -P.205-212. https://doi.org/10.1016/j.procs.2020.11.022 (CiteScore Percentile = 69)
  16. Yakunin K., Mukhamediev R., Mussabayev R., Buldybayev T., Kuchin Y., Murzakhmetov S., Yunussov R., Ospanova U. Mass Media Evaluation Using Topic Modelling. In: Alexandrov D.A., Boukhanovsky A.V., Chugunov A.V., Kabanov Y., Koltsova O., Musabirov I. (eds) Digital Transformation and Global Society. DTGS 2020. Communications in Computer and Information Science, 2020, vol 1242. – Springer, Cham, 2020. – P. 165-178. https://doi.org/10.1007/978-3-030-65218-0_13
  17. Seitkali D., Mussabayev R. Using Centroid Keywords and Word Mover’s Distance for Single Document Extractive Summarization // ACM Intern. Conf. Proc. Series, 3rd Inter. Conf. on NLP and Information Retrieval, NLPIR 2019. -Tokushima, Japan, 2019. –P. 149-152 (Scopus)
  18. Amirgaliyev Ye., Minsoo H., Mussabayev T.: The speech signal segmentation algorithm using pitch synchronous analysis. Open Comput. Sci. 7(1): 1-8 (2017)
  19. Захаров В.Н., Мусабаев Р.Р., Красовицкий А.М., Козловская Я.Д., Хорошилов А-р А., Хорошилов А-й А. Метод кластеризации новостных сообщений средств массовой информации на основе их концептуального анализа // Системы и средства информатики, 2019. -Т.29 (3). -С. 52-66 (Входит в перечень ВАК РФ, Импакт-фактор РИНЦ – 0.557).
  20. Красовицкий А.М., Уалиева И.М., Мейрамбеккызы Ж., Мусабаев Р.Р. Lexicon-based approach in generalization evaluation in russian language media // Международный научный журнал «Современные информационные технологии и ИТ образование». -2018. -Т. 14(3). -С. 563-567 (Входит в перечень ВАК РФ, Импакт-фактор РИНЦ – 0.412).
  21. Мухамедиев Р. И., Мусабаев Р. Р., Булдыбаев Т., Кучин Я., Сымагулов А., Оспанова У., Якунин К., Мурзахметов С., Сагындык Б. Эксперименты по оценке средств массовой информации на основе тематической модели корпуса текстов. Cloud of Science. 2020. T. 7. No 1, С. 87-101 (Входит в перечень ВАК РФ, Импакт-фактор РИНЦ – 0.482).
  22. Амиргалиев Е.Н., Мусабаев Р.Р. Один метод модуляции речевого сигнала по амплитуде и его применение в системах синтеза и клонирования речи // Вычислительные технологии. -2010. Том 15 (1). -Новосибирск. -С. 33-39. (Входит в перечень ВАК РФ, Импакт-фактор РИНЦ – 0.611)
  23. Akhmetov I., Krassovitsky A., Ualiyeva I., Gelbukh A., Mussabayev R. An Open-Source Lemmatizer for Russian Language based on Tree Regression Models // Research in Computing Science, – № 149(3). – COMIA 2020. – Mexico. – 2020. – Р. 147–153
  24. M. Kalimoldaev, Ye. Amirgaliev, R. Musabayev. The Method of Speech Signal Intonation Synthesis Based on Spline Approximation // Computer Modeling and New Technologies, 2011. – Vol. 15. – No. 2. – Р. 65-68
  25. Амиргалиев Е.Н., Мусабаев Р.Р. Разработка методов и алгоритмов синтеза речи на примере казахского языка // Математический журнал. -2010. – Том 10. -№3(37). -С.20-28 (Входит в перечень КОКСОН)
  26. Мусабаев Р.Р., Койбагаров К.Ч., Абдрахманов А.Т. Морфологический анализ текстов на казахском языке // Вестник Карагандинского университета №1(69). – 2013.- С. 57-60 (Входит в перечень КОКСОН)
  27. Калимолдаев М.Н., Калдарова Б.С., Мусабаев Р.Р. Применение информационных технологий и семантических сетей в процессе языкового обучения // Вестник КазНПУ (серия “физико-математические науки”). – 2010. -№3(31). С. 99-103 (Входит в перечень КОКСОН)
  28. Калимолдаев М.Н., Калдарова Б.С., Мусабаев Р.Р. Применение речевых человеко-машинных интерфейсов при разработке лингвистических обучающих систем //Вестник КазНПУ (серия “физико-математические науки”). – 2010. -№3(31). С. 103-106 (Входит в перечень КОКСОН)
  29. Якунин К.О., Елис М.С., Мухамедиев Р.И., Мусабаев Р.Р. Тема энергетики в новостных публикациях // Материалы всероссийской научной конференции и XII молодежной школы с международным участием “Возобновляемые источники энергии”. – 2020. -Москва, “Наука”. – C. 451-460.
  30. Козбагаров О.Б., Мусабаев Р.Р. Начальное приближение при поиске оптимального решения в тематическом моделировании как задача матричного разложения // Матер. V межд. науч.-практич. конф. “Информатика и прикладная математика”, – Алматы, Казахстан. – C. 89-100
  31. Якунин К., Красовицкий А.М., Уалиева И.М., Мейрамбеккызы Ж., Мусабаев Р.Р. Анализ новостных тематических трендов в сфере информационной безопасности // Матер. Межд. науч.-практич. конф. «Актуальные проблемы информационной безопасности в Казахстане». – 2020. – Алматы. – С. 247-254.

Авторские свидетельства:

  1. А.с. № 10936. Система для медиа-мониторинга и оценки влияния открытых информационных источников на социум на основе публикуемой текстовой информации Media Analytics / Якунин К., Мухамедиев Р., Мурзахметов С., Кучин Я., Сымагулов А., Бекбағанбетов А.Р., Мусабаев Р.Р. опубл. 17.06.2020. -1 с.
  2. А.с. № 2894. NLP-Preprocessor / Якунин К., Мухамедиев Р., Кучин Я., Мурзахметов С., Сымагулов А., Мустакаев Р., опубл. 18.04.2019. -1 с.
  3. А.с. №4523. Программа мультимодальной оценки СМИ на базе тематической модели корпуса текстов (Multi Modal Mass Media Assesment – M4A)/ Якунин К.О., Мухамедиев Р.И., Кучин Я.И., Мурзахметов С.Б., Сымагулов А., Мусабаев Р.Р.; опубл. 15.07.2019. -1 с.
  4. А.с. № 4505. Программа расчета динамических библиометрических показателей D1 и D2 (Calculation of dynamic scientometric indicators D1, D2 – CalcDStMi)/ Якунин К.О., Мухамедиев Р.И., Кучин Я.И.; опубл. 12.07.2019. – 1с.
  5. А.с. №1605. Морфологический анализатор казахского языка (комплекс программ для ЭВМ) / Койбагаров К.Ч., Мусабаев Р.Р., Калимолдаев М.Н., опубл. 05.12.2013. -1 с.

Монографии:

Мусабаев Р.Р., Мусабаев Т.Р. Автоматический многомодальный анализ и синтез эмоциональной составляющей в речевых аудиовизуальных сигналах // Монография. Алматы: ИИВТ, 2017.– 161 с.

Видео-презентации: