Заведующий лабораторией – кандидат технических наук
Мусабаев Рустам Рафикович
+7 777 283 15 33; +7 727 272 03 86
rustam@iict.kz; rmusab@gmail.com
РК, 050010, г.Алматы, ул.Шевченко 28, каб. 320
Спектр исследований, проводимых в лаборатории «Анализа и моделирования информационных процессов» (АМИП) включает разнообразные научные направления в области математической кибернетики, распознавания образов, обработки данных на естественном языке, компьютерной лингвистики, машинного обучения, компьютерного зрения, анализа и синтеза речи и др. Сотрудниками лаборатории получены значимые результаты в научном направлении “Метаэвристические методы комбинаторной и глобальной оптимизации”, такие как разработка численных методов решения задач глобальной оптимизации при кластеризации Big Data.
Научные направления лаборатории АМИП:
В настоящее время в лаборатории «Анализа и моделирования информационных процессов» реализуется проекты, связанные с разработкой информационно-аналитических систем в области медиа-аналитики и оценки медиа-рисков, а также по робастному автоматическому распознаванию речевых сигналов с самообучением.
Ранее в лаборатории АМИП осуществлялась реализация проекта по автоматическому многомодальному анализу и синтезу эмоциональной составляющей в речевых аудиовизуальных сигналах, а также по разработке системы смыслового поиска текстов нового поколения.
В 2012 году группа молодых учёных под руководством заведующего лабораторией АМИП Мусабаева Р.Р. стала обладателем премии имени Д.А. Кунаева для молодых ученых за лучшую работу в области естественных наук.
«Media Analytics» (https://github.com/KindYAK/NLPMonitor) – информационная система для многокритериального анализа текстовой информации представленной в открытых текстовых источниках на основе Big Data технологий для поддержки принятия управленческих решений.
На современном этапе технологического развития общества всё большее социальное значение приобретает цифровая информация, получаемая из различных сетевых информационных источников. Происходит непрерывное увеличение объёмов общедоступной информации. Отдельные индивидуумы и их группы являются как источниками размещаемой в сети информации, так и её потребителями. Сама по себе информация, представленная в сетевых источниках, может иметь различную степень социальной значимости, может оказывать различные влияния, как на отдельные социальные группы, так и на весь социум в целом. В виду этого возникает важная научно-практическая задача, по комплексной оценке, потенциального воздействия различной информации на различные социальные группы или на социум в целом. Целью данной работы являются исследование и разработка различных методик для оценки влияния открытых информационных источников на социум на основе анализа публикуемой текстовой информации и их алгоритмическая реализация в составе соответствующей информационно-аналитической системы.
Архитектура информационной системы
Процесс тематического моделирования
Анализ социальной значимости информации в динамике
Дашборд по анализу тональности публикуемой текстовой информации
Отображение анализируемых показателей на геоинформационной системе
FlakyLib – это Python библиотека семейства алгоритмов k-средних, оптимизированная для кластеризации больших данных. Большинство алгоритмов в FlakyLib распараллелены и оптимизированы для высокопроизводительных вычислений с помощью Numba, которая переводит функции Python в оптимизированный машинный код во время выполнения с использованием стандартной библиотеки компилятора LLVM. Все алгоритмы FlakyLib направлены на решение задачи кластеризации с критерием). Библиотека кластеризации FlakyLib – это мощный инструмент для кластеризации больших данных с использованием высокопроизводительных вычислений и передовых подходов к глобальной оптимизации, таких как поиск с чередующимися окрестностями (VNS – Variable Neighbourhood Search). Библиотека кластеризации FlakyLib – это библиотека с открытым исходным кодом, доступна на https://github.com/R-Mussabayev/flakylib. Различные варианты использования и руководство пользователя можно найти в формате Jupyter notebook: https://github.com/R-Mussabayev/flakylib/blob/master/flakylib_demo.ipynb
Визуализация процесса кластерного анализа
Испытание алгоритма на синтетических наборах данных
Реализованы системы синтеза и распознавания речи, речевые базы данных (БД), инструментарий для автоматического формирования и разметки речевых БД, системы автоматическая обработки текстов на казахском языке. Разработан комплекс программ, реализующий унифицированные методы синтеза речевого сигнала по фонемному тексту применительно к казахскому языку. Построен алгоритм фонетического транскрибирования текстов на казахском языке. Предложен метод фонетико-акустической классификации речевого сигнала, позволяющий унифицировать фонетико-акустическую структуру языка. Создан специализированный язык фонетического представления, который позволяет задавать и описывать фонетические и интонационные формы речи. С его помощью описываются исходные данные модели, что позволяет осуществлять гибкое межсистемное взаимодействие.
Приложение синтеза казахской речи по тексту
Информационная система для формирования просодически размеченного устного корпуса казахского языка
Рустам Мусабаев демонстрирует разработанную технологию 3-х мерного машинного зрения
Список наиболее значимых публикаций
Мусабаев Р.Р., Мусабаев Т.Р. Автоматический многомодальный анализ и синтез эмоциональной составляющей в речевых аудиовизуальных сигналах // Монография. Алматы: ИИВТ, 2017.– 161 с.