AP09058174 Разработка языконезависимых самообучающихся методов смыслового анализа больших массивов текстовых данных
Научный руководитель: к.т.н. Мусабаев Р.Р.
Исследовательская группа (все до 40 лет)
Мусабаев Р.Р., ВНС, научный руководитель проекта
Ахметов И.Р. , инженер-программист
Айтимов Асхат, инженер-программист
Толеу Алымжан, инженер-программист
Полученные результаты:
Получены следующие основные результаты:
1) Проведено исследование существующих самообучающихся языконезависимых методов для анализа скрытых закономерностей, паттернов и смыслов в анализируемых больших
текстовых данных на основе их группового анализа;
2) Исследован и разработан метод автоматической идентификации оптимального состава
базовых лексических единиц или подсловных единиц для формирования эмбеддингов и решения различных прикладных задач NLP;
3) Получены результаты исследования и разработки новых языконезависимых самообучающихся алгоритмов построения контекстно-зависимых эмбеддингов для слов, предложений и документов на основе методов дистрибутивной семантики в рамках концепции Big Data.
4) Разработан метод автоматической идентификации и самоорганизующейся категоризации смыслов анализируемого языка, представленного большим неразмеченным текстовым корпусом.
5) Разработан метод автоматической идентификации оптимального количества смысловых категорий, представленных в анализируемом текстовом корпусе. 6) Получены результаты по оптимизации разработанных алгоритмов на основе передовых технологий высокопроизводительных вычислений и их инкапсуляция в единую open source библиотеку.
7) Получены результаты исследования применимости современных методов высокопроизводительных вычислений для оптимизации эффективности решения задач векторизации текстов и их совокупного смыслового анализа. 8) Разработана часть функционала open source библиотеки для Python инкапсулирующей разработанные подходы и методы в рамках единого Unsupervised Natural Language Processing Pipeline на основе передовых технологий высокопроизводительных вычислений (HPC).
Полученные результаты обладают новизной, соответствуют текущему уровню научно-технического развития и основаны на последних достижениях в области обработки данных на естественном языке, дистрибутивной семантики.