Разработка языконезависимых самообучающихся методов смыслового анализа больших массивов текстовых данных

Информация о проекте

AP09058174 Разработка языконезависимых самообучающихся методов смыслового анализа больших массивов текстовых данных

Научный руководитель: к.т.н. Мусабаев Р.Р.

Исследовательская группа (все до 40 лет)
Мусабаев Р.Р., ВНС, научный руководитель проекта
Ахметов И.Р. , инженер-программист
Айтимов Асхат, инженер-программист
Толеу Алымжан, инженер-программист

Полученные результаты:

Получены следующие основные результаты:

1) Проведено исследование существующих самообучающихся языконезависимых методов для анализа скрытых закономерностей, паттернов и смыслов в анализируемых больших
текстовых данных на основе их группового анализа;

2) Исследован и разработан метод автоматической идентификации оптимального состава
базовых лексических единиц или подсловных единиц для формирования эмбеддингов и решения различных прикладных задач NLP;

3) Получены результаты исследования и разработки новых языконезависимых самообучающихся алгоритмов построения контекстно-зависимых эмбеддингов для слов, предложений и документов на основе методов дистрибутивной семантики в рамках концепции Big Data.

4) Разработан метод автоматической идентификации и самоорганизующейся категоризации смыслов анализируемого языка, представленного большим неразмеченным текстовым корпусом.

5) Разработан метод автоматической идентификации оптимального количества смысловых категорий, представленных в анализируемом текстовом корпусе. 6) Получены результаты по оптимизации разработанных алгоритмов на основе передовых технологий высокопроизводительных вычислений и их инкапсуляция в единую open source библиотеку.

7) Получены результаты исследования применимости современных методов высокопроизводительных вычислений для оптимизации эффективности решения задач векторизации текстов и их совокупного смыслового анализа. 8) Разработана часть функционала open source библиотеки для Python инкапсулирующей разработанные подходы и методы в рамках единого Unsupervised Natural Language Processing Pipeline на основе передовых технологий высокопроизводительных вычислений (HPC).

Полученные результаты обладают новизной, соответствуют текущему уровню научно-технического развития и основаны на последних достижениях в области обработки данных на естественном языке, дистрибутивной семантики.