Полученные результаты по темам научных проектов ИИВТ за 2021 год
Приоритет: 3 «Информационные и телекоммуникационные технологии»
Проект № AP09260670
Руководитель проекта: Пак А.А.
Наименование темы проекта: «Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов»
Цель проекта: изучить подходы для улучшения обобщающей силы моделями векторных вложений слов.
Полученные результаты: согласно 1 пункта календарного плана за отчетный период 2021, собран корпус текстов из открытых источников в соответствие со стандартами обучения современных моделей глубокого обучения, а именно
1) корпус покупательских рецензий на русском языке с онлайн магазина банка Kaspi.
2) корпус научных статей с открытых источников и open-access журналов, их метаданных и дополнительных сведений, необходимых для построения графа цитирований.
3) корпус научных статей расширен за счет объединения с общедоступными данными ACL Antology.
Таким образом, настоящий корпус предназначен для тестирования методов аугментации данных на двух языках, а именно русском и английском.
Далее согласно 2 пункта календарного плана за отчетный период 2021, сделан обзор существующих методов обогащения текстовых данных экстралингвистической информацией, а также методов генерации синтетических текстовых данных. Результаты обзора опубликованы в отечественных и зарубежных научных изданиях.
Согласно 3 пункта календарного плана за отчетный период 2021, протестированы и созданы методы и алгоритмы, а также комплекс программ для обогащения корпусов дополнительной информацией. Действительно, был разработан алгоритм обогащения текстовых данных за счет нового функционала обучения Citation Prediction (CP) в модели Bidirectional Transformers for Language Understanding (BERT) на примере корпуса научных статей, а также были протестированы существующие методы аугументации текстовых данных на примере корпуса покупательских рецензий. Издана 1 публикация статьи в отечественном журнале с ненулевым импакт фактором.
Новизна: впервые протестированы 1) гипотеза аугментации нейросетевой языковой модели (BERT) за счет ссылочной структуру научных публикаций, а также 2) гипотеза аугментации русскоязычных текстов прямыми методами обработки естественного языка на примере корпуса покупательских реценьзий онлайн магазина банка Kaspi.
Область применения: корпус покупательских рецензий можно будет применить для решения задач обработки естественного языка в приложении к задаче анализа тональности, корпус научных публикаций можно применить для разработки решений современных проблем наукометрии.
Практическая значимость продиктована возрастающая потребность со стороны интернет-пользователей, бизнеса, государства и других социальных структур к качеству и скорости обработки больших текстовых данных. Важность настоящего проекта обусловлена повышением обобщающей способности векторных вложений слов для таких отношений как гипоним-гипероним, мероним-холоним, а также разрешения между синонимами, омонимами, ко-гипонимами. Дополнительный интерес представляет создание методов и алгоритмов генерации синтетических данных для обучения и тестирования моделей векторизации слов.
Значительный социальный спрос на технологию аугументации наблюдается среди компаний пользователей информационных систем, содержащих в своей структуре компоненты обработки естественного языка, например, систем мониторинга общественного мнения, спам-фильтры, информационного поиска, извлечения информации и структуризации текстов, квазиреферирования и других. Положительная экономическая заинтересованность будет обусловлена созданием нового рынка в сфере систем обработки естественного языка, а также стимулированием повышения спроса на существующем рынке для технологий обработки малоресурсных языков.
Конечной целью является создание эффективного подхода и программных средств для повышения качества систем обработки естественного языка.
Исследования ведутся согласно утвержденному календарному плану (Приложение А). Во время исследования были опубликованы 2 статьи: в рецензируемом отечественном издании, рекомендованном КОКСОН (Приложения Б), а также приняли участие в 1 международной конференции и 1 отечественной конференции, результаты участия отражены в публикациях.
Данный промежуточный отчет является продолжением Отчета по теме «Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов» с инвентарным № за 2021 год.