«Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов»

Информация о проекте

Полученные результаты по темам научных проектов ИИВТ за 2021 год

Приоритет: 3 «Информационные и телекоммуникационные технологии»

Проект № AP09260670

Руководитель проекта: Пак А.А.

Наименование темы проекта: «Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов»

Цель   проекта: изучить подходы для улучшения обобщающей силы моделями векторных вложений слов.

Полученные результаты: согласно 1 пункта календарного плана за отчетный период 2021, собран корпус текстов из открытых источников в соответствие со стандартами обучения современных моделей глубокого обучения, а именно

1) корпус покупательских рецензий на русском языке с онлайн магазина банка Kaspi.

2) корпус научных статей с открытых источников и open-access журналов, их метаданных  и дополнительных сведений, необходимых для построения графа цитирований.

3) корпус научных статей расширен за счет объединения с общедоступными данными ACL Antology.

Таким образом, настоящий корпус предназначен для тестирования методов аугментации данных на двух языках, а именно русском и английском.

Далее согласно 2 пункта календарного плана за отчетный период 2021, сделан обзор существующих методов обогащения текстовых данных экстралингвистической информацией, а также методов генерации синтетических текстовых данных. Результаты обзора опубликованы в отечественных и зарубежных научных изданиях.

Согласно 3 пункта календарного плана за отчетный период 2021, протестированы и созданы методы и алгоритмы, а также комплекс программ для обогащения корпусов дополнительной информацией. Действительно, был разработан алгоритм обогащения текстовых данных за счет нового функционала обучения Citation Prediction (CP) в модели Bidirectional Transformers for Language Understanding (BERT) на примере корпуса научных статей, а также были протестированы существующие методы аугументации текстовых данных на примере корпуса покупательских рецензий. Издана 1 публикация статьи в отечественном журнале с ненулевым импакт фактором.

Новизна: впервые протестированы 1) гипотеза аугментации нейросетевой языковой модели (BERT) за счет ссылочной структуру научных публикаций, а также 2) гипотеза аугментации русскоязычных текстов прямыми методами обработки естественного языка на примере корпуса покупательских реценьзий онлайн магазина банка Kaspi.

Область применения: корпус покупательских рецензий можно будет применить для решения задач обработки естественного языка в приложении к задаче анализа тональности, корпус научных публикаций можно применить для разработки решений современных проблем наукометрии.

Практическая значимость продиктована возрастающая потребность со стороны интернет-пользователей, бизнеса, государства и других социальных структур к качеству и скорости обработки больших текстовых данных. Важность настоящего проекта обусловлена повышением обобщающей способности векторных вложений слов для таких отношений как гипоним-гипероним, мероним-холоним, а также разрешения между синонимами, омонимами, ко-гипонимами. Дополнительный интерес представляет создание методов и алгоритмов генерации синтетических данных для обучения и тестирования моделей векторизации слов.

  

Значительный социальный спрос на технологию аугументации наблюдается среди компаний пользователей информационных систем, содержащих в своей структуре компоненты обработки естественного языка, например, систем мониторинга общественного мнения, спам-фильтры, информационного поиска, извлечения информации и структуризации текстов, квазиреферирования и других. Положительная экономическая заинтересованность будет обусловлена созданием нового рынка в сфере систем обработки естественного языка, а также стимулированием повышения спроса на существующем рынке для технологий обработки малоресурсных языков.

Конечной целью является создание эффективного подхода и программных средств для повышения качества систем обработки естественного языка.

Исследования ведутся согласно утвержденному календарному плану (Приложение А). Во время исследования были опубликованы 2 статьи: в рецензируемом отечественном издании, рекомендованном КОКСОН (Приложения Б), а также приняли участие в 1 международной конференции и 1 отечественной конференции, результаты участия отражены в публикациях.

Данный промежуточный отчет является продолжением Отчета по теме «Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов» с инвентарным № за 2021 год.

  1. Пак А.А.,Жұмагелдіқызы А., Ермекова Н.С. A review: methods of automatic speech segmentation //ВЕСТНИК КБТУ. – 2021. – Т. 18. – №. 2.
  2. Джаксылыкова А., Ахметов И., Кельсингазин Е. SENTIMENT ANALYSIS OF KASPI PRODUCT REVIEWS //Известия НАН РК. Серия физико-математических наук. – 2021. – №. 5. – С. 68-73.
  3. Еленов А., Джаксылыкова А. SCIENTIFIC NAMED ENTITY RECOGNITION WITH THE HELP OF MODERN METHODS //«Физико-математические науки». – 2021. – Т. 75. – №. 3. – С. 94-99.