«Разработка интегральной (END-TO-END) системы автоматического распознавания речи для агглютинативных языков»

Информация о проекте

Проект №AP08855743

 

Руководитель проекта: Әлімхан Қилан

Наименование темы проекта «Разработка интегральной (end-to-end) системы автоматического распознавания речи для агглютинативных языков»

Актуальность проекта: Предпосылкой к разработке проекта явилась возрастающая потребность со стороны пользо-вателей мобильных устройств и стационарных компьютеров в обеспечении лучшего каче-ства и производительности современных речевых технологий. Ранее авторы данного проек-та проводили исследование и разработали классическую систему распознавания речи. Си-стема состит из нескольких модулей, таких как акустические модели, языковые модели и декодирование. Конструкция данной системы основана на многих независимых предполо-жениях, и даже традиционная акустическая модель обучалась по фреймам, которые зависят от модели Маркова. Классическая система демонстрирует высокую точность распознавания, но при этом состоит из нескольких независимых сложных модулей. Авторами было получе-но авторское свидетельство на программное обеспечение и были опубликованы статьи в высокорейтинговых журналах.

В последнее время наилучшие результаты показали интегральные методы распозна-вания речи с использованием методов машинного обучения.  Интегральные модели демон-стрируют наилучшую производительность с точки зрения скорости и точности распознава-ния речи. Применение методов машинного обучения в системах интегрального распознава-ния речи исследовано недостаточно, а для агглютинативных (тюркских) языков фактически не существует качественной системы интегрального распознавания речи с большим слова-рем, таким образом, данное исследование является Ш.

Цель   проекта: разработка методов, моделей и программных средств интегральной системы автоматического распознавания речи для агглютинативных (тюркских) языков.

Ожидаемые и достигнутые результаты:

– разработка акустического корпуса для агглютинативных языков на примере казахского и азербайджанского языков,

– расширение существующего речевого корпуса для казахского языка, сбор речевой и текстовой информации для агглютинативных языков, модификация корпуса до нескольких тысяч часов,

– разработка методов и моделей на основе коннекционной временной классификации (Connectionist Temporal Clas-sification) и кодер-декодера (Encoder-Decoder) с использованием механизма внимания и модели на основе условных случайных полей для интегрального подхода для получения первых результатов обучения расширенных корпусов выбранного языка.

– реализация метода трансферного обучения, который помогает приспособить модель, обученная данных на казахском языке к азербайджанскому языку набора данных.

Основные конструктивные и технико-экономические показатели, эффективность: новая технология для распознавания речи, математические модели, алгоритмы и методы для автоматического анализа, синтеза и распознавания речевых сигналов.

Новизна: анализ существующих систем распознавания речи на основе интегральной архитектуры, разработка математических моделей и алгоритмов для решения поставленной задачи по построению интегральной системы автоматического распознавания речи.

Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.

Исследования ведутся согласно утвержденному календарному плану. Во время исследования были опубликованы 2 статьи: на зарубежном конференции и в рецензируемом научном журнале, входящем в SCOPUS и Clerative Analitics.

Публикации:

1) N. Mekebayev, O. Mamyrbayev, D. Oralbekova, M. Tasbolatov. Single Word Speech Recognition using Convolutional CNN Neural Networks // PSYCHOLOGY AND EDUCATION. – 2021. – Vol. 58(2). – P. 10572-10576 (Квартиль – Q4). DOI: https://doi.org/10.17762/pae.v58i2.4033, http://psychologyandeducation.net/pae/index.php/pae/article/view/4033

2)  O. Mamyrbayev, D. Oralbekova, A. Kydyrbekova, T. Turdalykyzy and A. Bekarystankyzy. End-to-End Model Based on RNN-T for Kazakh Speech Recognition // 3rd International Conference on Computer Communication and the Internet. – 2021. – P. 163-167 // doi: 10.1109/ICCCI51764.2021.9486811. https://www.scopus.com/record/display.uri?eid=2-s2.0-85112189767&origin=resultslist

Авторское свидетельство №15501. Система автоматического распознавания казахской речи на основе интегральной архитектуры / Мамырбаев О.Ж., Оралбекова Д.О., Кыдырбекова А.С., Жұмажанов Б. Ж., Тұрдалықызы Т; 2021. – 1с.

 

Члены исследовательской группы

ФИО

Идентификаторы

1.    

Әлімхан Қилан, ГНС

ORCID: https://orcid.org/0000-0003-0766-2229

Scopus author ID: 8701101900

ResearchGate:  https://www.researchgate.net/profile/Keylan-Alimhan

2.    

Мамырбаев Оркен, СНС

ORCID: https://orcid.org/0000-0001-8318-3794

Scopus author ID: 55967630400

ResearcherID: O-1265-2017

ResearchGate:

https://www.researchgate.net/profile/Mamyrbayev-Orken

3.    

Төлеген Гульмира, МНС

Scopus author ID: 57200276217

ResearchGate: https://www.researchgate.net/profile/Gulmira-Tolegen

4.    

Кыдырбекова Айзат, НС

ORCID: https://orcid.org/0000-0001-5740-4100

Scopus author ID: 57208346238

ResearchGate: https://www.researchgate.net/profile/A-Kydyrbekov

5.    

Оралбекова Дина, МНС

ORCID: https://orcid.org/0000-0003-4975-6493

Scopus author ID: 57226648854

ResearchGate:  https://www.researchgate.net/profile/Dina-Oralbekova-2

6.    

Тұрдалықызы Толғанай, инженер-программист

Scopus author ID: 57208347851

7.    

Бекарыстанқызы Ақбаян, МНС

Scopus author ID: 57226655446

Скачать (PDF, 2.24MB)