Проект №AP08855743
Руководитель проекта: Әлімхан Қилан
Наименование темы проекта «Разработка интегральной (end-to-end) системы автоматического распознавания речи для агглютинативных языков»
Актуальность проекта: Предпосылкой к разработке проекта явилась возрастающая потребность со стороны пользо-вателей мобильных устройств и стационарных компьютеров в обеспечении лучшего каче-ства и производительности современных речевых технологий. Ранее авторы данного проек-та проводили исследование и разработали классическую систему распознавания речи. Си-стема состит из нескольких модулей, таких как акустические модели, языковые модели и декодирование. Конструкция данной системы основана на многих независимых предполо-жениях, и даже традиционная акустическая модель обучалась по фреймам, которые зависят от модели Маркова. Классическая система демонстрирует высокую точность распознавания, но при этом состоит из нескольких независимых сложных модулей. Авторами было получе-но авторское свидетельство на программное обеспечение и были опубликованы статьи в высокорейтинговых журналах.
В последнее время наилучшие результаты показали интегральные методы распозна-вания речи с использованием методов машинного обучения. Интегральные модели демон-стрируют наилучшую производительность с точки зрения скорости и точности распознава-ния речи. Применение методов машинного обучения в системах интегрального распознава-ния речи исследовано недостаточно, а для агглютинативных (тюркских) языков фактически не существует качественной системы интегрального распознавания речи с большим слова-рем, таким образом, данное исследование является Ш.
Цель проекта: разработка методов, моделей и программных средств интегральной системы автоматического распознавания речи для агглютинативных (тюркских) языков.
Ожидаемые и достигнутые результаты:
– разработка акустического корпуса для агглютинативных языков на примере казахского и азербайджанского языков,
– расширение существующего речевого корпуса для казахского языка, сбор речевой и текстовой информации для агглютинативных языков, модификация корпуса до нескольких тысяч часов,
– разработка методов и моделей на основе коннекционной временной классификации (Connectionist Temporal Clas-sification) и кодер-декодера (Encoder-Decoder) с использованием механизма внимания и модели на основе условных случайных полей для интегрального подхода для получения первых результатов обучения расширенных корпусов выбранного языка.
– реализация метода трансферного обучения, который помогает приспособить модель, обученная данных на казахском языке к азербайджанскому языку набора данных.
Основные конструктивные и технико-экономические показатели, эффективность: новая технология для распознавания речи, математические модели, алгоритмы и методы для автоматического анализа, синтеза и распознавания речевых сигналов.
Новизна: анализ существующих систем распознавания речи на основе интегральной архитектуры, разработка математических моделей и алгоритмов для решения поставленной задачи по построению интегральной системы автоматического распознавания речи.
Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.
Исследования ведутся согласно утвержденному календарному плану. Во время исследования были опубликованы 2 статьи: на зарубежном конференции и в рецензируемом научном журнале, входящем в SCOPUS и Clerative Analitics.
Публикации:
1) N. Mekebayev, O. Mamyrbayev, D. Oralbekova, M. Tasbolatov. Single Word Speech Recognition using Convolutional CNN Neural Networks // PSYCHOLOGY AND EDUCATION. – 2021. – Vol. 58(2). – P. 10572-10576 (Квартиль – Q4). DOI: https://doi.org/10.17762/pae.v58i2.4033, http://psychologyandeducation.net/pae/index.php/pae/article/view/4033
2) O. Mamyrbayev, D. Oralbekova, A. Kydyrbekova, T. Turdalykyzy and A. Bekarystankyzy. End-to-End Model Based on RNN-T for Kazakh Speech Recognition // 3rd International Conference on Computer Communication and the Internet. – 2021. – P. 163-167 // doi: 10.1109/ICCCI51764.2021.9486811. https://www.scopus.com/record/display.uri?eid=2-s2.0-85112189767&origin=resultslist
Авторское свидетельство №15501. Система автоматического распознавания казахской речи на основе интегральной архитектуры / Мамырбаев О.Ж., Оралбекова Д.О., Кыдырбекова А.С., Жұмажанов Б. Ж., Тұрдалықызы Т; 2021. – 1с.
Члены исследовательской группы
№ |
ФИО |
Идентификаторы |
1. |
Әлімхан Қилан, ГНС |
ORCID: https://orcid.org/0000-0003-0766-2229 Scopus author ID: 8701101900 ResearchGate: https://www.researchgate.net/profile/Keylan-Alimhan |
2. |
Мамырбаев Оркен, СНС |
ORCID: https://orcid.org/0000-0001-8318-3794 Scopus author ID: 55967630400 ResearcherID: O-1265-2017 ResearchGate: |
3. |
Төлеген Гульмира, МНС |
Scopus author ID: 57200276217 ResearchGate: https://www.researchgate.net/profile/Gulmira-Tolegen |
4. |
Кыдырбекова Айзат, НС |
ORCID: https://orcid.org/0000-0001-5740-4100 Scopus author ID: 57208346238 ResearchGate: https://www.researchgate.net/profile/A-Kydyrbekov |
5. |
Оралбекова Дина, МНС |
ORCID: https://orcid.org/0000-0003-4975-6493 Scopus author ID: 57226648854 ResearchGate: https://www.researchgate.net/profile/Dina-Oralbekova-2 |
6. |
Тұрдалықызы Толғанай, инженер-программист |
Scopus author ID: 57208347851 |
7. |
Бекарыстанқызы Ақбаян, МНС |
Scopus author ID: 57226655446 |