enrukz
enrukz

Проект: №AP05131207 Разработка технологии мультиязычного автоматического распознавания речи с использованием глубоких нейронных сетей (2018-2020)

Цель проекта:

Повышение точности мультиязычного распознавания речи за счет применения искусственных нейронных сетей на этапе акустического и языкового моделирования.

Задачи исследования:

  • Аналитический обзор развития в области распознавания речи;
  • Разработка и проектирование речевого и текстового корпуса для русского и казахского языков;
  • Разработка акустических и языковых моделей с использованием искусственных нейронных сетей;
  • Разработка и тестирование мультиязычной системы автоматического распознавания речи.

Актуальным для решения различных производственно-хозяйственных задач является развитие технологий мультиязычного автоматического распознавания речи и применение искусственных нейронных сетей для глубокого обучения.

Научная значимость планируемых исследований заключается в развитии методов распознавания и глубокого обучения. Планируется проведение комплексного исследования существующих методов распознавания и искусственных нейронных сетей с последующим выбором наиболее эффективных методов применительно к мультиязычному автоматическому распознаванию речи. Исследования будут ориентированы на интеллектуализацию процесса распознавания в целом с применением глубоких нейросетевых алгоритмов, скрытых марковских моделей, алгоритмов распознавания речи.

В качестве социально-экономического эффекта в процессе реализации проекта ожидаются в повышении качества и в увеличении степени адаптации современных речевых технологий к национальным языкам. Как следствие, будет происходить большее внедрение речевых технологий в повседневную жизнь людей, что в свою очередь приведёт к увеличению их качества жизни (это особенно важно для людей с ограниченными возможностями в развивающихся странах).

Конечной целью создания мультиязычного автоматического распознавания речи с использованием глубоких нейронных сетей, способной распознавать речь в акустическом сигнале с эффективностью, не меньшей по сравнению с аналогичной способностью человека. В ходе развития науки и техники в сфере разработки системы мультиязычного автоматического распознавания речи наблюдается значительный прогресс. Размер корпуса вырос до 2000 часов.

Новизна:

Анализ существующих систем распознавания речи, а также в разработка математических моделей и алгоритмов для решения поставленной задачи по разработке технологии мультиязычного автоматического распознавания речи.

Область применения:

Государственные структуры, ответственные за расширение области применения национальных языков на базе информационных технологий; производители мобильных телефонов (увеличение числа потенциальных покупателей за счёт внедрения речевых технологий на национальных языках); сотовые операторы и банки (call-центры с поддержкой голосовых функций, голосовая аутентификация); сектор производства различных устройств с поддержкой голосовых функций (“говорящие” книги, говорящие игрушки, устройства для “умного дома”).

Внедрение:

Результаты проекта были внедрены в ТОО «Национальный инновационный центр».

Публикации:

  1. Kalimoldayev M., Mamyrbayev O., Mekebayev N., Kydyrbekova A. Algorithms for detection gender using neural networks // International Journal of Circuits, Systems and Signal. – 2020. – № 14. – P. 154 – 159 (Scopus).
  2. Orken Mamyrbayev, Keylan Alimhan, Bagashar Zhumazhanov, Tolganay Turdalykyzy, Farida Gusmanova End-to-End Speech Recognition in Agglutinative Languages // ACIIDS. – 2020. – Р. 391-402 // https://doi.org/10.1007/978-3-030-42058-1_33 (Scopus and Web of Science IF – 0.3, Q4).
  3. Keylan Alimhan, Orken Mamyrbayev, Aigerim Erdenova, Almira Akmetkalyeva Global output tracking by state feedback for high-order nonlinear systems with time-varying delays // Cogent Engineering. – 2020. – № 7 (1711676). – P. 1 – 13 // https://doi.org/10.1080/23311916.2020.1711676 (Scopus, Процентил – 76).
  4. Orken Mamyrbayev, Alymzhan Toleu, Gulmira Tolegen, Nurbapa Mekebayev Neural architectures for gender detection and speaker identification // Cogent Engineering. – 2020. – № 7 (1727168). – P. 1 – 13 // https://doi.org/10.1080/23311916.2020.1727168 (Scopus, Процентиль – 76).
  5. Kydyrbekova Aizat, Othman Mohamed, Mamyrbayev Orken, Akhmediyarova Ainur, Bagashar Zhumazhanov Identification and authentication of user voice using DNN features and i-vector // Cogent Engineering. – 2020. – № 7 (1751557). – P. 1–21 // https://doi.org/10.1080/23311916.2020.1751557 (Scopus, Процентиль – 76).
  6. Orken Zh. Mamyrbayev, Keylan Alimhan, Beibut Amirgaliyev, Bagashar Zhumazhanov, Dinara Mussayeva, Farida Gusmanova Multimodal systems for speech recognition // Int. J. Mobile Communications. -2020. – Vol. 18, № 3. – P. 314 – 326. (Web of Science IF – 1.3, Q3)
  7. М.Н. Қалимолдаев, О.Ж. Мамырбаев, Н.О. Мекебаев, М. Тұрдалыұлы Машиналық оқытуды қолдануда дауыстың гендерлік жіктелінуі // ҚазҰТЗУ хабаршысы. -2019. – № 6 (136). – Б. 229 – 233.
  8. О. Мамырбаев, А. Шаяхметова, А. Кыдырбекова, М. Турдалыулы Интегральный подход распознавания речи для агглютинативных языков // Вестник Алматинского университета энергетики и связи. – 2020. – № 1 (48). – С. 93 – 102.
  9. Мамырбаев О.Ж., Othman M., Ахмедиярова А.Т., Кыдырбекова А.С. Конфиденциальность и безопасность организации от инсайдерских атак, с использованием голосовой биометрики // Научные тенденции: Вопросы точных и технических наук. Сб. научных трудов по матер. XXVIII междунар. науч. конф. – СПб, 2020. – С. 15 – 22.
  10. Mamyrbayev O., Akhmediyarova A., Kydyrbekova A., Short-term voice verification of the i-vector // Матер. науч. конф. ИИВТ МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2020. – С. 9-13.
  11. Mamyrbayev O., Oralbekova D. Modern trends in the development of speech recognition systems // News of the National academy of sciences of the republic of Kazakhstan. – 2020. – Vol. 4, № 332. – P. 42 – 51 // doi.org/10.32014/2020.2518-1726.64
  12. Mamyrbayev O., Turdalyuly M., Mekebayev N., Alimhan K., Kydyrbekova A., Turdalykyzy T. Automatic Recognition of Kazakh Speech Using Deep Neural Networks // ACIIDS. – 2019. – Р. 465-474. https://doi.org/10.1007/978-3-030-14802-7_40 (Scopus).
  13. Alimhan K., Kalimoldayev M.N., Adamov A.A., Mamyrbayev O., Tasbolatuly N., Smolarz A. Further Results on Output Tracking for a Class of Uncertain High-Order Nonlinear Time-Delay Systems // Przegląd Elektrotechniczny. – 2019. – № 9 (5). – P. 88 – 91.
  14. Mamyrbayev O., Tudalyuly M., Mekebayev N., Mukhsina K.,  Keylan A., BabaAli B., Nabieva G., Duisenbayeva A., Akhmetov B. Continuous Speech Recognition of Kazakh Language // International Conference on Applied Mathematics, Computational Science and Systems Engineering. – Italy, 2019. – V. 24.
  15. Mamyrbayev O., Mekebayev N., Turdalyuly M., Oshanova N., Medeni T.I., Yessentay A. Voice Identification Using Classification Algorithms // Intelligent System and Computing. IntechOpen, DOI: 10.5772/intechopen.88239.– 2019.
  16. Мамырбаев О.Ж., Мекебаев Н.О., Тұрдалыұлы М., Ахметов И. MFCC негізіндегі дикторды анықтау жүйесі // ҚазҰТЗУ хабаршысы. – 2019. – № 2. – Б. 155-160.
  17. Мамырбаев О.Ж., Кыдырбекова А.С., Тұрдалыұлы М., Мекебаев Н.О. Обзор методов идентификации и аутентификации пользователей по голосу // Матер. науч. конф. ИИВТ КН МОН РК «Инновационные IT и Smart-технологии», посв. 70-летнему юбилею проф. Утепбергенова И.Т. – Алматы, 2019. – Б. 315-321.
  18. Қалимолдаев М.Н., Мамырбаев О.Ж., Мекебаев Н.О., Тұрдалыұлы М. Машиналық оқуды қолдануда дауыстың гендерлік жіктелінуі // Матер. науч. конф. ИИВТ МОН РК «Современные проблемы информатики и вычислительных технологий». – Алматы, 2019. – С. 51-57.
  19. Мамырбаев О.Ж., Тұрдалыұлы М., Мекебаев Н.О., Тұрдалықызы Т., Шаяхметова А.С. Автоматическое распознавание казахской речи с использованием DNN // Вестник КБТУ. – 2019. – № 2 (49). – С. 134-142.
  20. Мамырбаев О.Ж., Кыдырбекова А.С., Ахмедиярова А.Т., Тұрдалыұлы М., Мекебаев Н.О. Систематический обзор и анализ особенностей идентификации по голосу // Вестник КБТУ. – 2019. – № 2 (49). – С. 120-133.
  21. Мамырбаев О.Ж., Тұрдалықызы Т., Тұрдалыұлы М. Сөйлеуді танудың әлі шешілмеген мәселелері // Матер. IV междунар. науч.-практ. конф. «Информатика и прикладная математика», посв. 70-летнему юбилею проф. Биярова Т.Н., В. Вуйцика и 60-летию проф. Амиргалиева Е.Н. – Алматы, 2019. – Б. 91 – 94.
  22. Мамырбаев О.Ж., Тұрдалықызы Т., Тұрдалыұлы М. Идентификация диктора используя MFFC // Матер. IV междунар. науч.-практ. конф. «Информатика и прикладная математика», посв. 70-летнему юбилею проф. Биярова Т.Н., В.Вуйцика и 60-летию проф. Амиргалиева Е.Н. – Алматы, 2019. – Б. 384 – 392.
  23. Bagher BabaAli, Waldemar Wojcik, Oken Mamyrbayev, Mussa Turdalyuly, Nurbapa Mekebayev. Speech Recognizer-Based Non-Uniform Spectral Compression for Robust MFCC Feature Extraction // Przeglad Elektrotechniczny. – 2018. – № 6 (94). – P. 90-93.
  24. Мамырбаев О.Ж. , Мекебаев Н.О., Тұрдалыұлы М. Сөйлеулерді тану үрдісінде MFCC алгоритмін қолдану // ҚазҰТЗУ хабаршысы. – 2018. – № 2 (126). – Б. 389-392.
  25. Мамырбаев О.Ж., Мекебаев Н.О., Тұрдалыұлы М. Генетикалық алгоритм көмегімен сөйлеуді автоматты танудағы гендерлік сәйкестендіру // Алматы энергетика және байланыс университетінің хабаршысы. – 2018. – спец. вып. – Б. 120-129.
  26. Мамырбаев О.Ж., Тұрдалыұлы М., Мекебаев Н.О. Система распознавания слитной казахской речи на основе глубоких нейронных сетей // Вестник Алматинского университета энергетики и связи. – 2018. – спец. вып. – С. 130-135.
  27. Мамырбаев О.Ж., Турдалыулы М., Мекебаев Н.О., Алимхан К., Набиева Г.С., Мамырбаев Б.Ж. Фонетически представительный текст для создания систем автоматического распознавания казахской речи // Наука и Мир. – 2018. – Т. 2, № 6 (58). – С. 49-52.

Авторские свидетельства:

  1. А.с. № 1425 System of automatic creation vocabulary for ASR / Мамырбаев О.Ж., Тұрдалыұлы М., Мекебаев Н.О., Сейтқали Б.Н., Дуйсенбаева А.Ж. 22.01.2019.
  2. А.с. № 7844. Мультиязычное распознавание речи MultiSpeech Мамырбаев / О.Ж., Тұрдалыұлы М., Тұрдалықызы Т., Кыдырбекова А.С., Мекебаев Н.О., Сейтқали Б., Ахметов Б.С. 2020. – 1с.

Монографии:

Мамырбаев Ө.Ж. Қазақ ауызекі сөйлеуін автоматты өңдеу: Монография. – ҚР БҒМ ҒК Ақпараттық және есептеуіш технологиялар институты. – 2020. – 142 б.

Книги:

1 Мамырбаев О.Ж., Кыдырбекова А.С., Тұрдалыұлы М., Мекебаев Н.О. Методы и модели автоматического распознавания речи. – Институт информационных и вычислительных технологий КН МОН РК. – 2020. – 210 с.

2 Мамырбаев О.Ж., Кыдырбекова А.С., Тұрдалыұлы М., Жумажанов Б.Ж., Мекебаев Н.О. Автоматическое распознавание речи. – Институт информационных и вычислительных технологий КН МОН РК. – 2020. – 104 с.

Полученные результаты:

– мультиязычный корпус казахского и русского языков;

– методы предварительной обработки речевых сигналов, акустические и языковые модели, автоматический транскриптор;

– мультиязычная система автоматического распознавания речи.