kzruen

Проект: №AP08855743 Разработка интегральной (END-TO-END) системы автоматического распознавания речи для агглютинативных языков (2020-2022)

Цель проекта:

Разработка методов, моделей и программных средств интегральной системы автоматического распознавания речи для агглютинативных (тюркских) языков.

Основные конструктивные и технико-экономические показатели, эффективность: новая технология для распознавания речи, математические модели, алгоритмы и методы для автоматического анализа, синтеза и распознавания речевых сигналов.

Новизна: анализ существующих систем распознавания речи на основе интегральной архитектуры, разработка математических моделей и алгоритмов для решения поставленной задачи по построению интегральной системы автоматического распознавания речи.

Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.

Задачи проекта:

  1. Разработка акустического корпуса для агглютинативных (тюркских) языков на примере казахского и азербайджанского языков. В данной задаче планируется расширить существующий речевой корпус, собрать речевую и текстовую информацию для агглютинативного языка,   добавить   данные   для   модификации  корпуса  до   нескольких тысяч часов;
  2. Будут разработаны три вида моделей для интегральной системы: распознавание речи на основе коннекционной временной классификации (Connectionist Temporal Classification); модель кодер-декодер (Encoder-Decoder) распознавания речи с использованием механизма внимания и применение техники стабилизации и регуляризации нейронных сетей, аугментации данных для обучения, установки частей слов в качестве выхода нейронной сети; реализация модели условных случайных полей (Conditional Random Field) для распознавания речи;
  3. Будет реализовыван метод трансферного обучения (transfer learning), который поможет приспособить модели, обученные данным на казахском языке, к азербайджанскому языку набора данных;
  4. Будут разработаны правила транскрибирования слов казахского и азербайджанского языков для системы автоматического транскриптора.
  5. С помощью полученных в ходе исследования моделей и методов будут разработаны эффективный алгоритм и программные средства для интегрального распознавания агглютинативных (тюркских) языков на примере казахского и азербайджанского языков.

Основной проблемой, которая возникнет при решении поставленных задач, является обучение искусственных нейронных сетей на больших объемах данных. Для сокращения времени обучения искусственных нейронных сетей будут использованы высокопроизводительные вычисления на графических процессорах.

Практическая значимость:

Практическая значимость проекта в национальном и международном масштабе состоит в реализации интегральной (end-to-end) системы автоматического распознавания речи с использованием методов машинного обучения, а также в разработке новых математических моделей и алгоритмов для решения задачи по разработке новой технологии автоматического распознавания речи для агглютинативных языков на примере казахского и азербайджанского языков. Данная система распознавания речи может быть использована для голосового машинного казахского-азербайджанского перевода.

Значительный социальный спрос на технологию высококачественного распознавания речи по голосу наблюдается среди слабовидящих и незрячих людей и часто встречается в мобильных и бытовых приложениях голосового управления. Положительная экономическая заинтересованность будет обусловлена созданием нового рынка в сфере распознавания речи, также стимулированием повышения спроса на существующем рынке речевых технологий малоресурсных языков.

Конечной целью является создание эффективного алгоритма, метода и программных средств для интегрального распознавания агглютинативных языков.

Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.

Публикации:

  1. Д.О. Оралбекова, О.Ж. Мамырбаев. Современные методы распознавания речи. Новости науки Казахстана. № 1 (148). 2021, с. 20-35
  2. Ө.Ж. Мамырбаев, А.С. Кыдырбекова, Б.Ж. Жумажанов, Д.О. Оралбекова. Распознавание голоса с использованием x-векторов. Вестник Алматинского университета энергетики и связи № 1 (52) 2021. с. 69-77
  3. Авторское свидетельство “Система автоматического распознавания казахской речи на основе интегральной архитектуры” № 15501 от 25.02.2021. Авторы: О.Ж. Мамырбаев, Д.О. Оралбекова, А.С. Кыдырбекова, Б.Ж. Жумажанов, Т.Тұрдалықызы.
  4. Мамырбаев О.Ж., Оралбекова Д.О., Кыдырбекова А.С., Жумажанов Б.Ж. , Тұрдалықызы Т. Интегральная гибридная модель на основе СТС и механизма внимания для распознавания казахской слитной речи. Международная научно-практическая конференция “Сатпаевские чтения – 2021” Труды сатпаевских чтений “Сатпаевские чтения – 2021”, Том 2, Алматы, стр. 48-52
  5. O. Mamyrbayev, D. Oralbekova, A. Kydyrbekova, T. Turdalykyzy and A. Bekarystankyzy, “End-to-End Model Based on RNN-T for Kazakh Speech Recognition,” 2021 3rd International Conference on Computer Communication and the Internet (ICCCI), 2021, pp. 163-167, doi: 10.1109/ICCCI51764.2021.9486811.
  6. Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., Nuranbayeva, B. (2021). Development of security systems using DNN and i & x-vector classifiers. Eastern-European Journal of Enterprise Technologies, 4 (9 (112)), 32–45. doi: https://doi.org/10.15587/1729-4061.2021.239186
  7. Мамырбаев О.Ж., Оралбекова Д.О., Othman M., Тулендиев Д.М., Жумажанов Б., Турдалыкызы Т. Распознавание казахской речи на основе интегральной модели RNN-T. VІ Международная научно-практическая конференция “Информатика и прикладная математика. 29 сентября – 1 октября 2021 г., Алматы, Казахстан. C.322-327
  8. Мамырбаев О.Ж., Оралбекова Д.О., Othman M., Тулендиев Д.М., Жумажанов Б., Турдалыкызы Т. Исследование интегральной модели на основе внимания для автоматического распознавания казахской речи. Материалы Международной научной конференции в области информационных технологий, посвященной 75-летию профессора У.А. Тукеева. 8 октября 2021 г., Алматы, Казахстан. C.86-89
  9. Mahambetova, U., Estemesov, Z., Nuranbayeva, B., Sadykov, P., Mamyrbayev, O., & Oralbekova, D. (2021). Development and research of the influence of the composition and concentration of activators on the strength of phosphorus slag binders. Eastern-European Journal of Enterprise Technologies, 5(6 (113), 54–61. https://doi.org/10.15587/1729-4061.2021.242814
  10. Mamyrbayev O., Oralbekova D., Alimhan K., Othman M., Zhumazhanov B. Realization of online systems for automatic speech recognition// News of the National academy of sciences of the republic of Kazakhstan. – 2021. – Vol. 6, № 340. – P. 66 – 72 // doi.org/10.32014/2020.2518-1726.64
  11. Mamyrbayev, O., Alimhan, K., Oralbekova, D., Bekarystankyzy, A., & Zhumazhanov, B. (2022). Identifying the influence of transfer learning method in developing an end-to-end automatic speech recognition system with a low data level. Eastern-European Journal of Enterprise Technologies, 1(9(115), 84–92. https://doi.org/10.15587/1729-4061.2022.252801
  12. О.Ж. Мамырбаев, Д.О. Оралбекова, K. Алимхан, M. Othman, Б. Жумажанов. Применение гибридной интегральной модели для распознавания казахской  речи// News of the National academy of sciences of the republic of Kazakhstan. – 2022. – Vol. 1, № 341. – P. 58 – 68 // doi.org/10.32014/2022.2518-1726.117

Авторские свидетельства:

  1. Авторское свидетельство “Система автоматического распознавания казахской речи на основе интегральной архитектуры” № 15501 от 25.02.2021. Авторы: О.Ж. Мамырбаев, Д.О. Оралбекова, А.С. Кыдырбекова, Б.Ж. Жумажанов, Т.Тұрдалықызы.
  2. Авторское свидетельство “Система идентификации и аутентификации через речевые технологии” № 23323 от 04.02.2022. Авторы: Оралбекова Д.О., Мамырбаев О.Ж., Алимхан К., Кыдырбекова А.С., Жумажанов Б.Ж., Турдалыкызы Т.
  3. Авторское свидетельство “Система автоматического распознавания казахской слитной речи на основе модели с механизмом внимания” №24178 от 5.03.2022. Авторы: Мамырбаев О.Ж., Оралбекова Д.О., Әлімхан Қ., Кыдырбекова А.С., Жұмажанов Б.Ж., Тұрдалықызы Т.

Монографии:

Мамырбаев О.Ж., Кыдырбекова А.С., Оралбекова Д.О., Жумажанов Б.Ж., Бекарыстанкызы А. Разработка интегральной системы автоматического распознавания речи для агглютинативных языков. – Институт информационных и вычислительных технологий КН МОН РК. – 2022. – 104 с.

Полученные результаты:

– акустический корпус для агглютинативных языков на примере казахского и азербайджанского языков,

– расширение существующего речевого корпуса для казахского языка,

– сбор речевой и текстовой информации для агглютинативных языков, модификация корпуса до нескольких тысяч часов,

– разработка методов и моделей на основе СТС и кодер-декодер с механизмом внимания.