Разработка методов, моделей и программных средств интегральной системы автоматического распознавания речи для агглютинативных (тюркских) языков.
Основные конструктивные и технико-экономические показатели, эффективность: новая технология для распознавания речи, математические модели, алгоритмы и методы для автоматического анализа, синтеза и распознавания речевых сигналов.
Новизна: анализ существующих систем распознавания речи на основе интегральной архитектуры, разработка математических моделей и алгоритмов для решения поставленной задачи по построению интегральной системы автоматического распознавания речи.
Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.
Основной проблемой, которая возникнет при решении поставленных задач, является обучение искусственных нейронных сетей на больших объемах данных. Для сокращения времени обучения искусственных нейронных сетей будут использованы высокопроизводительные вычисления на графических процессорах.
Практическая значимость проекта в национальном и международном масштабе состоит в реализации интегральной (end-to-end) системы автоматического распознавания речи с использованием методов машинного обучения, а также в разработке новых математических моделей и алгоритмов для решения задачи по разработке новой технологии автоматического распознавания речи для агглютинативных языков на примере казахского и азербайджанского языков. Данная система распознавания речи может быть использована для голосового машинного казахского-азербайджанского перевода.
Значительный социальный спрос на технологию высококачественного распознавания речи по голосу наблюдается среди слабовидящих и незрячих людей и часто встречается в мобильных и бытовых приложениях голосового управления. Положительная экономическая заинтересованность будет обусловлена созданием нового рынка в сфере распознавания речи, также стимулированием повышения спроса на существующем рынке речевых технологий малоресурсных языков.
Конечной целью является создание эффективного алгоритма, метода и программных средств для интегрального распознавания агглютинативных языков.
Область применения: корпус можно будет применить для решения задачи идентификации диктора, идентификации языка и многих подзадач распознавания речи, а также при разработке искусственного интеллекта.
Мамырбаев О.Ж., Кыдырбекова А.С., Оралбекова Д.О., Жумажанов Б.Ж., Бекарыстанкызы А. Разработка интегральной системы автоматического распознавания речи для агглютинативных языков. – Институт информационных и вычислительных технологий КН МОН РК. – 2022. – 104 с.
– акустический корпус для агглютинативных языков на примере казахского и азербайджанского языков,
– расширение существующего речевого корпуса для казахского языка,
– сбор речевой и текстовой информации для агглютинативных языков, модификация корпуса до нескольких тысяч часов,
– разработка методов и моделей на основе СТС и кодер-декодер с механизмом внимания.