kzruen

Ғылыми жоба: №AP08855743 Машиналық оқыту әдістерін пайдалана отырып, сөйлеуді автоматты танудың интегралды (end-to-end) жүйесін құру (2020-2022)

Жобаның мақсаты:

Агглютинативті тілдер үшін сөйлеуді автоматты танудың инте-гралды жүйесіне арналған әдістер, модельдер мен бағдарламалық құралдар әзірлеу болып табылады..

Негізгі құрылымдық және техникалық-экономикалық көрсеткіштер, тиімділік: сөйлеуді танудың жаңа технологиясы, математикалық модельдер, сөйлеу сигналдарын Автоматты талдау, синтездеу және тану алгоритмдері мен әдістері.

Жобаның ғылыми жаңалығы агглютинативті тілдер үшін сөйлеуді интегралды танудың жаңа технологиясын әзірлеу бойынша міндеттерді шешуге арналған математикалық модельдер және алгоритмдер,  бағдарламалық құралдардың қолданыстағыларын зерттеу мен жаңаларын құрудан тұрады. Бұл жобаның алдыңғы зерттеулерден елеулі ерекшелігі сөйлеу технологиялары саласындағы міндеттерді шешу үшін сөйлеу танудың интегралды технологиясын құруға бағытталған кешенді және жалпылама сипатқа ие болып табылатындығы.

Қолдану саласы: корпусты дикторларды анықтау, тілді анықтау және сөйлеуді танудың көптеген ішкі мәселелерін шешу үшін, сондай-ақ жасанды интеллектті дамыту кезінде қолдануға болады.

Жоба міндеттері:

  1. Жобаны іске асырудың бастапқы кезеңінде қазақ және әзірбайжан тілдері мысалында агглютинативтік тілдер үшін акустикалық корпус құрылады. Бұл тапсырмада қазіргі сөйлеу корпусын кеңейту, агглютинативті тіл үшін сөйлеу және мәтіндік ақпаратты жинау, корпусты бірнеше мың сағатқа дейін түрлендіру үшін деректерді қосу жоспарлануда;
  2. Келесі кезеңде интегралдық жүйе үшін үш түрлі модель құрылатын болады: коннекциялық уақытша классификация негізінде сөйлеуді тану моделі (Connectionist Temporal Classification); назар аудару механизмін пайдалану және нейрондық желілерді тұрақтандыру және реттеу  мен оқыту үшін деректерді аугментациялау, нейрондық желінің шығысы ретінде сөз бөліктерін орнату техникасын қолдану негізіндегі сөйлеу танудың кодер-декодер (Encoder-Decoder) моделі; сөйлеу тануға арналған шартты кездейсоқ өрістерге негізделген модель  (Conditional Random Field).
  3. Трансферлік оқыту әдісі (transfer learning) іске асырылатын болады, қазақ тіліндегі деректермен оқытылған модельді деректер жиынтығының әзірбайжан тіліне бейімдеуге көмектеседі;
  4. Келесі кезеңде автоматты транкриптор жүйесі үшін қазақ және әзірбайжан тілдерінің сөздерін транкрипциялау ережесі әзірленетін болады.
  5. Зерттеу барысында алынған модельдер мен әдістерден қазақ және әзірбайжан тілдері мысалында агглютинативті тілдерді интегралдық тану үшін тиімді алгоритм және бағдарламалық құралдар жасалатын болады.

Қойылған міндеттерді шешу кезінде туындауы мүмкін негізгі мәселе – жасанды нейрондық желілерді үлкен көлемде деректерде оқыту. Жасанды нейрондық желілерді оқыту уақытын қысқарту үшін графикалық процессорларда жоғары өнімді есептеулер қолданылатын болады

Практикалық маңыздылығы:

Жобаның ұлттық және халықаралық ауқымдағы практикалық маңыздылығы Машиналық оқыту әдістерін пайдалана отырып, сөйлеуді автоматты түрде танудың интегралдық (end-to-end) жүйесін іске асырудан, сондай-ақ қазақ және әзірбайжан тілдері мысалында агглютинативтік тілдер үшін сөйлеуді автоматты түрде танудың жаңа технологиясын әзірлеу бойынша міндеттерді шешу үшін жаңа математикалық модельдер мен алгоритмдерді әзірлеуден тұрады. Сөйлеуді танудың бұл жүйесін қазақ-әзірбайжан тіліндегі дауыстық машиналық аударма үшін пайдалануға болады.

Дауысты жоғары сапалы тану технологиясына айтарлықтай әлеуметтік сұраныс нашар көретін және көрмейтін адамдар арасында байқалады және көбінесе дауыстық басқарудың мобильді және тұрмыстық қосымшаларында кездеседі. Оң экономикалық қызығушылық сөйлеуді тану саласындағы жаңа нарықты құруға, сондай-ақ қазіргі сөйлеу технологиялары нарығында аз ресурстық тілдерге сұраныстың артуын ынталандыруға байланысты болады.

Түпкі мақсат-агглютинативті тілдерді интегралды түрде тану үшін тиімді алгоритм, әдіс және бағдарламалық жасақтама құру.

Қолдану саласы: корпусты дикторларды анықтау, тілді анықтау және сөйлеуді танудың көптеген ішкі мәселелерін шешу үшін, сондай-ақ жасанды интеллектті дамыту кезінде қолдануға болады.

Публикациялар:

  1. Д.О. Оралбекова, О.Ж. Мамырбаев. Современные методы распознавания речи. Новости науки Казахстана. № 1 (148). 2021, с. 20-35
  2. Ө.Ж. Мамырбаев, А.С. Кыдырбекова, Б.Ж. Жумажанов, Д.О. Оралбекова. Распознавание голоса с использованием x-векторов. Вестник Алматинского университета энергетики и связи № 1 (52) 2021. с. 69-77
  3. Авторское свидетельство “Система автоматического распознавания казахской речи на основе интегральной архитектуры” № 15501 от 25.02.2021. Авторы: О.Ж. Мамырбаев, Д.О. Оралбекова, А.С. Кыдырбекова, Б.Ж. Жумажанов, Т.Тұрдалықызы.
  4. Мамырбаев О.Ж., Оралбекова Д.О., Кыдырбекова А.С., Жумажанов Б.Ж. , Тұрдалықызы Т. Интегральная гибридная модель на основе СТС и механизма внимания для распознавания казахской слитной речи. Международная научно-практическая конференция “Сатпаевские чтения – 2021” Труды сатпаевских чтений “Сатпаевские чтения – 2021”, Том 2, Алматы, стр. 48-52
  5. O. Mamyrbayev, D. Oralbekova, A. Kydyrbekova, T. Turdalykyzy and A. Bekarystankyzy, “End-to-End Model Based on RNN-T for Kazakh Speech Recognition,” 2021 3rd International Conference on Computer Communication and the Internet (ICCCI), 2021, pp. 163-167, doi: 10.1109/ICCCI51764.2021.9486811.
  6. Mamyrbayev, O., Kydyrbekova, A., Alimhan, K., Oralbekova, D., Zhumazhanov, B., Nuranbayeva, B. (2021). Development of security systems using DNN and i & x-vector classifiers. Eastern-European Journal of Enterprise Technologies, 4 (9 (112)), 32–45. doi: https://doi.org/10.15587/1729-4061.2021.239186
  7. Мамырбаев О.Ж., Оралбекова Д.О., Othman M., Тулендиев Д.М., Жумажанов Б., Турдалыкызы Т. Распознавание казахской речи на основе интегральной модели RNN-T. VІ Международная научно-практическая конференция “Информатика и прикладная математика. 29 сентября – 1 октября 2021 г., Алматы, Казахстан. C.322-327
  8. Мамырбаев О.Ж., Оралбекова Д.О., Othman M., Тулендиев Д.М., Жумажанов Б., Турдалыкызы Т. Исследование интегральной модели на основе внимания для автоматического распознавания казахской речи. Материалы Международной научной конференции в области информационных технологий, посвященной 75-летию профессора У.А. Тукеева. 8 октября 2021 г., Алматы, Казахстан. C.86-89
  9. Mahambetova, U., Estemesov, Z., Nuranbayeva, B., Sadykov, P., Mamyrbayev, O., & Oralbekova, D. (2021). Development and research of the influence of the composition and concentration of activators on the strength of phosphorus slag binders. Eastern-European Journal of Enterprise Technologies, 5(6 (113), 54–61. https://doi.org/10.15587/1729-4061.2021.242814
  10. Mamyrbayev O., Oralbekova D., Alimhan K., Othman M., Zhumazhanov B. Realization of online systems for automatic speech recognition// News of the National academy of sciences of the republic of Kazakhstan. – 2021. – Vol. 6, № 340. – P. 66 – 72 // doi.org/10.32014/2020.2518-1726.64
  11. Mamyrbayev, O., Alimhan, K., Oralbekova, D., Bekarystankyzy, A., & Zhumazhanov, B. (2022). Identifying the influence of transfer learning method in developing an end-to-end automatic speech recognition system with a low data level. Eastern-European Journal of Enterprise Technologies, 1(9(115), 84–92. https://doi.org/10.15587/1729-4061.2022.252801
  12. О.Ж. Мамырбаев, Д.О. Оралбекова, K. Алимхан, M. Othman, Б. Жумажанов. Применение гибридной интегральной модели для распознавания казахской речи// News of the National academy of sciences of the republic of Kazakhstan. – 2022. – Vol. 1, № 341. – P. 58 – 68 // doi.org/10.32014/2022.2518-1726.117

Авторлық куәліктер:

  1. “Система автоматического распознавания казахской речи на основе интегральной архитектуры” № 15501 от 25.02.2021. Авторы: О.Ж. Мамырбаев, Д.О. Оралбекова, А.С. Кыдырбекова, Б.Ж. Жумажанов, Т.Тұрдалықызы.
  2. “Система идентификации и аутентификации через речевые технологии” № 23323 от 04.02.2022. Авторы: Оралбекова Д.О., Мамырбаев О.Ж., Алимхан К., Кыдырбекова А.С., Жумажанов Б.Ж., Турдалыкызы Т.
  3. “Система автоматического распознавания казахской слитной речи на основе модели с механизмом внимания” №24178 от 5.03.2022. Авторы: Мамырбаев О.Ж., Оралбекова Д.О., Әлімхан Қ., Кыдырбекова А.С., Жұмажанов Б.Ж., Тұрдалықызы Т.

Монографиялар:

Мамырбаев О.Ж., Кыдырбекова А.С., Оралбекова Д.О., Жумажанов Б.Ж., Бекарыстанкызы А. Разработка интегральной системы автоматического распознавания речи для агглютинативных языков. – Институт информационных и вычислительных технологий КН МОН РК. – 2022. – 104 с.

Алынған нәтижелер:

– қазақ және әзірбайжан тілдері мысалында агглютинативті тілдерге арналған акустикалық корпус,

– қазақ тілі үшін қолданыстағы сөйлеу корпусын кеңейту,

– агглютинативтік тілдер үшін сөйлеу және мәтіндік ақпаратты жинау, корпусты бірнеше мың сағатқа дейін түрлендіру,

– назар аудару механизмі бар СТС және кодер-декодер негізінде әдістер мен модельдерді әзірлеу.