enrukz
enrukz

Ғылыми жоба: №AP09259556. Жасанды интеллект технологиялары негізінде табиғи тілді кешенді оқыту және өңдеу әдістері мен жүйелерін әзірлеу

Жоба жетекшісі мен мүшелері:

Жоба жетекшісі – PhD Рахимова Диана Рамазановна

АҒҚ, PhD А.С. Кәрібаева

АҒҚ, PhD М. Тұрдалыұлы

АҒҚ, т.ғ.к Е.Р.Сулейменов

КҒҚ Ә.О.Тұрғанбаева

КҒҚ А. Сулейменова

Инженер-программист Н. Лоновенко

Инженер-программист Д.Сулейменов

Жоба мақсаты:

Жобаның мақсаты – қазақ тілінің ерекшеліктеріне бейімделген жасанды интеллекттің заманауи әдістері мен тәсілдерін пайдалана отырып, мемлекеттік тілді өңдеу және оқыту жүйесінің технологиясын (алгоритмдер, әдістер, электронды ресурстар) жасау.

Жоба міндеттері:

Осы мақсатқа жету үшін келесі негізгі міндеттерді шешу қажет:

– Пайдаланушыларды оқыту тапсырмалары үшін де, машиналық аударма, сөзді тану және терең оқыту секілді жасанды интеллект тапсырмалары үшін де үлкен деректер жиынын жасау.

– Параллель мәтіндерден параллель сөйлем жұптарын анықтауға арналған интеллектуалды «туралау» алгоритмін жасау

– Мәтінді өңдеуге арналған автоматтандырылған морфологиялық анализаторды жасау

– Қазақ тілін машиналық аударма және сөзді тану жүйелерімен оқыту қызметтері мен модульдерін әзірлеу және интеграциялау.

Алынған құралдар мен алгоритмдерді өмірде практикалық қолдану үшін Интернет қызметтері мен қосымшаларын құру.

Нәтижелер:

елесі ғылыми-техникалық нәтижелер алынды:

  • Мәтіндік деректер материалды скрайпинг жүйесі арқылы жиналды, қызықты тақырып бойынша интернеттен деректерді автоматты түрде алу орындалды.
  • Параллель корпусты теңестіру әдісі әзірленді. Бұл әдіс екі сатылы теңестіруден тұрады. Туралаудың бірінші бөлігі Hunalign құралын пайдаланады. Туралаудың екінші бөлігі сөздік қорына негізделген. Атқарылған жұмыстардың нәтижесінде төмендегідей лингвистикалық деректер жинақталып, өңделді:

– қазақ тіліндегі 100 мыңнан астам шағын мәтіндер: жаңалықтар, журналдар материалдары және т.б.

– қазақ тіліндегі 300-ден астам кітап, қазақстандық және шетелдік авторлардың, соның ішінде көркем әдебиеттер, ән жинақтары, өзін-өзі дамыту, бизнес және т.б.

– 2 миллионнан астам қазақша-орысша параллель сөйлемдер

– 200 мың қазақша-орысша сөздік жазбалары.

Қазақ тілін өңдеу құралдары үшін нейрондық және терең оқытуға негізделген тәсілдер әзірленіп, келесі жұмыстар жүзеге асырылды:

  • Қазақ тілі үшін машиналық оқыту негізінде морфологиялық анализатор жасалды;
  • RNN, BRNN және Transformer үлгілеріне негізделген ағылшын-қазақ және орыс-қазақ тілдеріндегі жұптар үшін нейрондық машиналық аударма әзірленді;
  • Сөйлеуді тану және мемлекеттік тілді синтездеу үшін машиналық оқытуға негізделген тәсіл әзірленді (BLSTM, ResNet).

Жүргізілген зерттеулер амалдарды бағдарламалық қамтамасыз етуді әзірлеумен және алгоритмдерді тестілеумен қатар жүрді. Алынған нәтижелер BLEU, TER және WER сияқты арнайы көрсеткіштер арқылы тексерілді және бағаланды.

Жобаның практикалық нәтижесі «Oqulyq» веб-қосымшасын жасау болып табылады. Осы жоба аясында жүргізілген ғылыми-зерттеу жұмыстарының нәтижелері 7M06101-«Есептеуіш лингвистика» Әл Фараби атындағы ҚазҰУ магистратура үшін білім бағдарламасының «Тілдік ресурстар», «Машиналық аударма технологиялары», «Табиғи тілді өңдеудегі машиналық оқыту» пәндері бойынша, сондай-ақ Халықаралық инженерлік-технологиялық университетінің 7М06101-«Инженерлік бағдарламалық қамтамасыз ету» және 7M07204-«Тамақ өнімдері өндірісінің технологиясы және инженериясы» 1 курс магистратура білім бағдарламаларының «Шетел тілі» (кәсіби) пәні бойынша сынақтан өтіп, оқу үдерісіне енгізілді

2021-2023 жылдарға арналған жобаның қорытындылары бойынша 26 жарияланым жарияланды: шетелдік басылымдарда – WoS және/немесе Scopus деректер базасында индекстелген жарияланымдар – 6 жарияланым; ҚР БҒМ БССҚЕК ұсынған отандық басылымдарда – 2 басылым; Бір монографиясы отандық басылымда, бір ұжымдық монографиясы шетелдік басылымда жарияланған. Жасалған компьютерлік бағдарламаларға 3 авторлық куәлік алынды. Зерттеу нәтижелері халықаралық конференциялар мен ғылыми семинарларда сынақтан өтті.

"Oqulyq" жүйенің бейне сипаттамасы