Жасанды интеллект технологиялары негізінде табиғи тілді кешенді оқыту және өңдеу әдістері мен жүйелерін әзірлеу

Жоба туралы ақпарат

АР 09259556  Жасанды интеллект технологиялары негізінде табиғи тілді кешенді оқыту және өңдеу әдістері мен жүйелерін әзірлеу

Өзектілігі

Табиғи тілдерді өңдеу жүйелері бүгінде контент орталықтары сияқты салаларда сұранысқа ие, онда көптеген жағдайда адам-операторды әртүрлі сұрақтарға жауап бере алатын жасанды интеллект жүйелері “боттар” алмастыра алады. Тілді оқытудың міндеттері және машиналық аударма міндеті өте ұқсас міндеттер болып табылады, ең жоғары деңгейде екі тапсырма да тілді, мәтіндерді, сөйлемдерді түсіну мақсатына ұмтылады.  Мұндай жүйелердің қазақ тілінде болуы жақын арада түрлі автоматтандырылған зияткерлік жүйелерді енгізу үшін аса қажет болады.

Жобаның мақсаты

Жұмыстың мақсаты мемлекеттік қазақ тіліне баса назар аудара отырып, оқыту бойынша тиімді платформаларды зерттеу бойынша теориялық және әдіснамалық жұмыс қана емес, машиналық аударма, машиналық оқыту және сөйлеуді тануды қоса алғанда, жасанды интеллект жүйелерін пайдалана отырып, қазақ тілін оқытудың тиімді жүйелерін құру үшін әдістерді, алгоритмдерді және аспаптық құралдарды әзірлеу болып табылады.

Жобаның міндеттері

Осы мақсаттарға қол жеткізу үшін келесі негізгі міндеттерді шешу қажет:

  • Пайдаланушыларды оқыту міндеті үшін де, жасанды интеллект міндеттері үшін де көлемді мәліметтер жиынтығын құру – машиналық аударма, сөйлеуді тану және терең оқыту. Мұндай корпустар оқыту қызметтері мен қосымшалары үшін де, машиналық оқыту және аударма үшін де қажетті және маңызды ақпарат көзі болып табылады.
  • Интернеттен қазақ тіліндегі мәтіндік ақпарат массивтерін, сондай-ақ аудармалары бар мәтіндерді алу және сақтау үшін Интернет беттерінің “краулинг” механизмдері мен алгоритмдері әзірленеді, олар әрі қарай жұмыс істеу үшін қажетті мәтіндерді арнайы қоймаға жинап, кейін осы корпусты түрлі белгілер бойынша белгілейді.
  • параллель мәтіндер массивінен параллель сөйлемдер корпусын автоматты режимде құруға мүмкіндік беретін параллель мәтіндерден параллель жұп сөйлемдерді бөліп көрсету үшін “теңестіру” интеллектуалды алгоритмін әзірлеу.
  • Мәтіндерді өңдеу, оларды талдау және барлық қосымшалар мен қызметтердегі барлық бастапқы жұмыстар үшін автоматтандырылған морфологиялық анализатор әзірлеу
  • Қазақ тілін оқытудың сервистері мен модульдерін машиналық аударма және сөйлеуді тану жүйелерімен әзірлеу және интеграциялау.
  • Алынған құралдар мен алгоритмдерді іс жүзінде пайдалану үшін ақпараттық жүйе құру

2021 жыл бойынша алынған жоба нәтижелері

Зерттеу тақырыбы бойынша бар әдебиеттер мен қолжетімді онлайн дереккөздер зерттеленді. Зерттеудің негізгі бағыты таңдап алынды және нақтыланды. Зерттеу тақырыбы бойынша талдамалық шолу жүзеге асырылды.

Мемлекеттік тіл корпусы әзірленді. Қазақ тіліне қатысты электронды сөздіктер мен анықтамалықтар құрастыруға қолданылатын интеллектуалды талдаудың алгоритмі әзірленді

Оқыту жүйелері мен машиналық аударма жүйелерін құру міндеттері үшін параллель мәтіндерді (көлемі кемінде 3 миллион сөйлем) теңестіру әдісі мен алгоритмі әзірленді.

Әзірленген алгоритмдер тәжірибелік эксперименттермен және сапаны бағалаумен тексерілді және жұмыстардың жаңалығы халықаралық конференцияларда жарияланымдар мен баяндамалармен сынақтан өткізілді.

Зерттеу тобының мүшелері

  1. Рахимова Д.Р., PhD  – Ғылыми метрикалық базалардағы Хирш индексі: Scopus (https://www.scopus.com/authid/detail.uri?origin=AuthorProfile&authorId=55967630400&zone=) – 3, Web of Science (Clarivate Analytics) (https://app.webofknowledge.com/author/#/record/4779561?lang=ru_RU&SID=F62uTO68EpirRsCCyJ7) – 4. ORCID – https://orcid.org/0000-0003-1427-198X, Scopus Author ID: 55682794500
  2. Сулейменов Е.Р., техника ғылымдарының кандидаты
  3. Касымова Д.Т., PhD – ORCID –https://orcid.org/0000-0001-6152-8317, Scopus Author ID: 57194506003, Scopus: https://www.scopus.com/authid/detail.uri?authorId=57194506003
  4. Ескендирова Д., техника ғылымдарының кандидаты
  5. Сулейменова А.Е.
  6. Турганбаева А. магистр технических наук – ORCID – https://orcid.org/0000-0001-9660-6928, Scopus Author ID: 57209969959, https://www.scopus.com/authid/detail.uri?authorId=57209969959
  7. Травкин М.М.

2021 ж. жоба бойынша жариялымдар

  1. Рaхимoвa Д.Р., Aбдрaзaх Ы.Қ. Жaртылaй құрылымды мәліметтердегі қaзaқ тілінің дұрыс емес сөздерін aнықтaу мoделін зерттеу және әзірлеу // Труды международной научно-практической конференции «Ауэзовские чтения – 19: 30 лет независимости Казахстана». Том 1. – Шымкент: ЮКУ им. М. Ауэзова, 2021 г. – С. 3-8.
  2. Рахимова Д.Р., Тұрғанбаева А.О., Сатыбалдиев А. Қазақ тіліндегі мәтіндердің кілт сөздерін бөліп алу тәсілдерін зерттеу және алгоритмін құру // Материалы международной научной конференции студентов и молодых ученых «Фараби әлемі». – Алматы: Қазақ университеті, 2021. – С. 120.
  3. Рахимова Д.Р., Ахмет Г. Сөйлемдерді синтездеу әдістеріне шолу // Материалы Международной научной конференции в области информационных технологий, посвященной 75-летию профессора У.А. Тукеева. – Алматы: Қазақ университеті, 2021. – С. 130-135.
  4. Рaхимoвa Д.Р., Пaзылхaн Н.М., Кульжанова A.A., Ален Ж.Г. Разработка модели и программного решения задачи определения неизвестных слов при постредактировании машинного перевода // Вестник КазНИТУ имени К.Сатпаева. Технические науки. – 2021. – №1. – С. 46-53.
  5. Rakhimova D., Khairova N., Kassymova D., Janibekovich K.U. Development of a system of questions and answers for the kazakh language based on Rule-based and HMM // Advanced Technologies and computer science – 2021. – №2. – P. 34-44.
  6. Abdrazakh Y., Turganbayeva A., Rakhimova D. Development and Study of an Approach for Determining Incorrect Words of the Kazakh Language in Semi-structured Data // In: Wojtkiewicz K., Treur J., Pimenidis E., Maleszka M. (eds) Advances in Computational Collective Intelligence. Communications in Computer and Information Science, – Springer, Cham, 2021. – vol 1463. – P. 535-545. (Scopus) https://doi.org/10.1007/978-3-030-88113-9_43
  7. Тұрғанбаева Әлия Оралбайқызы, Тукеев Уалшер. Авторское свидетельство Программа для ЭВМ: Стемминг со словарем стемов для тюркских языков на основе полных наборов окончаний (Stemming with stems-lexicon for Turkic Languages on the base of complete set of endings). №18661 от «11» июня 2021 года.
  8. Рахимова Д.Р., Турганбаева А.О., Жуманов Ж.М. Разработка размеченного корпуса казахского языка. Глава в коллективной монографии «Современные методы компьютерной обработки казахского языка». – КГТУ, Бишкек 2021. – C. 20-41.
  9. Рахимова Д.Р.,  Касымова Д.Т., Исабаева Д.Н. Қазақ тіліне арналған bert моделі негізінде сұрақ-жауап жүйесін зерттеу және әзірлеу // Вестник КазНПУ им.  Абая 4(76) 2021г.