Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта

Информация о проекте

АР09259556 Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта.

Актуальность

Системы обработки естественного языка сегодня востребованы в таких областях как контент центры, где в большинстве случаев человека- оператора могут заменять так называемые «боты» – системы с искусственным интеллектом, способные отвечать на разнообразные вопросы.  Задачи обучения языку, и задача машинного перевода являются довольно похожими задачами, на высшем уровне обе задачи стремятся к цели понимания языка, текстов, предложений.  Наличие таких систем на казахском языке в ближайшее время будет крайне необходимым для внедрения различных автоматизированных интеллектуальных  систем.

Цель проекта

Целью данной работы является не только теоретическая и методологическая работа по исследованию эффективных платформ по обучению, с акцентом на государственный казахский язык, а разработка методов, алгоритмов и инструментальных средств для создания эффективных систем обучения казахскому языку с использованием систем искусственного интеллекта, включая машинный перевод, машинное обучение и распознавание речи.

Задачи проекта

Для достижения поставленной цели необходимо решить следующие основные задачи:

1) Создание объемных наборов данных как для задачи обучения пользователей, так и для задач искусственного интеллекта – машинного перевода, распознавания речи и глубокого обучения. Такие корпуса являются необходимым и важным источником обучающей информации как для обучающих сервисов и приложений, так и для машинного обучения и перевода.

2) Для получения и сохранения массивов текстовой информации из Интернета на казахском языке, а также текстов с имеющимися переводами будут разработаны механизмы и алгоритмы «краулинга» Интернет страниц, которые буду искать и выкачивать нужные тексты в специальное хранилище с последующей разметкой данного корпуса по различным признакам для дальнейшей работы.

3)Разработка интеллектуального алгоритма «выравнивания» для выделения параллельных пар предложений из параллельных текстов, который позволит в автоматическом режиме строить корпуса параллельных предложений из массивов параллельных текстов.

4) Разработка автоматизированного морфологического анализатора для обработки текстов, их анализа, и всей первичной работы во всех приложениях и сервисах

5) Разработка   и интеграция сервисов и модулей обучения казахскому языку с системами машинного перевода и распознавания речи.  

6) Создание информационной системы для практического использования полученных инструментов, и алгоритмов.

Полученные результаты проекта за 2021 г.

Изучена существующая литература и доступные онлайн источники по теме исследования. Выбрано и конкретизировано основное направление исследования. Осуществлен аналитический обзор по тематике исследования.

Разработан корпус государственного языка. Разработан и применен алгоритм интеллектуального парсинга данных источников для составления электронных словарей и справочников по казахскому языку

Разработаны метод и алгоритм выравнивания параллельных текстов (объемом не менее 3 миллиона предложений) для задач построения обучающих систем и систем машинного перевода.

Разработанные алгоритмы были проверены практическими экспериментами и оценками качества, и новизна работ апробирована публикациям и докладами на международных конференциях.

Члены исследовательской группы

  1. Рахимова Д.Р., доктор PhD of  Computer Science – Индекс Хирша в наукометрических базах: Scopus (https://www.scopus.com/authid/detail.uri?origin=AuthorProfile&authorId=55967630400&zone=) – 3, Web of Science (Clarivate Analytics) (https://app.webofknowledge.com/author/#/record/4779561?lang=ru_RU&SID=F62uTO68EpirRsCCyJ7) – 4. ORCID – https://orcid.org/0000-0003-1427-198X, Scopus Author ID: 55682794500
  2. Сулейменов Е.Р. к.т.н.
  3. Касымова Д.Т., PhD – ORCID –https://orcid.org/0000-0001-6152-8317, Scopus Author ID: 57194506003, Scopus: https://www.scopus.com/authid/detail.uri?authorId=57194506003
  4. Ескендирова Д.-к.т.н.
  5. Сулейменова А.Е.
  6. Турганбаева А. магистр технических наук – ORCID – https://orcid.org/0000-0001-9660-6928, Scopus Author ID: 57209969959, https://www.scopus.com/authid/detail.uri?authorId=57209969959
  7. Травкин М.М.

Список публикации исполнителей темы АР09259556 за 2021 г.

  1. Рaхимoвa Д.Р., Aбдрaзaх Ы.Қ. Жaртылaй құрылымды мәліметтердегі қaзaқ тілінің дұрыс емес сөздерін aнықтaу мoделін зерттеу және әзірлеу // Труды международной научно-практической конференции «Ауэзовские чтения – 19: 30 лет независимости Казахстана». Том 1. – Шымкент: ЮКУ им. М. Ауэзова, 2021 г. – С. 3-8.
  2. Рахимова Д.Р., Тұрғанбаева А.О., Сатыбалдиев А. Қазақ тіліндегі мәтіндердің кілт сөздерін бөліп алу тәсілдерін зерттеу және алгоритмін құру // Материалы международной научной конференции студентов и молодых ученых «Фараби әлемі». – Алматы: Қазақ университеті, 2021. – С. 120.
  3. Рахимова Д.Р., Ахмет Г. Сөйлемдерді синтездеу әдістеріне шолу // Материалы Международной научной конференции в области информационных технологий, посвященной 75-летию профессора У.А. Тукеева. – Алматы: Қазақ университеті, 2021. – С. 130-135.
  4. Рaхимoвa Д.Р., Пaзылхaн Н.М., Кульжанова A.A., Ален Ж.Г. Разработка модели и программного решения задачи определения неизвестных слов при постредактировании машинного перевода // Вестник КазНИТУ имени К.Сатпаева. Технические науки. – 2021. – №1. – С. 46-53.
  5. 5. Rakhimova D., Khairova N., Kassymova D., Janibekovich K.U. Development of a system of questions and answers for the kazakh language based on Rule-based and HMM // Advanced Technologies and computer science – 2021. – №2. – P. 34-44.
  6. Abdrazakh Y., Turganbayeva A., Rakhimova D. Development and Study of an Approach for Determining Incorrect Words of the Kazakh Language in Semi-structured Data // In: Wojtkiewicz K., Treur J., Pimenidis E., Maleszka M. (eds) Advances in Computational Collective Intelligence. Communications in Computer and Information Science, – Springer, Cham, 2021. – vol 1463. – P. 535-545. (Scopus) https://doi.org/10.1007/978-3-030-88113-9_43
  7. Тұрғанбаева Әлия Оралбайқызы, Тукеев Уалшер. Авторское свидетельство Программа для ЭВМ: Стемминг со словарем стемов для тюркских языков на основе полных наборов окончаний (Stemming with stems-lexicon for Turkic Languages on the base of complete set of endings). №18661 от «11» июня 2021 года.
  8. Рахимова Д.Р., Турганбаева А.О., Жуманов Ж.М. Разработка размеченного корпуса казахского языка. Глава в коллективной монографии «Современные методы компьютерной обработки казахского языка». – КГТУ, Бишкек 2021. – C. 20-41.
  9. Рахимова Д.Р.,  Касымова Д.Т., Исабаева Д.Н. Қазақ тіліне арналған bert моделі негізінде сұрақ-жауап жүйесін зерттеу және әзірлеу // Вестник КазНПУ им.  Абая 4(76) 2021г.