Жобаның жетекшісі Рахимова Диана Рамазанқызы болып табылады.
Зерттеу тобының негізгі мүшелері:
Т. ғ. д., профессор Тукеев Уалшер Ануарбекович,
КҒҚ, Жұманов З. М.,
КҒҚ, Шормакова А.Н.,
Инженер Тұрғанбаева А. О.,
Инженер Абдуали Б.,
Инженер Амирова Д.
Құрылымданбаған дереккөздерден, қазақ тіліндегі деректер мен мәтіндердің үлкен ауқымынан жаңа ақпарат пен білім алу үшін компьютерлік лингвистиканың соңғы жетістіктерін пайдалана отырып, табиғи тілді өңдеу саласындағы қазіргі заманғы технологиялар негізінде мәтіндік деректерді өңдеудің тиімді алгоритмдері мен модельдерін әзірлеу болып табылады.
Осы мақсатқа қол жеткізу үшін жоба шеңберінде келесі міндеттер шешілді:
Қазақ тілінің аяқталуы мен жұрнақтарын жіктеудің толық жүйесі жасалды. Lexicon-free stemming алгоритмі қазақ тілінің аяқталуларын жіктеудің әзірленген жүйесін пайдалана отырып әзірленген. Құрылған алгоритмнің ерекшелігі – оның жылдамдығы және өте оңай репродукциясы.
Қазақ тілінің ерекшеліктерін ескере отырып, деректерді өңдеудің әзірленген модульдері (токенезация, лемматизация, морфологиялық талдау) ерекше ерекшеліктер болып табылады;
Қазақ тіліндегі мәтіндерді автоматты түрде толтыру алгоритмі және белгілерді қолдана отырып құжаттарды индекстеу алгоритмі әзірленді;
Ақпараттық-аналитикалық іздеу жүйесінің сапасын жақсартуға мүмкіндік беретін қазақ тіліне арналған фразеологиялық бірліктердің құрылымдық қалыптасуы мен тағайындау түрлері бойынша жіктелген синонимдер мен фразеологиялық бірліктердің білім базасы жасалды;
Құрылымдық және құрылымданбаған үлкен деректерді өңдеу және талдау үшін жасанды интеллектті қолдана отырып, әртүрлі мақсаттағы қолданбалы бағдарламалық шешімдерді құру арқылы ақпараттық-аналитикалық өңдеу модулі жасалды. Болашақта осы модульдің алгоритмдері мен әдістерін үлкен мәтіндік деректерді талдауды шешу үшін жеке де, кешенде де қолдануға болады:
– қазақ тіліндегі құжаттардан түйінді сөздерді (сөз тіркестерін) алу алгоритмі;
– Машиналық оқыту технологияларын қолдана отырып, мәтінді семантикалық талдау алгоритмі (Machine Learning);
– қазақ тіліндегі мәтінді summarization әдісі;
Табиғи тілді ақпараттық іздеу мен семантикалық өңдеудегі заманауи технологиялар мен әдістерді ескере отырып, ақпараттық-аналитикалық іздеу жүйесінің архитектурасы құрылды және прототипі жасалды. Іздеу жүйесінің ақпараттық-іздеу модулінің ішкі модульдері жасалды. Технологиялық шешім қабылдау мақсатында ақпараттық жүйенің икемді архитектурасы әзірленді. Жүйенің барлық бағдарламалық модульдері әлсіз байланысқан архитектураны алуға мүмкіндік беретін байланыстырушы буын ретінде әрекет ететін интеграциялық модульдермен (аралық деректер қоймасы) байланысты. Жобалауға бұл тәсіл модульдердің салыстырмалы түрде оңай масштабталуы мен жаңартылуына қол жеткізуге мүмкіндік береді.
Жоба бойынша ғылыми-зерттеу және техникалық қызмет жұмысының негізгі нәтижелері келесі жарияланымдарда ұсынылған:
Web of Science немесе Scopus ДБ индекстелетін жарияланымдар:
ҚР БжҒСБК ұсынылған жарияланымдар:
В результате данного исследования была реализована система обучения казахскому языку мобильного приложения для распознавания речи. Данное мобильное приложение, разработанное ИИВТ, выполнено по программе KazVoice, которая доступна пользователю в тестовом режиме. Для работы с данным приложением необходимо перейти в сеть https://t.me/kazakhASRB.t. При записи речи нажимается кнопка микрофона, с микрофона поступают речевые сигналы. Далее речевые сигналы автоматически считываются, и в этот момент пользователю виден результат в виде текста.