Разработка методов и алгоритмов для многомерных данных в задачах обработки изображений и компьютерной лингвистике – Институт информационных и вычислительных технологий

Информация о проекте

№ АР08857179 «Разработка методов и алгоритмов для многомерных данных в задачах обработки изображений и компьютерной лингвистике»

Исследования направлены на создание научно-технического задела в области информационно-коммуникационных технологий и на получение новых знаний, позволяющих осуществлять анализ и эффективно работать с различными нетривиальными структурами данных: многомерными параллелепипедами, гиперкубами, нестандартными данными, возникающими в некоторых задачах вычислительной математики, типа метода частиц в ячейках (PIC-методе), логическими данными в компьютерной лингвистике. В том числе, речь идет о параллельных и распределенных вычислительных системах.

В перечень современных трендов компьютерных технологий входят: специализированные многопроцессорные системы, высокопроизводительные вычисления на суперкомпьютерах, распределенные вычислительные системы, облачные технологии, обработка изображений и сигналов, автоматический анализ текстов на естественном языке, алгоритмы поиска информации в сети и обработки данных из социальных сетей, машинное обучение и др.

Во всех этих областях приходится иметь дело с многомерными и неоднородными данными, которые необходимо определенными способами организовывать, хранить и обрабатывать, в том числе, на параллельных вычислительных системах.

Объектом исследований являются создание научно-технического задела в области информационно-коммуникационных технологий и на получение новых знаний, позволяющих осуществлять анализ и эффективно работать с различными нетривиальными структурами данных: многомерными параллелепипедами, гиперкубами, нестандартными данными, возникающими в некоторых задачах вычислительной математики, типа метода частиц в ячейках (PIC-методе), логическими данными в компьютерной лингвистике. В том числе, речь идет о параллельных и распределенных вычислительных системах.

Цель проекта: разработать модели и методы более эффективного использования оригинальных структур данных в различных приложениях: вычислительная математика, обработка изображений, компьютерная лингвистика.

Методы исследования: методы, известные под общим названием «частиц в ячейках» или PIC методов (Particles In Cells); для решения поставленных задач предлагается использовать способ представления семантико-синтаксических отношений между смысловыми единицами предложения на основе диаграмм программной системы Link Grammar Parser.

Научная новизна проекта заключается в том, что с единых позиций, базируясь на комбинаторных подходах, предлагается рассматривать различные задачи, относящиеся к таким областям, как: разработка архитектур вычислительных систем, методы отображения алгоритмов на параллельные архитектуры, обработка изображений, анализ текстов на естественном языке. Предлагается совместное использование формальных математических подходов и аппаратно-алгоритмических решений, учитывающих при этом особенности предметных областей. Это позволяет применять формальные математические методы при создании специализированных вычислительных устройств и при отображении разрабатываемых алгоритмов на существующие вычислительные структуры.

Основные конструктивные и технико-экономические показатели

Ожидаемый социальный и экономический, научно-технический, мультипликативный эффект состоит в решении важной социально-значимой проблемы создания средств качественных методик для применения и соответствующие структуры данных в алгоритмах машинного обучения для задач обработки изображений и компьютерной лингвистики на уровне государства.

Степень внедрения. Внедрение результатов проекта находится на стадии разработки

Эффективность работы внедрение полученных результатов в системах сбора, обработки и передачи информации будет способствовать развитию научно-технического и технологического комплекса страны. Новые эффективные алгоритмы и программные системы позволят достичь технические, технологические, технико-экономические эффекты, которые будут обеспечиваться использованием предполагаемых научно-технических результатов.

Область применения результатов: специализированные многопроцессорные системы, высокопроизводительные вычисления на суперкомпьютерах, распределенные вычислительные системы, облачные технологии, обработка изображений и сигналов, автоматический анализ текстов на естественном языке, алгоритмы поиска информации в сети и обработки данных из социальных сетей, машинное обучение и др.

Полученные результаты проекта за 2021 г.

Задача 2. Рассмотреть архитектуры вычислительных систем для отслеживания множества подвижных точечных объектов, обладающих высокой степенью параллелизма в работе.

Разработана архитектура вычислительных систем для отслеживания множества подвижных объектов, обладающих высокой степенью параллелизма в работе.

Были проанализированы задачи комбинаторными методами; доказательство теорем, обосновывающих корректность принимаемых решений. Решение задач позволила продвинуться в изучении конструирования систем для отслеживания подвижных объектов, которые могут иметь приложения в системах отслеживания целей в космическом пространстве.

При разработке архитектуры вычислительных систем для отслеживания множества подвижных объектов, обладающих высокой степенью параллелизма в работе были рассмотрены следующие вопросы:

основные цели и принципы построения системы;
некоторые отображения и их свойства;
адресация данных и стробирование:
взаимодействие процессоров с памятью;
процессорные элементы.

Задача 3. Исследовать алгоритмы передачи данных по каналам, в которых может быть потерян большой объем информации, использующие дискретные аналоги голограмм.

Были исследованы алгоритмы передачи данных по каналам, в которых может быть потерян большой объем информации, использующие дискретные аналоги голограмм: разработка и реализация алгоритмов; детальный анализ получающихся результатов.

При исследования основное внимание уделено извлечению информации из цифровой голограммы, а именно определению характеристик частицы по её голографическому изображению. Были рассмотрены алгоритмы повышения качества голографического изображения частицы.

Задача 6. Исследовать структуры данных возникающие при анализе семантико-синтаксических отношений между смысловыми единицами предложений и при анализе тем текстов.

Были исследованы структуры данных возникающие при анализе семантико-синтаксических отношений между смысловыми единицами предложений и при анализе тем текстов.

Основная задача состоит в построении алгоритмов, которые, проникая в структуру текста, могут вывести адекватную оценку релевантности текста поисковому запросу. Важно, чтобы данная оценка была основана на контексте поискового запроса и не ограничивалась только ключевыми словами, их близостью или частотой. Предложено использовать семантико-синтаксические отношения между словами предложения, получаемые на выходе программной системы Link Grammar Parser.

Члены исследовательской группы:

Еримбетова А.С.- руководитель проекта PhD, к.т.н., асс.,проф..

ORCID – https://orcid.org/0000-0002-2013-1513 , Scopus Author ID: 57188823075, Web of Science id: S-3892-2018;

https://www.scopus.com/authid/detail.uri?authorId=57188823075

Самбетбаева М.А. – PhD, СНС

ORCID – https://orcid.org/0000-0001-9358-1614 , Scopus Author ID: 57188805832, https://www.scopus.com/authid/detail.uri?authorId=57188805832

Дайырбаева Э.Н. – магистр тех.наук., PhD Докторант, НС

ORCID – ORCID ID: https://orcid.org/0000-0002-4255-5456,

Садирмекова Ж.– PhD Докторант, НС

ORCID – https://orcid.org/0000-0002-7514-9315, Scopus Author ID:

57215687595, https://www.scopus.com/authid/detail.uri?authorId=57215687595

Маратов Ж.С. – Инженер-программист

ORCID – https://orcid.org/0000-0003-0846-200X

Список публикаций исполнителей проекта за 2021 г

Оттиски публикаций за 2021 год

Зарубежные публикации:

1. Serikbayeva S.K., Batyrkhanov A.G., Sadirmekova Zh.B., Sambetbayeva M.A., Yerimbetova A.S. Development of Technology to Support Large Information Storage and Organization of Reduced User Access to this Information// International Journal of Advanced Computer Science and Applications. – 2021. – Vol. 12(7). – P. 493–503. (Q3, 32%)

2. Aigerim Yerimbetova, Madina Tussupova, Madina Sambetbayeva, Mussa Turdalyuly, Bakzhan Sakenov. Grammatical categories determination for turkish and kazakh languages based on machine learning algorithms and fulfilling dictionaries of Link Grammar Parser. Eastern-European Journal of Enterprise Technologies, 5 (2 (113)), 55–65. doi: https://doi.org/10.15587/1729-4061.2021.238743

3. Daiyrbayeva E., Yerimbetova A., Toigozhinova A., Maratov Z.,Sambetbayeva M. Learning steganography with a strip transform. 6th International Conference on Computer Science and Engineering.UBMK-2021, 15-17.09.2021, Ankara-Turkey/ IEEE Xplore (Scopus). -P.209-212

4. Cherikbayeva L., Yerimbetova A., Daiyrbayeva E. Research of Cluster Analysis Methods for Group Solutions of the Pattern Recognition Problem. 6th International Conference on Computer Science and Engineering. UBMK-2021, 15-17.09.2021, Ankara-Turkey/ IEEE Xplore (Scopus). -P.511-514

Отечественные публикации:

5. Серикбаева С.К., Тусупов Д.А., Самбетбаева М.А. Таратылған ақпараттық жүйеде үлкен деректерді өңдеу технологиясы. ҚазҰТЗУ Хабаршысы, Алматы:2021 г. – 2 (143). – С. 272-278.

6, Маратов Ж.С., Дайырбаева Э.Н., Еримбетова А.С. Визуализация архитектуры вычислительной системы с помощью Autocad Electrical // Материалы I Международной научно-практической конференции «Инновационные технологии на транспорте: образование, наука, практика». 22 апреля, 2021, Алматы (АЛиТ)-С.111-113

7. Еримбетова А.С., Дайырбаева Э.Н., Маратов Ж.С. Программа для передачи срытых данных с помощью объекта изображения. Авторское свидетельство № 20614, 30.09.2021