Результаты проектов – Институт информационных и вычислительных технологий

В ИИВТ имеются конкретные практические результаты по основным научно-техническим направлениям работы Инстиута — интеллектуальные системы, защита информации, распознавание образов и речи, информационно-логистические системы, геоинформационные системы, облачные вычисления, иммунносетевое моделирование и другие.

1. Защита информации при хранении и передаче с использованием разработанных алгоритмов шифрования, формирования электронной цифровой подписи и разграничения доступа (Калимолдаев М.Н., Бияшев Р.Г., Нысанбаева С.Е.)

31 января 2017 г. Президент обратился к казахстанцам с посланием «Третья модернизация Казахстана: глобальная конкурентоспособность». В нем в качестве одного из приоритетов развития нашей страны было отмечена необходимость разработки и принятия отдельной программы «Цифровой Казахстан». В связи с этим им поручено создать концепцию «Киберщит Казахстана». В разработанном проекте Концепции кибербезопасности («Киберщит Казахстана») отмечено недостаточное внимание подготовке кадров в вузах Казахстана по информационной безопасности и разработке отечественных средств защиты информации.

В ИИВТ КН МОН РК проводятся научно-исследовательские работы по разработке систем криптографической защиты с использованием разработанных алгоритмов шифрования и цифровой подписи, а также ведется подготовка магистров и PhD докторов в области информационной безопасности. В Институте разработана отечественная система блочного симметричного шифрования электронных сообщений. Эта система создана на основе современного алгебраического подхода, а именно на базе непозиционных полиномиальных систем счислении (НПСС) или модулярных систем счисления. Кроме этого, разработаны алгоритмы формирования электронной цифровой подписи (ЭЦП) и система разграничения доступа. Учитывая положения, указанные в концепции «Киберщит Казахстана» для защиты хранимой и передаваемой информации, рекомендуются для открытого использования отечественные программные продукты, реализующие разработанные системы шифрования, ЭЦП и разграничения доступа как в государственных, так и коммерческих организациях.

2. Мультиязычная система синтеза и распознавания речи (Амиргалиев Е.Н., Мусабаев Р.Р.)

Для интеграции казахского языка с современными информационными технологиями, расширения области применения казахского языка, а также повышения эффективности разрабатываемых информационных систем на казахском языке разработаны системы синтеза и распознавания казахской речи. Разработки представлены в виде двух программных продуктов, которые позволяют осуществлять автоматический речевой ввод информации на казахском языке в компьютер (распознавание речи), а также речевой вывод текстовой информации по средствам голоса из компьютера (синтез речи электронным диктором). В дальнейшем данные разработки могут быть адаптированы и для других языков.

Можно использовать разработанные технологии синтеза речи в следующих приложениях:

а. «Умный дом»

б. Голосовые переводчики

в. Системы помощи немым и незрячим людям

г. Голосовое управление роботом

д. Идентификация диктора по голосу

е. Речевой набор текстов с помощью голоса

3. Интегрированная информационная система внешнего обмена для контроля процессов перевозок в пунктах пропуска через границы членов таможенного союза ЕЭС. (Калимолдаев М.Н., Найзабаева Л.К.)

По данному направлению имеется научный задел, который может быть использован при разработке данной информационной системы, т.е для автоматизации работ таможенной и пограничной службы. Разрабатываемая интегрированная информационная система обеспечит эффективное регулирование внешней и взаимной торговли на территории таможенного союза, осуществление таможенного, налогового, транспортного и других видов государственного контроля с использованием информационных телекоммуникационных технологий. Эффективность таможенной деятельности зависит от большого числа факторов, среди которых и информационное обеспечение управления. Сбор, накопление, преобразование и использование информации целесообразно проводить в рамках некоторой относительно самостоятельной системы информационно-технического обеспечения.

Предлагаемая система таможенной деятельности представляет собой организационно-упорядоченную совокупность нормативно-методических средств, информационных ресурсов, информационных и информационно-управляющих технологий автоматизации информационных процессов и процессов принятия решений в целях удовлетворения информационных потребностей таможенной службы в ее повседневной деятельности.

4. ГИС мониторинг и управление инженерными сетями города (Амиргалиев Е.Н., Коваленко А.Г.)

Имеется научный задел по разработке ГИС мониторинга и управления инженерными сетями города. Полученные результаты могут быть использованы в процессе разработки систем мониторинга и управления инфокоммуникационными сетями города на территории РК. Также разработанные алгоритмы и методы ГИС могут быть использованы для решения задач зеленой экономии на территории РК.

Специальная автоматизированная телекоммуникационная метеостанция служит для прогнозирования схода снежных лавин и ежедневного получения метеоданных в зоне формирования. Принцип работы автоматизированной Метеостанции основан на работе системы специальных датчиков определяющих некоторые характеристики воздуха и снега. Метеостанция сможет работать и при высокой скорости ветра и низких температурах воздуха. Установка устойчива к штормовым ветрам, шквалам, обледенению, особо низким температурам.

Использование автоматической станции позволит специалистам снеголавинной станции круглосуточно получать информацию о погоде в зоне формирования лавин, и различных параметров снежного покрова что, несомненно, скажется на качестве лавинных прогнозов.

5. Разработка алгоритмов Data mining для повышения производительности мультиагентной гридсистемы. (Научные руководители Пак И.Т., Найзабаева Л.К)

Высокопроизводительные вычисления завоевывают все более прочные позиции при решении разного рода задач (в том числе задач, в которых применяются методы имитационного моделирования), используя ресурсы нескольких исполнителей для выполнения вычислений. Основная цель использования этих средств оптимизация времени вычислений. Однако гетерогенность исполнителей (вычислительные узлы имеют разную производительность, линии связи между узлами имеют разную пропускную способность), гетерогенность самого параллельного приложения (приложение представляет собой совокупность логических процессов, расположенных на разных вычислительных узлах и взаимодействующих посредством посылки сообщений друг другу) приводит к возникновению дисбаланса нагрузки на вычислительных узлах.

В результате выигрыш от использования нескольких исполнителей при выполнении вычислений сводится к нулю. Для того, чтобы избежать нежелательных последствий дисбаланса используют специальное программное обеспечение, реализующее алгоритм балансировки. Алгоритм балансировки предназначен для равномерного распределения нагрузки на вычислительные узлы. Если на каком-нибудь вычислительном узле нагрузка превышает допустимую, то, следуя алгоритму балансировки, часть нагрузки переносят на другой, менее загруженный узел. При этом следует учитывать затраты приложения на коммуникацию между вычислительными узлами.

Моделирование на платформе JADE (Java Agent Development Environment) JADE — в программной среде разработки мультиагентных систем и приложений, поддерживающей FIPA-стандарты для интеллектуальных агентов.

Решается задача балансировки – это задача отображения неизоморфных связных графов. Используется динамическая система балансировки Agent-Grid является мультиагентной. Агент для принятия решения будет действовать по правилам клеточного автомата.

6. Программный комплекс для мониторинга системы городского транспорта (Калимолдаев М.Н., Утепбергенов Е.Т.).

Данный программный комплекс может быть использован в качестве информационного пространства для учета состояния дорожной системы города и возможности получения оперативных, адекватных и не противоречивых данных о состоянии общественного транспорта. Комплекс основывается на разработке методики, алгоритмов и модулей системы мониторинга и корреляции событий функционирования, оценки и прогнозирования характеристик системы управления транспортными системами и потоками города на основе моделей многоканальных не марковских систем массового обслуживания. Предполагаемый продукт на практике осуществляет сбор и обработку больших массивов неоднородных данных из гетерогенных систем. Например, средства защиты от НСД, ОС, СУБД, коммуникационного оборудования, антивирусных средств, средств МЭ, СОВ, IDM, DLP, прикладных систем (1С, биллинговых систем,…). Научный задел включает решение следующих задач:

– Организации получения данных по различным протоколам и различными методами как локально, так и через ЛВС, СПД.

– Приведение данных о событиях ИБ к внутреннему формату (на основе регулярных выражений).

– Организации хранения и выборки данных из СУБД MySQL.

– Реализован как агентский, так и безагентский методы сбора.

– Создана распределенная система с балансировкой нагрузки на сборщики событий.

– Реализована экспертная модель корреляции событий (смотрим другие варианты).

– Обеспечено требуемое быстродействие по обработке событий ИБ (от 5 000 до 50 000 EPS). Разработаны модели для оценки быстродействия. Методики для проверки и подтверждения достоверности.

7. Технология обработки спутниковых данных в задачах тематического дешифрирования и оценки состояния окружающей среды (Пак И.Т., Терехов С.).

Полученные результаты указывают на возможность построения инновационных схем в задаче долгосрочного прогноза степени увлажнения вегетационного сезона в Казахстане и сопредельных странах. Данная тематика могла бы быть основой для разработки, следующей темы «Прогностические схемы оценки увлажненности пахотных земель Казахстана и сопредельных стран на основе обработки спутниковых методов топологической динамики и морфологии», что будет иметь большое значение для страны. Эффективная государственная политика в области экспортно-ориентированного растениеводства и развивающегося животноводства требует качественной информационной поддержки, в том числе и с искусственных спутников Земли. Финансирование данного направления будет содействовать коммерциализации научных работ Института.

8. Методы компьютерной топологии для диагностики цифровых изображений (Макаренко Н.Г.).

Цель проекта – развитие методов анализа и моделирования цифровых изображений высокого разрешения методами вычислительной топологии. Разработан и реализован рабочий алгоритм для оценки рангов первых двух групп гомологий по цифровым изображениям. Проведено тестирование топологических дескрипторов (чисел Бетти) по базе данных стандартных текстур. Первые полученные результаты показали эффективность подхода. Методы исследования:

Алгебраическая топология.

Вычислительная топология.

Геометрия случайных полей.

Вероятностные меры в пространствах Банаха.

Результаты рекомендуются для использования в системах обработки Данных Дистанционного Зондирования для задач текстурного анализа и сегментации цифровых изображений. Предлагаемая техника требует довольно высокой математической культуры пользователя. Существенным отличием является описание текстур, адаптированное к их масштабным свойствам. Результаты могут быть рекомендованы при дистанционном зондировании.

9. Программно-аппаратная реализация иммунносетевой технологии для систем промышленной автоматизации (Самигулина Г.А.).

Реализация интеллектуальной системы управления на основе искусственных иммунных систем на современном оборудовании промышленной автоматизации Sсhneider Electric с целью практического внедрения данной технологии в производство. Научная новизна подхода заключается в интеллектуализации процесса сбора и обработки многомерных данных с динамических промышленных объектов управления, которая сочетает в себе применение современного производственного оборудования и новейших разработок искусственного интеллекта. Планируется работа с Французским центром при КазНТУ им. Сатпаева на оборудовании Schneider Electric.

10. Система контроля окружающей среды умного города (Мухамедиев Р.И.Р).

Переход городских хозяйств мегаполисов и крупных городов Казахстана в состояние «умных» городов и использования возобновляемых источников энергии требует объективного контроля и управления.

Для реализации этой функции, а также для получения информации в соответствии с целями деятельности городских служб, предлагается разработать систему контроля окружающей среды умного города (Monitoring system of Smart City Environment – MSSCE).

В частности, в интегрированной интеллектуальной электроэнергетической системе большое значение будут иметь возобновляемые источники энергии (ВИЭ) на которые большое значение оказывают погодные условия. Система контроля окружающей среды умного города решает следующее задачи:

Мониторинг и сбор данных о погодных условиях (температура и давление воздуха, влажность, освещенность, сила ветра)

Мониторинг и сбор данных о загрязненности воздуха в районе установки станции (качество воздуха)

Мониторинг окружающей обстановки (аудио- и видео- мониторинг)

Мониторинг и сбор данных об опасных явлениях природы (наводнения, землетрясения, пожары)

Обеспечение отправки специальных сигналов и поддержка терминала пользователя (тревожная кнопка, системы навигации умных остановок)

Анализ и визуализация данных совместно с данными, получаемыми методами дистанционного зондирования.

Система разработан и находится на стадии опытной эксплуатации. Обеспечивает автоматический сбор данных о погоде и загрязненности воздуха.

11. Разработка программного комплекса по обнаружению сайтов определенного содержания (Амиргалиев Е.Н., Мусабаев Р.Р).

Для большего охвата населения Казахстана Правительством Казахстана планируется уменьшить тарифы на пользование Интернетом. Поскольку основными пользователями Интернета является молодежь, относящаяся к группе повышенного риска по религиозному мировоззрению и моральным устоям, нами предлагаются разработки, позволяющие поставить заслон сайтам антисоциального содержания. К таким разработкам нашего Института относится разработка лингвистического процессора языка, который включает лексический, морфологический и семантический анализатор. Разработанный лингвистический процессор может фильтровать контент сайтов на предмет содержания антисоциальной информации, создать список таких сайтов для последующего автоматического блокирования их.

Предлагаемый процессор казахского языка может использоваться в следующих направлениях:

Проверка орфографии и грамматики текстов на казахском языке;

Разработка программного комплекса по обнаружению сайтов, содержащих информацию антисоциального характера;

Система блокирования утечки конфиденциальной информации через интернет за пределы организации;

Система фактографического сбора информации через Интернет.

12. Мобильные робототехнические комплексы.

В настоящее время наблюдается устойчивый рост интереса к робототехническим системам со стороны научных, образовательных, военных и других учреждений. В нашем Институте в рамках проекта построил следующие робототехнические комплексы:

Мобильная платформа для научных целей.

Специальный мобильный робот для обхода препятствий.

Гусеничная мобильная платформа с машинным зрением для военных и специальных гражданских служб.

Модель скоростного высокоманевренного истребителя «Беркут».

Гексакоптер с видеокамерой.

Для управления робототехническими системами предложено использовать технологию беспроводной передачи данных и технологию «облачного» вычисления, при которой все вычислительные задачи выполняются непосредственно на сервере. Режим контроля и разграничения прав доступа исключает любое несанкционированный доступ к системе управления.

В процессе работы создано универсальное программное обеспечение, позволяющее использовать устройства доступные на мобильных платформах (смартфоны, планшеты, ноутбуки). Это позволяет осуществить переход к компактным системам управления. Разработка существенно снижает расходы на приобретение оборудования и обеспечивает мобильность управления робототехническими системам. Роботизированная платформа, оснащенная системой 3-х мерного машинного зрения, которая может быть использована в качестве учебного робота в отечественных университетах при обучении студентов робототехнике и управлению сложными техническими системами. Данный робот имеет открытую архитектуру, имеется возможность разработки программного обеспечения для управления этим роботом. На основе встроенной системы 3-х мерного машинного зрения можно осуществлять разработку интеллектуальных алгоритмов управления робототехническими системами на основе визуальной информации. В случае налаживания серийного производства данного учебного робота на территории Казахстана можно будет оснастить им все ведущие университеты РК. При этом стоимость данного робота будет значительно ниже зарубежных аналогов. Данный робот может стать первым отечественным серийно производимым роботом в РК.

13. Системы машинного перевода (Сулейменова Е.Р., Варенников А.В.Р).

Разработка представлена в виде Web-портала, позволяющего переводить отдельные слова, предложения или веб-страницы с казахского языка на русский и с русского языка на казахский с использованием корпуса параллельных текстов на основе статистических методов. Особенностью данной системы является возможность её адаптации к узкой предметной области, таким как, медицина, юриспруденция и т.д., а также обучение её другим языкам. Может использоваться как в корпоративных сетях, так и в сети Интернет. Кроме того, существует программный интерфейс, позволяющий использовать систему машинного перевода в любых приложениях, поддерживающих специальные сетевые протоколы обмена сообщениями.

14. Математическое моделирование электроэнергетических и экономических систем (Калимолдаев М.Н., Евтушенко Ю.Г.).

Разработаны математические модели и создан программный комплекс для исследования устойчивости, стабилизации, оптимальности и управляемости движения сложных электроэнергетических систем. Решена проблема устойчивости движения, стабилизации, управляемости и оптимальности математических моделей для сложных электроэнергетических систем. Разработана информационная система, обеспечивающая оптимальное управление и устойчивость современного электроэнергетического комплекса, обеспечивающая непрерывность и высокие скорости технологических процессов, а также их надежность и безопасность. Система будет расположена в центре управления энергосистемы. Программное обеспечение анализирует состояние синхронной работы системы в каждый момент времени. Если в системе произойдет авария или сбой, в результате которого система теряет свою синхронность, то данный программный продукт определяет это с помощью датчиков расположенных в электростанциях. И если один генератор в электростанций выходит из строя, то мощность остальных генераторов в электростанции автоматически увеличится для обеспечения требуемой потребляемой мощности. Используя характеристики вышедшего из строя генератора, программное обеспечение выбирает для него алгоритм оптимального управления, и действуя по данному алгоритму, приводит вышедший из строя генератор в рабочее состояние.

Реализованы экономические модели Р. Барро для расчета эндогенного экономического роста, Р.Лукаса для управления полезностью при уравнении движения капитала; Кобба-Дугласа как классический пример эконометрического моделирования. Решена прямая задача рассеяния для (2+1)-мерной нелинейной математической модели А1, соответствующая реализации позитивного подхода экономической политики. Разработаны алгоритмы динамического программирования для моделей Р. Барро, Лукаса, Кобба-Дугласа с целью повышения эффективности управления экономических систем. Разработан программный комплекс функционирования экономических систем Р. Барро, Лукаса, Кобба-Дугласа, (2+1)-мерной нелинейной математической модели солитона.

15. Разработка программно-аппаратного комплекса для носителей информации с защищенным доступом (Бияшев Р.Г., Сахариев Б.Б.).

Для обеспечения информационной безопасности разработаны программно-аппаратные комплексы в виде флеш-накопителей с защищенным доступом.

Принципиальная особенность его заключается в том, что в журнале, который аппаратно встроен во флеш-накопитель, фиксируются все попытки работы с ним на различных ПК, вне зависимости от того, была ли попытка успешной. Если его подключали к какому-то ПК, данные об этом зафиксированы в его аппаратном журнале, отредактировать который пользователь не может.

Предназначен только для тех сотрудников, в чью сферу ответственности входит работа с данными, конфиденциальность которых критична, но которые, вместе с тем, должны храниться на служебном носителе и переноситься сотрудником в рамках его должностных обязанностей на различные компьютеры (причем эти компьютеры могут, как входить, так и не входить в состав корпоративной сети).

Если запрет на работу с флеш-накопителем на компьютерах вне заранее определенного перечня не установлен, то пользователь может подключать его к «посторонним» для системы компьютерам и работать на них с данными, хранящимися на флеш-накопителе, – под свою персональную ответственность, так как информация об этом будет отражена в журнале.

Если же запрет установлен, пользователь может подключить его к неразрешенному ПК, но работать с данными не сможет, так как диск устройства не будет определен компьютером как флеш-накопитель. А вот факт попытки подключения при этом будет зафиксирован в журнале.

Для обеспечения информационной безопасности в съемных служебных накопителях информации, институтом разработаны алгоритмы шифрования и разграничения доступа. В связи с этим, для защиты хранимой и передаваемой информации рекомендуются использовать наши программные продукты, реализующие разработанные системы шифрования и разграничения доступа.

Рекомендуется для практического использования для защиты хранимой и передаваемой информации, как в государственных, так и в коммерческих организациях.

16. Исследование уязвимостей человеческого фактора с целью обеспечения национальной кибер-безопасности.

Несмотря на значительный прогресс и развитие технических методов защиты информации, главной уязвимостью информационной безопасности был и остаётся человек. Существуют методы управления действиями человека без использования технических средств. Методы основаны на использовании слабостей человеческого фактора и считаются очень разрушительным. Используя эти методы, злоумышленник может не только получить доступ к персональным данным, но и влиять по поведение пользователей сети, формировать общественное мнение в кибер-пространстве. С связи с этим очень важно выявлять и анализировать факторы, влияющие на социальные процессы через среду сети Интернет. В институте имеется научный задел, который может быть использован при разработке информационных систем для анализа кибер-угроз с учетом человеческих факторов, а также подготовке учебно-методических материалов для персонала государственных и частных организаций в различных отраслях экономики. Основными работами являются: анализ организации рабочего процесса, учёт используемых технических и информационных средств, анализ потока данных внутри предприятия, исследование реакции персонала на внутренние и внешние факторы, выявление среди сотрудников групп рисков, классификация и оценка кибер-угроз.

17. Начата работа по проекту»Большие данные и облачные технологии при разработке инфокоммуникационных систем».

Проводится анализ случаев применения технологий «Больших данных» в отдельных секторах экономики. Разрабатывается технология новых высокоэффективных алгоритмов кластеризации больших объёмов слабо структурированной информации. Решаются следующие задачи: Построение алгоритмов сбора больших объёмов данных и их предварительного анализа в условиях Больших данных. Программная реализация алгоритмов сбора больших объёмов данных и их предварительного анализа. Построение алгоритма нормализации больших объёмов данных. Программная реализация алгоритма нормализации больших объёмов данных. Разработка алгоритмов сегментации больших объёмов данных. Программная реализация алгоритмов сегментации больших объёмов данных. Построение алгоритмов параметризации и выявления информативных признаков. Программная реализация алгоритмов параметризации и выявления информативных признаков. Разработка новых алгоритмов кластеризации в условиях Больших данных на основе анализа плотности распределения данных в пространстве признаков. Программная реализация новых алгоритмов кластеризации в условиях Больших данных на основе анализа плотности распределения данных в пространстве признаков. Разработка новых высокоэффективных алгоритмов кластерного анализа в условиях наличия ограничений на расстояния между объектами, входящими в один кластер. Программная реализация новых высокоэффективных алгоритмов кластерного анализа в условиях наличия ограничений на расстояния между объектами, входящими в один кластер. Разработка алгоритмов кластерного анализа на основе вероятностного подхода.

18. AP09260670 Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов (руководитель проекта: Пак А.А.)

Цель проекта: изучить подходы для улучшения обобщающей силы моделями векторных вложений слов.

Исследуемая проблема: Алгоритмы вложений слов являются важным этапом препроцессинга текста в информационных системах обработки естественных языков. Основная цель этих алгоритмов – представить текст в машиночитаемой формате с сохранением семантических, лексических и синтаксических атрибутов слов для последующего анализа и обработки. Согласно Ф. де Соссюру, язык должен изучаться независимо от человека, как бы с позиции стороннего наблюдателя. Иными словами, буквенное написание слова никак не связано с его смыслом – это и есть основная трудность смысловой(семантической) векторизации текста. Актуальными вопросами исследований в таких алгоритмах является разработка подходов для уменьшения размера описания моделей вместе с повышением обобщающей способности. Действительно в последних исследованиях системы обработки естественных языков показали свою «хрупкость» к искажению входных данных, а также «лживость», в смысле, склонность улавливать статистические эксцессы, вместо обучения обобщению. Таким образом в настоящем исследованию предлагается разработка подходов улучшающих обобщающую способность алгоритмов вложений слов.

Подходы:

На наш взгляд, можно выделить три основных направления развития алгоритмов векторных вложений слов, а именно:

1) использование идей индуктивного смещения для лучшего контроля над результатом, т.е. использование лингвистических структур в архитектурах нейронных сетей – одна из основных тенденций 2017 года. Следует отметить, что такие архитектуры становятся все более зависимыми от ручной работы исследователей и разработчиков. Тем не менее, этот подход позволяет изучать более сложное поведение с меньшим количеством данных;

2) интеграция здравого смысла в модель обработки естественного языка; действительно, большинство актуальных задач обработки текстов связаны с такими качествами, как абстракция, логика, всестороннее познание мира;

3) Обогащение входных данных дополнительной информацией иили моделирование данных и распределений, которые не принадлежат обучающей выборке, поскольку большинство систем ориентировано на конкретную область знаний и не обладают в широком смысле качеством обобщения.

Ожидаемые результаты:

В соответствии с конкурсной документацией на грантовое финансирование по научным и (или) научно-техническим проектам на 2021-2023 годы, утвержденной приказом Председателя Комитета науки Министерства образования и науки Республики Казахстан от «6» августа 2020 года № 117-нж планируется опубликовать:

– не менее 3 (трех) статей и (или) обзоров в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти);

– а также не менее 1 (одной) статьи или обзора в рецензируемом зарубежном или отечественном издании, рекомендованном КОКСОН;

Будут исследованы подходы, повышающие обобщающую способность векторных вложений слов.
Будут получены алгоритмы и методы аугментации текстовых данных:
- дополнительной информацией, например, семантическими и синтаксическими отношениями, что в результате позволит повысить обобщающую способность.
- новыми обучающими примерами, например, с использованием отношений гипоним-гипероним между семантическими сущностями.
Будут получены алгоритмы интеграции здравого смысла в векторные вложения слова за счет использования дополнительной информации.

Для реализации проекта планируется применение комплексного подхода и решение следующих задач:

Разработка алгоритмов и методов аугментации текстовых данных дополнительной информацией, а именно семантическими и синтаксическими отношениями из сторонних источников данных, а также дополнения набора данных новыми синтетическими примерами. В данной задаче предположительно будут использованы подходы из области Генераций Естественного Языка (Natural Language Generation, NLG). Предполагается тестирование и реализация различных подходов NLG, например: 1) Нейрокомпьютинг – рекуррентные нейронные сети (Recurrent Neural Networks, RNN), Основанные на внимании нейронные сети (Attention-based Neural Networks, ANN), Графовые нейронные сети (Graph-based Neural Networks, GNN), Гибридные нейронные сети, объединяющие все выше перечисленные архитектуры; 2) Символический или основанный на аппарате формальных логик подход 3) Гибридный подход, соединяющий в себе идеи нейрокомпьютинга и символического подхода.
Разработка подходов для метрик и оценок перефразирования входных текстовых данных. Модели NLG text-to-text иили data-to-text предполагают замену слов иили фраз исходного текста иили данных, что может привести к искажению смысла, стиля, связанности нарратива, читабельности. Более того, существует дополнительное требование к алгоритмам генерации текста и метрическим оценкам, а именно низкая вычислительная сложность, обусловленная известным феноменом больших данных (BigData). Таким образом, в настоящем разделе первым шагом является построение тестового набора данных для оценки параметров валидности (искажения смысла), соответствия стиля, связанности нарратива, читабельности. Следующий шаг – разработка теоретических основ и тестирование практических реализаций для приближения человеческих метрик качества текста.
Тестирование векторных вложений слов на аугментированных и сгенерированных данных на нижестоящих задачах обработки естественных языков. В настоящей задаче планируется провести сравнительный анализ между обучением векторных моделей вложений слов на оригинальных и на синтетических данных.

В результате выполнения настоящих трех задачи будет опубликовано не менее двух статей и/или обзоров в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти). А также не менее одной статьи или обзора в рецензируемом зарубежном или отечественном издании, рекомендованном КОКСОН.

В институте работают 33 доктора наук, 32 кандидата наук и 6 докторов PhD, в том числе 90 молодых учёных в возрасте до 39 лет. Кроме этого в институте работают молодые ученые, которые обучаются по программе целевой подготовки в КазНИТУ им. Сатпаева, в Международном университете информационных технологий, а также по проекту интеграции науки и образования на совместных образовательных программах НИИ КН МОН РК и КазНУ им. аль-Фараби в докторантуре PhD и магистратуре. На сегодняшний день общий контингент обучающихся в магистратуре и докторантуре PhD составляет – 52 человека, в т.ч. 29 докторантов и 23 магистрантов. Тематика исследовательских работ докторантов и магистрантов связана с проектами грантового и программно-целевого финансирования. В 2016 году успешно защитились 7 докторантов, которые обучались по программе целевой подготовки.
В институте есть научный и технический задел для доведения наших разработок до конечного продукта.