Лаборатория интеллектуального анализа больших данных – Институт информационных и вычислительных технологий

Разработка методов анализа данных дистанционного зондирования. Проведение спутникового мониторинга территории Казахстана и сопредельных стран

Направление:

В настоящий момент данное направление поддерживается в рамках ГФ МОН РК (2018-2020 гг.) проект № АР 05134241 «Проведение мониторинга территории Синьцзян-Уйгурского Автономного Района КНР в пределах бассейнов трансграничных рек и зависимых территорий на базе спутниковой информации» (рук. ктн Терехов А.Г.)

Дистанционное зондирование подстилающей поверхности Земли с помощью спутников является хорошо развитой областью космических исследований. Используются различные части спектра (каналы), с пространственным разрешением, начиная от первых десятков сантиметров до километров, с частотой от нескольких покрытие в час (с геостационарных спутников) и реже. Существующие архивы спутниковых снимков имеют глубину свыше 30 лет, что позволяет анализировать изменения подстилающей поверхности Земли в различных задачах, вплоть до климатических исследований.

Методическая часть обработки спутниковых данных хорошо развита. Существующие методические проблемы могут касаться только отдельных задач глубокой тематической обработки данных дистанционного зондирования (ДДЗ). При решении таких задач могут привлекаться методы вычислительной топологии, текстурного анализа, развитые в ранее осуществленных проектах ИИВТ.

Мировая инфраструктура ДДЗ организована в формате свободного доступа к глобальным данным основных спутниковых систем и продуктам их обработки. Предполагается, что региональная проблематика должна формулироваться и решаться специалистами соответствующих стран, на основе глобальных продуктов. Такой подход обеспечивает корректность исходных спутниковых данных, что является основой максимальной достоверности полученного анализа. В настоящий момент практически значимые задачи обработки ДДЗ сосредоточены в ряде прикладных направлений.


Прикладные направления
	Гидрология
		Картирование водной инфраструктуры
			реки	р.Иле
			озера
				Эби-Нур (КНР),
				Манас (КНР)
			каналы
				Кара-Ертис – Карамай
				Кара-Ертис- Урумчи
			водохранилища
				Капшагайское (р.Текес)
				Жарынтайское (р.Каш)

		Оценка расхода воды
			Реки	Р.Иле (на границе КНР-Казахстан)
			каналы	Кара-Ертис – Джунгарская равнина (КНР)

		Оценка запасов воды
			Площади водных зеркал озер	Эби-Нур (КНР),	База данных
				Манас (КНР)	База данных
			Объем воды в рабочих частях водохранилищ	Капшагайское (р.Текес, КНР)	База данных
				Жарынтайское (р.Каш, КНР)	База данных
		Прогноз
			Режим работы Капшагайского вдхр.
	Сельское хозяйство
		Картирование пашни
			Бассейн оз. Эби-Нур
			Бассейн оз. Манас
			Бассейн р.Иле (КНР)
	Мониторинг окружающей среды
		Снежный покров
			Высота снега	Казахстан
			Аномалии высоты снежного покрова	Казахстан
			Аномалия водного эквивалента	Бассейн р.Иле (КНР)

Направление:

Разработка методов анализа медицинских данных.

В настоящий момент данное направление поддерживается в рамках двух проектов:

ГФ МОН РК (2018-2020 гг.) проект № АР 05132760 «Разработка методов глубокого обучения семантического вероятностного вывода» (рук. ктн Пак А.А.)
ГФ МОН РК (2018-2020 гг.) проект № АР 05132760 «Моделирование сложных систем методами графодинамики и дифференциальной геометрии» (рук. ктн Каримова Л.М.)

Феномен электронной медицины (ЭМ) связан с возможностью оцифровки данных о здоровье пациента, которые далее могут быть обработаны и проанализированы с целью улучшения ухода и диагностики. По факту, объем регулярно собираемых данных о состоянии здоровья пациентов обладает экспоненциальным ростом и являются одним из самых быстрорастущих сегментом цифровой вселенной. К сожалению, большая часть этой информации просто хранится на серверах и не используется для создания интеллектуальных информационных систем, которые могут использовать клиницисты для улучшения оказания помощи и повышения уровня жизни пациентов. В мировом научном сообществе существует гипотеза, что синтез машинного обучения и медицинских данных может обеспечить значительные выгоды не только для безопасности и качества ухода за пациентами, но и для экономики государств.

Несмотря на богатство и потенциал имеющихся данных, существуют определенные сложности в создании интеллектуальных информационных систем в приложении к медицине. Общепринятым мнением является тот факт, что 80% усилий в создании аналитических моделей является предварительная обработка (извлечение, трансформация, загрузка и очистка) наборов данных, что серьезно ограничивает масштабируемость прогностических моделей

Далее количество потенциальных предикторов в электронных медицинских записях (EHR) может исчисляться в тысячах, особенно для общедоступных данных. Традиционные подходы к моделированию подобной сложности путем выбора ограниченного числа входных переменных зарекомендовали себя малоэффективными.

Однако, было показано что разработки в области глубокого обучения и искусственных нейронных сетей могут позволить решить многие из этих проблем и «разблокировать» информацию в EHR. Эти архитектуры известны своей способностью обрабатывать большие объемы относительно грязных данных, включая ошибки в ярлыках и большого количества входных переменных (aka проклятие размерности). Ключевым преимуществом является тот факт, что исследователям обычно не нужно указывать, какие потенциальные предикторы модель должна использовать при обучении.