В журнале MDPI Water вышла статья сотрудников ИВП РАН: How Well Can Machine Learning Models Perform without Hydrologists? Application of Rational Feature Selection to Improve Hydrological Forecasting

Системы машинного обучения и искусственного интеллекта показывают способности для их эффективного использования в различных областях – как в повседневной жизни, так и в специальных приложениях. Дискуссия о применимости таких моделей идет и в гидрологии. На протяжении последних лет гидрологическое сообщество исследует вопрос: можно ли построить эффективную систему для гидрологического прогноза с помощью методов машинного обучения? Методов, которые необязательно имеют представление о процессах формирования речного стока, происходящих на водосборе?

Ученые из ИВП также работают над исследованием этого вопроса. В журнале MDPI Water вышла новая статья сотрудников Лаборатории гидрологии наводнений ИВП РАН под названием How Well Can Machine Learning Models Perform without Hydrologists? Application of Rational Feature Selection to Improve Hydrological Forecasting («Насколько хорошо модели машинного обучения могут работать без гидрологов? Применение рационального выбора предикторов для усовершенствования гидрологических прогнозов»). В ней рассматриваются возможности использования нескольких распространенных в настоящее время архитектур моделей машинного обучения для построения системы прогнозирования расходов воды.

Были использованы следующие виды моделей:

•                Простая множественная линейная регрессия

•                Кусочно-линейная регрессия M5P

•                Многослойный перцептрон (MLP)

•                Нейронная сеть с долгосрочной кратковременной памятью (LSTM)

Так как в отличие от физически обоснованных моделей, модели машинного обучения не содержат описания процессов формирования стока на водосборе, для интерпретации результатов моделирования в качестве объектов исследования были выбраны реки с разным режимом речного стока. Река Уссури на Дальнем Востоке России обладает ярко выраженным паводочным режимом, тогда как река Протва в Средней Полосе России характеризуется устойчивой летней меженью. Контрастирующие условия формирования стока этих рек должны показать способности и особенности моделей, даже в случае, если прямая интерпретация причинно-следственных связей в них затруднена, как это бывает при использовании нейросетей.

Для каждой модели были подготовлены наборы входных данных, созданные из стандартных гидрометеорологических рядов наблюдений за длительный период: расходы воды в замыкающем створе и температура воздуха и осадки на метеостанциях в бассейне. Из этих данных были созданы ряды предикторов – значения расходов в предшествующие прогнозу дни, суммы осадков и температур по бассейну, индексы увлажненности водосбора и потенциальное испарение. Задачей было построить краткосрочный прогноз расходов воды на срок до 7 суток.

Особенностью проведенных экспериментов стало то, что авторы специально отбирали некоторые предикторы для моделей из всех доступных, для использования имеющихся у гидрологов представлений о формировании стока. Были заранее оценены (авто)коррелляционные связи предикторов и прогнозируемых величин для отбора наилучших из них. Так, например, в качестве предикторов были отобраны не все предшествующие расходы воды, а только с определенным временем добегания; не все суммы осадков и значения температур, а только за определенный предшествующий срок, и т.д. Сравнение результатов моделей с такими отобранными предикторами с результатами моделей со всеми доступными предикторами дало представление о том, нужны ли гидрологи для обучения моделей, или этот процесс не требует наличия специальных знаний о процессах формирования стока.

Также авторы разработали новый подход при построении таких моделей – перемешивание исходных рядов предикторов и целей прогноза для повышения устойчивости и надежности методики.

На основании сравнения результатов моделирования были сделаны выводы об особенностях работы каждой из моделей. Оценка результатов прогнозов на срок от 1 до 7 суток на двух водосборах позволила сделать следующие выводы.

1.              Модели лучше справились с прогнозированием летнего паводочного стока на Уссури, чем устойчивой летней межени с отдельными паводками на Протве.

2.              Кусочно-линейные модели многомерной регрессии (M5P) справились лучше, чем искусственные нейронные сети.

3.              Модели с отобранными вручную предикторами лучше справились с прогнозированием меженного стока Протвы, чем модели со всеми доступными предикторами.

4.              Прогнозирование паводочного стока Уссури, напротив, было немного эффективнее при использовании всех доступных предикторов, чем отобранных вручную.

5.              Из двух использованных нейросетей модель LSTM показала лучшие результаты на обоих водосборах, причем особенностью этой модели является устойчивое качество прогноза на большую заблаговременность.

Опубликованная статья является первым результатом планируемой серии исследований применимости моделей машинного обучения и искусственного интеллекта для гидрологических задач.

Работа выполнялась по гранту РНФ №17–77–30006 (руководитель – Д.П. Соломатин) и в рамках темы № 0147-2019-0001 (№ государственной регистрации АААА-А18-118022090056-0) Государственного задания ИВП РАН.

 water-13-01696-v2.pdf

Дата публикации: 24.06.2021

Все новости