气象科学专业知识服务系统
数据赋能25载丨研发强对流天气训练数据集 赋能强对流天气人工智能预报应用


强对流天气突发性强、发展快、致灾性强,其准确预报是世界公认难题,传统预报方法在捕捉强对流天气局地性和瞬时性方面存在局限性。“风清”等预报模型表明人工智能在天气预报领域具有较好潜力,但中小尺度强对流天气预报场景,缺乏高质量、有标注的数据集。国家气象信息中心自主研发的强对流天气人工智能应用训练数据集(以下简称“数据集”)是基于多源、长序列、高时空分辨率的多维变量数据,自主研发了数据清洗、标签标注和特征因子提取算法,整编研发了与强对流天气尺度匹配的分钟和公里尺度数据集,标注样本量超171万个,构建了良好循环的“产学研用”协作生态,有效支撑强对流天气监测及预报模型应用和快速发展。


dd19792743a05771cb5cf4c6265ee1b9.jpg


数据集组成

聚焦中小尺度强对流天气智能应用场景,数据集整编了中国区域10年时序长度、超33.2万个事件的强对流天气历史个例库;研制了8年时序长度、超过171万个样本的短时强降水、雷暴大风和冰雹等3种人工智能训练数据集,成果通过了中国气象局高价值产品准入,入选了中国气象局“十三五”科技成果,有效支撑上海“雨师”等强对流天气预报模型落地应用,预报评分较使用数据集前提升近5%。

数据集破解中小尺度天气标注难题,自主研发了强对流天气标签标注、特征提取技术及自动化工具。国家气象信息中心研发了基于多源数据交叉验证的数据清洗、基于机器学习的智能标注及融入专家知识的特征提取技术及自动化工具,数据处理和标注环节自动化率超85%,解决了数据量大、人工标注难等痛点问题,保证数据集持续迭代更新。

数据集赋能应用,建立了“场景驱动-数据研发-模型研发-示范应用”的协同联动机制。国家气象信息中心依托项目合作、创新团队及工作组等方式,建立了“预报场景驱动-数据研发-模型研发-示范应用-反馈改进”的多领域协同发展模式,数据集有效赋能局地强对流天气智能预报及人工影响天气防雹作业等典型应用场景,支撑预报评分提升近10%。

数据集构建了良好循环的“产学研用”训练数据集研发生态,填补了国内强对流天气人工智能应用训练数据集空白,可直接用于强对流天气智能预报模型训练,打造智能应用赋能示范。

目前,数据集已为国家气象中心、中国气象局人工影响天气中心和北京、天津、上海、浙江、江西等省份气象局强对流天气监测预报应用提供数据支撑,成果入选了国家数据局首批高质量数据集典型案例并基于2025年数博会发布。



编辑:张明禄
审核:苏杰西