强对流天气是严重威胁人类生命财产安全的高影响天气,其影响系统的小尺度、突发性、易变性等特征使其难以预报。实现对对流风暴初始发生(即对流初生,CI)的预报可有效实现强对流天气的早期预警。
4月12日,国家气象信息中心熊安元团队联合国防科技大学在国际顶级学术期刊NATURE旗下子刊 Scientific Data发表了题为“A dataset for machine learning model to convective initiation detection and nowcasting over southeastern China”的最新数据集成果(https://www.nature.com/articles/s41597-026-06902-3),研发了一套名为CIDS(CI Dataset)的数据集,用于对流初生(CI)的人工智能识别和预报。数据集采集了2018-2023年3月-9月发生在中国东南部地区12个省的短时强降水、雷暴大风和冰雹三类强对流天气过程作为数据样本,包含了43049个站次的强对流天气,逐过程逐10分钟形成样本时间序列,覆盖中国东南部地区。研究提出了基于雷达反射率因子的对流云团初生(CI)的动态阈值判识技术,获得了每一个样本空间上CI的基本属性标签(包括位置、形状、强度等),并通过分析未来30分钟内CI的空间范围和强度演变判断CI发展情况,进一步给出了CI的发展类别标签。数据集提供了10种雷达拼图产品和FY-4A卫星9个通道的亮温(或反射率)作为特征参量或预报因子。CIDS包含136,728个样本,共识别出4,159,491个CI,其中1,789,208个为发展型CI。



图1 数据集一个样本的可视化示例(北京时间2019年4月9日15:00)
a) 雷达组合反射率;b) 卫星10.8μm通道亮温;c) CI位置和发展类型标签。
分析给出了研究区域内识别得到的4,159,491个CI的空间位置分布特征和时间演变特征, CI出现频率的空间分布特征高度相似于区域内3-9月降水的气候分布型(图2),CI的日变化特征与降水的日循环特征基本一致。分析CI在未来30分钟的时间演变,大多数CI会减弱消散,可发展和增强的CI只占全部新生对流云团的43%。

图2 2018-2023年发展型CI频率分布(左);3-9月降水气候值总量分布(右)
利用CIDS提供的逐10分钟时间序列样本,可发展深度学习模型,学习前期卫星和雷达特征与后期CI出现位置、强度和发展类别之间的联系,对未来CI出现位置以及能否发展进行预报,实现强对流天气的早期预警。
本研究由国家气象信息中心联合国防科技大学共同完成。国家气象信息中心刘雨佳高工为论文第一作者,熊安元研究员为通讯作者。研究得到了国家自然科学基金气象联合基金项目(U2242201, U2442217)资助。