2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价+预测问题;B题为库存和销量的预测+优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码+论文。
下面为大家带来详细的A题解题思路【注:该思路为真实求解之前的暂定思路,实际论文代码可能因数据问题、模型问题与思路有一定出入】
作为数据类型题目,本题可以分为四个大部分,分别为数据处理、台风分类评价模型、台风路径预测模型、台风登陆后的风速与降水量预测模型。
数据处理
对于题目给出的数据一共提供了1945年至今1813场台风的相关数据。我们需要对题目给出的数据进行必要的处理。主要包括,缺失值处理、时间处理、数据编码、异常值处理、数据描述性分析。
1、缺失值处理;对于题目存在的大量缺失值,我们可以选择插值填充,也可以选择直接删除所在行。
2、时间处理,对于题目给出的数据格式,直接进行变成计算机无法识别,我们需要根据数据特征六小时间隔转化为YYYYMMDDHH格式,方便进一步进行处理
3、数据编码 对于题目给出的各种数据,存在直接使用汉字或者字母进行编码的结果,需要转化为数据才能进一步建立模型。
4、异常值处理 对于题目中存在的极端数据,例如 高达110的风速 低至50的气压都应该结合实际情况进行分析。
5、数据描述性分析;我们可以对题目给出的路径绘制对应的可视化,进一步进行描述分析
问题 1:台风特征参数与气象因素的关系及分类评价模型
根据题目提供数据,台风特征信息主要为台风强度、台风等级、风速、气压、移动方向、移动速度。首先,可以对台风特征参数进行相关性分析,了解每个指标与台风强度、等级之间的关系。计算特征之间的相关系数(例如使用皮尔逊相关系数),找出与台风强度(风速、气压)高度相关的气象因素。并使用热力图进行可视化展示。根据分析结果进行特征选择。
建立相关的分类模型进行分类即可,可以使用无监督学习方法,例如K-means聚类,对台风进行初步的类别划分。可以根据台风的风速、气压、移动速度等指标对台风进行聚类,分为若干类(如弱台风、中等台风、强台风)。
也可以从历史数据中获取台风类别(例如夏台风、秋台风的标签),可以使用**随机森林(Random Forest)或支持向量机(SVM)**进行分类。使用历史台风数据训练模型,以气温、气压、季风等气象数据作为输入,台风等级或类型作为输出。
问题 2:台风路径预测模型
要求根据多种气象因素(气温、气压、洋流、风场等)预测台风路径,并利用Dynamic Time Warping(DTW)算法与实际路径进行对比。
主要求解思路:使用回归模型或者时空序列模型进行路径预测。例如,考虑使用多元线性回归或者**LSTM(长短期记忆网络)**等适合时间序列预测的深度学习模型。使用**Dynamic Time Warping (DTW)**来度量预测路径与实际路径之间的相似性,DTW可以处理不同长度的时间序列,衡量它们之间的相似性。
具体过程
基于物理机制的数值预测模型
可以使用基于气象动力学的数值天气预报模型,如WRF,通过模拟台风生成的物理过程来进行路径预测。这些模型考虑了大气的物理过程,包括风场、气压梯度、地球自转等,但其计算量较大,操作难度较大,不推荐。
基于数据驱动的机器学习模型
台风路径预测属于典型的时空序列预测问题,深度学习方法中的**长短期记忆网络(LSTM)**和**门控循环单元(GRU)**非常适合这类应用。
LSTM/GRU**通过捕捉历史路径和气象因素的时间依赖性,能够预测台风未来的路径点。
模型输入包括过去的经纬度坐标、气压、风场等特征,输出为未来时间点的经纬度。
通过这种方式,LSTM或GRU可以用于逐步预测台风未来的路径点,从而形成完整的预测路径。这些模型需要大量历史台风数据进行训练,并通过交叉验证来确保模型的泛化能力。
多元函数型数据主成分分析(FPCA)
将台风路径的时间序列数据表示为连续函数,并通过主成分分解提取主要的变化模式,得到路径变化的主要特征。
可以将台风路径数据降维,得到几组主成分得分,这些主成分得分描述了台风路径的主要变化模式,如向北、向西的偏向趋势或路径曲率的变化。
Dynamic Time Warping(DTW)对比分析
将**预测路径**和**实际路径**使用DTW进行对比,计算它们之间的相似度。
问题 3:台风登陆后降水量和风速的关系
问题三要求建立台风在登陆后风速和降水量之间的关系,以及降水量与距台风中心距离之间的关系。我们需要结合物理机制和统计建模的方法,建立一个综合的预测模型,并应用于2024年9月16日至18日第13号台风贝碧嘉的实际情况进行预测与分析。
主要思想为建立 风速与距离、降雨量与距离的两个函数关系
使用历史台风数据拟合模型,计算出各回归系数,进行模型验证确保其泛化能力。
1风速与距离的关系模型
台风登陆后,风速通常呈现出逐渐衰减的趋势。我们可以使用指数衰减模型来描述风速随距离的变化: