基于多模型方法的台风分类、路径预测及登陆后降水影响分析

摘要

台风作为全球最严重的自然灾害之一,具有极大的破坏性和复杂性,其预测和分类具有重要意义。本文基于历史台风数据,针对台风的特征分类、路径预测以及登陆后的降水量和风速变化进行了详细分析,并结合多种模型进行求解。

在数据预处理方面,本文对 1945 年至 2023 年的台风数据进行了系统性的处理,包括缺失值的插值填充、时间格式的转换、异常值的检测与剔除,以及对非数值型数据的编码处理。这些步骤为后续的模型建立提供了干净且高质量的数据基础。

问题一中,目标是对台风的特征参数(如强度、风速等)进行分类。该问题采用了 随机森林分类模型 来分析台风的特征与气象因素的关系,通过对历史数据的特征选择和分类模型训练,成功将台风分类为不同类别(例如夏台风与秋台风),并分析了各类别的主要特征与差异。该方法的创新点在于结合气象因素与多维度特征进行分类,有助于提高对台风性质的理解。

问题二中,目标是对台风路径进行预测。我们使用 函数型主成分分析 (FPCA) 与 多层感知器 (MLP) 相结合的方法对台风路径进行预测,提取了台风路径的主要变化模式,结合 FPCA 对路径特征进行了降维,再使用神经网络模型进行了时间序列预测,并通过 动态时间规整 (DTW) 算法与实际路径进行对比。结果表明,FPCA 有效提取了路径的主要特征,模型对路径的预测表现良好。创新点在于通过 FPCA 提取路径特征并结合 M

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

一、模型的建立与求解

5.1 数据预处理

5.1.1 数据编码

为了在模型中有效利用台风强度的分类信息,本研究对台风强度的数据进行了必要的编码转换。由于原始数据中使用汉字或者字母表示台风的强度类别,如"超强台风(Super TY)"、"强热带风暴(STS)"等,

表1:数据编码原始数据

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

为了便于计算机处理并应用于后续模型建立,必须将这些分类转换为数值编码。具体编码方案如下:

·空白 (代表未记录的强度) : 0

·超强台风 (Super TY) : 1

·强热带风暴(STS):2

·强台风 (STY) : 3

·热带低压 (TD) : 4

·热带风暴 (TS) : 5

·台风 (TY) : 6

编码后的数据可以表示为一个向量形式,其中每一类台风强度都对应唯一的数值。对于数据的数值编码过程,可以用公式表示如下:

5.1.2 数据处理

原始数据中的时间格式无法直接被计算机识别和处理,因此需要进行统一的格式转换以便于后续分析和建模。题目中所给的时间数据是基于六小时间隔记录的,这样的时间数据形式如果不加以标准化,很难在计算中正确使用。因此,我们将时间数据转换为标准的 YYYYMMDDHH 格式,以方便时间序列的处理与分析。

·时间转换规则:
 假设原始数据的时间记录包含年、月、日及每六小时的间隔(例如,0时、6时、12时、 18时),需要将这些信息合并成一个统一的时间表示。

·转换后的时间格式为 YYYYMMDDHH ,其中:
  YYY 表示年份

·MM 表示月份
 DD 表示日
 HH 表示小时 (范围为  ,表示六小时间隔)

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

5.2 问题一模型的建立与求解

5.2.1 台风特征参数与气象因素的关系

为了建立台风特征参数与气象因素之间的关系,本研究对历史台风数据进行了相关性分析。考虑到台风特征数据(如台风强度、风速、气压等)不符合正态分布,因此我们使用 Spearman 相关系数 来分析变量之间的关系。Spearman 相关系数是一种非参数的相关性度量方法,用于衡量两个变量之间的单调关系,适合处理非正态分布的数据。

Spearman 相关性计算

·Spearman 相关系数:Spearman 相关系数用于度量两个变量之间的单调相关性,定义为两个变量的秩值之间的皮尔逊相关系数。假设我们有两个变量  和  ,Spearman 相关系数  计算如下:

1数据排序:对两个变量的数据进行排序,得到其秩次  和  ,分别表示  和 的秩序统计量。

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

其 Spearman 相关系数为 0.9961,这意味着风速越高,台风等级也越高,这种结果符合我们对台风的物理特性理解。风速是影响台风等级的重要因素,台风的破坏力主要由其风速决定,因此两者呈现出如此强的正相关性。此外,气压与风速之间呈现出高度负相关的关系,相关系数为 -0.9433,这也符合气象学中的常识,即气压越低,风速通常越大。类似的,气压与台风等级也存在高度的负相关关系,相关系数为 -0.9422,说明低气压通常意味着较高的台风等级,这一结果也与物理学中台风的形成原理相吻合。

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

5.2.3 实际分类展示

在完成历史数据的分类后,我们将建立的随机森林模型应用于 2024年台风数据。首先,我们读取 "2024年台风数据.xlsx" 文件,并提取与模型相对应的特征列(风速、气压、移动速度)。对台风起始时间字段进行预处理,将其转换为标准的日期格式 YYYYMMDDHH,并提取台风发生的月份。根据月份信息,我们将台风分为夏台风和秋台风两类,其中  月的台风为眰台风,9、10、11月的台风为秋台风。

具体的分类规则为:

·台风发生月份属于  时,类别为 夏台风。

·台风发生月份属于  时,类别为秋台风。

随后,我们使用之前训练好的随机森林模型对 2024 年的台风数据进行分类,得到每条记录的类别预一致的分类结果,类似于之前处理历史数据的方式。

2024 年 MathorCup妈杯A题台风的分类与预测论文首发+代码分享-LMLPHP

10-27 04:35