1.数据预处理
所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据,都会严重地影响结 果的正确性。此外,带单位的数据也需要通过无量纲处理以减少单位对计算的影响。因此正确的数据预处理是前期值得关注的任务。
2.缺失数据
(1)均值填充法
如果缺失值是数值型的,就根据该属性在其他所有对象取值的平均值来填充该缺失的属性值,比如年龄、距离等属性。
如果缺失值是非数值型的,就根据统计学中的众数原理,用该属性在其他所 有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。比如
性别、类别等属性。
(2)就近补齐法
对于一个包含缺失值的对象,就近补齐法在完整数据中找到一个与它最相似 的对象, 然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标
准来对相似进行判定。该方法的难度在于如何定义相似标准,主观因素较多。
(3)聚类填充法
聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或 簇,同一类的数据尽可能聚集到一起,不同类数据尽量分离,使得同一个簇内的 数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能 地大。把数据分好类后可以在每个类别中处理缺失值,最经典的聚类算法是K- 近邻算法 (KNN) , 建议同学们在使用时根据数据属性合理选择距离和K(类别)
个数。
(4)回归方程法
用不含缺失值的数据集建立回归方程,把缺失值的点代入回归方程即可预测 缺失值,在具体使用时应该注意要留出一部分数据验证你的回归方程的准确性
(建议测试数据比例20%)。
3.异常值处理
异常值是指样本中的个别值,其数值明显异于其他观测值,异常值也叫离群 点。在比赛中,出题方可能会故意提供异常数据,考察参赛选手的数据分析和处理能力。
(1)检测方法
√ 基于实际问题
在一些实际问题中, 一方面可以用物理模型剔除一些异常值,比如用圆周运 动的临界条件筛选速度异常值;另一方面,可以根据生活常识剔除异常值,比如车速有上限。
√ 基于统计学原理
若数据服从正态分布,根据正态分布的定义可知,在默认情况下我们可以认 定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,
认为该样本为异常值。
√ 箱线图法
分位数:把数据分布划成4个相等的部分,每个部分表示数据分布的四分之 一,称为四分位数,100-分位数通常称为百分位数,即划为100个大小相等的部
分。中位数、四分位数和百分位数是使用最广泛的分位数。
四分位极差:第1个和第3个四分位数之间的距离称为四分位数极差,定义
为 :
IQR=Q₃-Q₁
五数概括由中位数(图片图片)、四分位数图片图片,最大值和最小值组成。
异常值识别的通常规则:挑选落在第3个四分位数之上或第1个四分位数之 下至少1.5×IQR的值。箱线图的断点一般在四分位数上,盒的长度是四分位数 极差IQR, 中位数用盒内的线标记,盒外的两条线(胡须)延申到最小和最大观 测值。仅当最大和最小观测值超过四分位数不到1.5×IQR 时,胡须扩展,否则 胡须再出现在四分位数的1.5×IQR之内的最极端观测值处终止,剩下的情况个
别列出。
该方法的优点在于既能对数据进行统计学描述,了解数据的整体特征,又能
可视化展示结果,简洁清晰。
(2)处理方法
a). 为了避免异常值影响结果的正确性,直接删除。
b). 在总体样本量较少的情况下,不能简单地删除异常值,因为样本量也很
影响结果,因此可以将异常值视为缺失值,使用缺失值处理方法来处理异常值。
4.无量纲化处理
无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其
不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分
析。
常见的无量纲化处理方法主要有标准化(各指标均值为0,标准差为1)、 均值化(各指标数据构成协方差矩阵)和归一化(将一列数据“拍扁”到某个固
定区间(常为[0,1]),和最大/小值有关),如归一化公式:
5.数据量问题
数据样本量不够或者查不到数据,可以在一定约束条件下用随机数生成,模 型适用即可。但切记要对模型做灵敏性分析和误差分析,来证明随机生成的数据
对模型的影响非常小。
数据不够确实令人做题时无从下手,但物极必反,数据太多也不是什么好事, 如果某个赛题提供了很多数据,需要对多维数据做降维处理,减少数据冗余,常
见的方法有主成分分析法 (PCA) 、 线性判别分析等。
6.预测模型
预测模型要根据题目所给数据样本量的大小,选择合适的方法:
(1)灰色预测模型(样本量<15)
数据样本点个数少, 一般建议为6-15个,或者数据呈现指数或曲线的形式。
(2)微分方程预测(样本量<100)
无法直接找到原始数据之间的关系,但可以建立微分方程,利用推导出的公
式预测数据。
(3)回归预测(100<样本量<1000)
回归预测就是把预测的相关性原则作为基础,把影响预测目标的各因素找出 来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方 法找出来。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法
和多元回归分析预测法。
7.插值与拟合
拟合与插值在数学建模竞赛中非常常见,但有以下几点需要留意:
(1)拟合与插值区别: 插值是离散函数逼近的重要方法,利用它可通过函 数在有限个点处的取值状况,估算出函数在其他点处的近似值;拟合是指将平面
上的一系列点与光滑曲线连接起来。
(2)灵活掌握不同插值方法的适用条件:拉格朗日插值( 一 维)、分段线
性插值(多条件)、三次样条插值(空间中的点)。
(3)灵活选择拟合函数: 比如一道经典的数模国赛车流量预测问题,对于 车流量,每个点代表每一小时的平均值,而且车流量可以看作是以天为周期的周
期函数,再联系不规则的函数曲线,可以考虑用傅里叶级数拟合。
8.推荐工具
(1)Excel: 越简单,越强大。你可能忽略了这个最常见的软件,但在数据处理方面,它毫不逊色专业软件,在数据可视化方面也方便操作。
(2)SPSS: 用于统计分析,围绕统计学知识的一些基本应用,包括描述统 计,方差分析,因子分析,主成分分析,基本的回归,分布的检验等等,我们前边提到的箱线图就可以用 SPSS一 键生成!
(3)Python: 熟练掌握Numpy,Pandas,Matplotlib 库 ,python 的强大无需多言,综合且高效!
(4)Tableau: 主要用于数据可视化展示,操作简单,可以直接用鼠标来选 择行、列标签来生成各种不同的图形图表,而且Tableau 的设计、色彩及操作界
面简单清新,做出来的图更美观。
(5)数据查找网站:
联合国数据中心:https://www.un.org/zh/databases/
联合国粮食及农业组织: FAOSTAT
谷歌学术: 思谋学术_谷歌学术搜索和文献资源
美国运输统计局: Bureau of Transportation Statistics
美国劳工统计局: https://stats.bls.gov/
美国农业部: USDA
美国人口统计局: http://www.census.gov/
美 国 普 查 局
http://2010.census.gov/2010census/language/chinese-simplified.php
中国国家统计局: http://www.stats.gov.cn/tjsj/
世界卫生组织: www.who.int/data/gh o
美国商务部经济分析局: www.bea.gov/data
Free GIS Data:freegisdata.rtwilson.com