在机器学习项目中,大部分时间都花在了数据准备上。你可能听说过“数据是机器学习的燃料”的说法,这是因为高质量的数据是构建出色模型的关键。 在这篇文章中将使用Pandas库来进行数据准备。为了让内容更贴近实际将使用《三国志》游戏中的角色数据作为样本。 文章目录 数据编码与标准化 One-hot编码 Label Encoding 数值数据的标准化和归一化 Z-score标准化 Min-Max归一化 特征工程基础 创建多项式特征 特征选择方法 缺失数据处理 识别缺失数据 填充缺失数据 删除缺失数据 数据集划分 训练集和测试集 交叉验证 实践案例:使用Pandas分析《三国志》游戏角色数据