如何进行有意义的探索性数据分析(EDA)

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

目录

1 | 设置

1.1 导入库

# 导入所需的库
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import tkinter
from matplotlib import pyplot as plt
from sklearn.model_selection import cross_val_score
from collections import Counter
# 设置seaborn的样式为ticks,并将上下文设置为talk
sns.set(style="ticks", context="talk")

<a id="1.2"></a>
## <b>1.2 <span style='color:#F1A424'>导入数据</span></b>


```python
# 读取训练数据和测试数据
try:
    # 尝试从指定路径读取训练数据和测试数据
    raw_train = pd.read_csv('/kaggle/input/playground-series-s3e4/train.csv', index_col='id')
    raw_test = pd.read_csv('/kaggle/input/playground-series-s3e4/test.csv', index_col='id')
except:
    # 如果指定路径读取失败,则从当前路径读取训练数据和测试数据
    raw_train = pd.read_csv('train.csv', index_col='id')
    raw_test = pd.read_csv('test.csv', index_col='id')

1.3 数据集特征

比赛的数据集(包括训练集和测试集)是从一个在信用卡欺诈检测(https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)上训练的深度学习模型生成的。特征分布与原始数据集接近,但并非完全相同。请随意将原始数据集用作比赛的一部分,既可以探索差异,也可以查看是否将原始数据集纳入训练可以提高模型性能。

请注意,与之前的Tabular Tuesdays数据集相比,这个比赛的基础数据集要大得多,因此可能包含更多的伪像。

https://www.kaggle.com/competitions/playground-series-s3e4/overview

1.4 数据集属性

数据集说明

该数据集仅包含经过PCA转换的数值型输入变量。不幸的是,由于保密问题,我们无法提供原始特征和更多关于数据的背景信息。特征V1、V2、…、V28是通过PCA获得的主成分,唯一没有经过PCA转换的特征是’Time’和’Amount’。特征’Time’表示每个交易与数据集中第一笔交易之间经过的秒数。特征’Amount’表示交易金额,该特征可以用于基于示例的成本敏感学习。特征’Class’是响应变量,如果是欺诈交易则取值为1,否则为0。

  • Id - 每行的唯一标识符。

  • Time - 该交易与数据集中第一笔交易之间经过的秒数

  • V1-V28 - 经过降维处理以保护用户身份和敏感特征的特征

  • Amount - 交易金额

  • Class - 目标类别(1表示欺诈交易,0表示真实交易)

🔝返回目录🔝

2 | 探索训练集和测试集

训练数据集中的观察结果:

  • 共有32列:30列连续型变量,0列分类变量,1列id和1列目标变量
  • 共有219129行
  • 类别是目标变量
  • 没有缺失值

测试数据集中的观察结果:

  • 共有31列:30列连续型数据,0列分类数据和1列id
  • 共有146087行
  • 没有缺失值

2.1 训练数据集 - 快速概览

# 查看训练数据的前几行
raw_train.head()

5 rows × 31 columns

2.2 训练数据集 - 基本统计信息

# 使用describe()函数对raw_train进行描述性统计分析
raw_train.describe()

8 rows × 31 columns

2.3 测试数据集 - 快速概览

raw_test.head()

5 rows × 30 columns

2.4 测试数据集 - 基本统计信息

# 使用describe()函数对raw_test数据进行描述性统计分析
raw_test.describe()

8 rows × 30 columns

🔝返回目录🔝

3 | 特征分布

# 获取数值型特征列
numeric_columns = (list(raw_train.loc[:, 'Time':'Amount']))

# 创建一个图形对象
fig = plt.figure(figsize=(20, 50))

# 设置子图的行数和列数
rows, cols = 10, 3

# 遍历数值型特征列
for idx, num in enumerate(numeric_columns[:30]):
    # 在图形对象中添加子图
    ax = fig.add_subplot(rows, cols, idx+1)
    
    # 设置网格线的透明度和轴
    ax.grid(alpha = 0.7, axis ="both")
    
    # 绘制训练集的核密度估计曲线
    sns.kdeplot(x = num, fill = True, color ="#3386FF", linewidth=0.6, data = raw_train, label = "Train")
    
    # 绘制测试集的核密度估计曲线
    sns.kdeplot(x = num, fill = True, color ="#EFB000", linewidth=0.6, data = raw_test, label = "Test")      
    
    # 设置x轴标签
    ax.set_xlabel(num)
    
    # 添加图例
    ax.legend()

# 调整子图的布局
fig.tight_layout()

# 显示图形对象
fig.show()

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

对于训练集和测试集来说,“时间”(Time)的分布非常不同。这可能会导致严重的问题,因为算法将更容易地区分这些集合。

我们可以通过将时间分解为一天中的小时特征或删除它来转换时间。

# 从原始训练数据中删除'Time'列,得到训练数据集
train_df = raw_train.drop('Time', axis=1)

# 从原始测试数据中删除'Time'列,得到测试数据集
test_df = raw_test.drop('Time', axis=1)

🔝返回目录🔝

4 | 数据不平衡检查 - 为什么它很重要

# 创建一个包含两种颜色的调色板
palette = ["#ADD8E6","#EFB000"]
# 给饼图添加注释
# 获取训练数据集中每个类别的数量,并转换为列表
l1 = list(train_df['Class'].value_counts())
# 计算每个类别在总数中的比例,并乘以100,得到饼图的数值
pie_values = [l1[0] / sum(l1) * 100, l1[1] / sum(l1) * 100]

# 创建一个包含两个子图的图形,设置图形大小为(20, 7)
fig = plt.subplots(nrows=1, ncols=2, figsize=(20, 7))

# 在第一个子图中绘制饼图
plt.subplot(1, 2, 1)
plt.pie(pie_values, labels=['Genuine', 'Fraud'], 
        autopct='%1.2f%%',  # 设置饼图上显示的百分比格式
        startangle=90,  # 设置饼图的起始角度为90度
        explode=(0.1, 0.1),  # 设置饼图中每个扇区的偏移量,使其突出显示
        colors=palette,  # 设置饼图的颜色
        wedgeprops={'edgecolor': 'black', 'linewidth': 1, 'antialiased': True})  # 设置饼图的边缘颜色、线宽和抗锯齿效果
plt.title('Fraud vs Genuine transactions in train data set %');  # 设置子图标题

# 在第二个子图中绘制柱状图
plt.subplot(1, 2, 2)
ax = sns.countplot(data=train_df, 
                   x='Class', 
                   palette=palette,  # 设置柱状图的颜色
                   edgecolor='black')  # 设置柱状图的边缘颜色
for i in ax.containers:
    ax.bar_label(i,)  # 在每个柱状图上添加标签,显示每个类别的数量
ax.set_xticklabels(['Genuine', 'Fraud'])  # 设置x轴刻度标签为类别名称

plt.title('Fraud vs Genuine transactions in train data set')  # 设置子图标题
plt.show()  # 显示图形

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

4.1 不平衡数据需要不同的方法

我们有**99.8%的真实交易(218,660笔),只有0.214%**的欺诈交易(469笔)!

这意味着盲猜(押注真实交易)将给我们**99.8%**的准确率。

  • 不要使用准确率作为不平衡数据集的度量标准 - 它通常会非常高且具有误导性(您可以使用AUC-ROC、召回率、F1分数等)。
  • 考虑利用欠采样或过采样技术。
  • 在训练测试拆分期间使用分层拆分。
  • 在处理异常值时要特别小心(您可以删除有意义的信息)。

5 | 我们应该删除异常值吗?

5.1 检查训练数据集中的异常值

# 定义一个函数,用于绘制数据集中数值型变量的箱线图
# 参数包括数据集、数值型变量列表、行数、列数和总标题
def boxplots_custom(dataset, columns_list, rows, cols, suptitle):
    # 创建一个绘图对象和子图对象
    fig, axs = plt.subplots(rows, cols, sharey=True, figsize=(16,25))
    # 设置总标题
    fig.suptitle(suptitle,y=1, size=25)
    # 将子图对象展平为一维数组
    axs = axs.flatten()
    # 遍历数值型变量列表,绘制每个变量的箱线图
    for i, data in enumerate(columns_list):
        # 使用seaborn库的boxplot函数绘制箱线图
        sns.boxplot(data=dataset[data], orient='h', ax=axs[i])
        # 设置每个子图的标题,包括变量名和偏度值
        axs[i].set_title(data + ', skewness is: '+str(round(dataset[data].skew(axis = 0, skipna = True),2)))
        
# 调用函数,绘制训练集中数值型变量的箱线图
boxplots_custom(dataset=train_df, columns_list=numeric_columns, rows=10, cols=3, suptitle='Boxplots for each variable')
# 调整子图的布局
plt.tight_layout()

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

看起来我们在异常值方面有很大的问题:

  • 巨大的异常值;

  • 高度偏斜的数据;

  • 很多异常值。

5.2 四分位距 (IQR)

Tukey’s (1977) 方法用于检测偏斜或非钟形分布的数据中的异常值,因为它不做分布假设。然而,对于小样本大小,Tukey’s 方法可能不适用。一般规则是,不在 (Q1 - 1.5 IQR) 和 (Q3 + 1.5 IQR) 范围内的任何值都是异常值,并可以被移除。

四分位距离(IQR)是最常用的异常值检测和移除方法之一。

过程:

  1. 找到第一四分位数,Q1。
  2. 找到第三四分位数,Q3。
  3. 计算 IQR。IQR = Q3-Q1。
  4. 将正常数据范围定义为下限为 Q1-1.5 IQR,上限为 Q3+1.5 IQR。
def IQR_method(df, n, features):
    """
    使用Tukey IQR方法,接受一个数据框并返回一个索引列表,该列表对应于包含n个以上异常值的观测值。
    """
    outlier_list = [] # 初始化一个空列表,用于存储异常值的索引
    
    for column in features: # 遍历每个特征列
        # 第一四分位数(25%)
        Q1 = np.percentile(df[column], 25)
        # 第三四分位数(75%)
        Q3 = np.percentile(df[column],75)
        # 四分位距(IQR)
        IQR = Q3 - Q1
        # 异常值步长
        outlier_step = 1.5 * IQR
        # 确定异常值索引列表
        outlier_list_column = df[(df[column] < Q1 - outlier_step) | (df[column] > Q3 + outlier_step )].index
        # 将异常值索引列表添加到总的异常值列表中
        outlier_list.extend(outlier_list_column)
        
    # 选择包含多于n个异常值的观测值
    outlier_list = Counter(outlier_list)        
    multiple_outliers = list(k for k, v in outlier_list.items() if v > n)
    
    # 计算低于和高于边界值的记录数
    out1 = df[df[column] < Q1 - outlier_step]
    out2 = df[df[column] > Q3 + outlier_step]
    
    # 打印删除的异常值总数
    print('删除的异常值总数为:', out1.shape[0]+out2.shape[0])
    
    return multiple_outliers

5.3 检测和删除异常值


# 使用IQR方法检测并处理离群值
Outliers_IQR = IQR_method(train_df, 1, numeric_columns)

# 在原始数据集中删除离群值,并重新设置索引
df_out = train_df.drop(Outliers_IQR, axis=0).reset_index(drop=True)
Total number of deleted outliers is: 20617

5.4我们做了什么?

# 打印输出在删除异常值之前数据集中的欺诈交易数量
print ('The amount of frauds in df before dropping outliers: ', len(train_df[train_df['Class'] == 1]))

# 打印输出在删除异常值之后数据集中的欺诈交易数量
print ('The amount of frauds in df after dropping outliers: ', len(df_out[df_out['Class'] == 1]))
The amount of frauds in df before dropping outliers:  469
The amount of frauds in df after dropping outliers:  188

通过删除异常值,我们丢失了约**的非常重要的数据!**

我们有几个选择,但对于这项研究,我们将回到删除异常值之前的阶段。这里一个非常有趣的选择是创建一个仅包含异常值的新数据框。您可以在此处查看此方法的结果:

https://www.kaggle.com/code/marcinrutecki/credit-card-fraud-detection-tensorflow

🔝返回目录🔝

6 | 处理重复值

# 打印数据集中重复值的数量
print('Number of duplicated values in dataset: ', train_df.duplicated().sum())
Number of duplicated values in dataset:  94
# 复制train_df数据框并赋值给df
df = train_df.copy()

# 删除df数据框中的重复行
df.drop_duplicates(inplace=True)

# 打印提示信息,表示重复值已成功删除
print("Duplicated values dropped succesfully")

# 打印100个"*",用于分隔输出信息
print("*" * 100)
Duplicated values dropped succesfully
****************************************************************************************************

让我们检查一下是否有任何欺诈交易被删除了。这很重要,因为如果是这样的话,我们应该再次考虑它们是否是真正的重复交易。

# 打印在去除重复值之前df中的欺诈数量
print ('The amount of frauds in df before dropping duplicates: ', len(train_df[train_df['Class'] == 1]))

# 打印在去除重复值之后df中的欺诈数量
print ('The amount of frauds in df after dropping duplicates: ', len(df[df['Class'] == 1]))
The amount of frauds in df before dropping duplicates:  469
The amount of frauds in df after dropping duplicates:  469

如我们所见,我们没有丢失任何重要的数据。

🔝返回目录🔝

7 | 相关性

# 创建一个11x11的图像
plt.figure(figsize=(11, 11))

# 计算数据集的相关系数矩阵
corr = df.corr()

# 创建一个与相关系数矩阵相同形状的布尔矩阵,上三角为True,下三角为False
mask = np.triu(np.ones_like(corr, dtype=bool))

# 使用热力图可视化相关系数矩阵,只显示上三角部分,颜色映射为viridis
sns.heatmap(corr, mask=mask, robust=True, center=0, square=True, cmap="viridis", linewidths=.6)

# 设置图像标题
plt.title('Correlation Table')

# 显示图像
plt.show()

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP


# 创建一个大小为7x4的图形
plt.figure(figsize=(7,4))

# 计算数据框df中'Class'列与其他列的相关系数,并取绝对值,按照相关系数的大小进行排序,并绘制柱状图
d = df.corr()['Class'][:-1].abs().sort_values().plot(kind='bar', title='Highly correlated features with Class')

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

🔝返回目录🔝

8 | 更多可视化



# 设置绘图大小
plt.figure(figsize=(10,10))

# 绘制联合分布图,x轴为V3,y轴为V1,颜色按照Class分类,数据来源为df,调色板为dark,点的大小为9
sns.jointplot(x='V3', y='V1',hue='Class', data=df, palette='dark', s=9)
<seaborn.axisgrid.JointGrid at 0x7f36c0b01f50>




<Figure size 720x720 with 0 Axes>

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP


# 设置图形大小
plt.figure(figsize=(10,10))

# 创建联合图
# x轴为特征V14,y轴为特征V8
# 根据Class变量的不同值对数据点进行着色
# 使用'dark'调色板进行着色
# 设置数据点的大小为6
sns.jointplot(x='V14', y='V8', hue='Class', data=df, palette='dark', s=6)
<seaborn.axisgrid.JointGrid at 0x7f36c0b01050>




<Figure size 720x720 with 0 Axes>

数据探查系列:如何进行有意义的探索性数据分析(EDA)-LMLPHP

🔝返回目录🔝

12-28 12:14