Python中常用的库-sklearn的介绍和代码案例
关注B站查看更多手把手教学:
今天我们来一起说下最近python中常用的机器学习库-sklearn。
Scikit-learn是一个基于Python的开源机器学习库,提供了广泛的监督学习和无监督学习算法。这些算法几乎覆盖了机器学习的所有领域,从分类、回归、聚类到降维等。Scikit-learn的接口统一、使用方便,并且基于NumPy和SciPy等库,使得其在处理大规模数据时也能保持高效。
常用代码案例及解析
- 线性回归
线性回归是预测连续值的最简单方法。以下是一个使用scikit-learn进行线性回归的示例:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import datasets
# 加载数据集
X, y = datasets.load_diabetes(return_X_y=True)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测测试集结果
predictions = model.predict(X_test)
在这个例子中,我们首先加载了内置的糖尿病数据集,并将其划分为训练集和测试集。然后,我们创建了一个线性回归模型,并用训练数据拟合它。最后,我们使用测试数据进行预测。
- 决策树分类
决策树是一种常用的分类算法。以下是一个使用scikit-learn进行决策树分类的示例:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建决策树分类器
clf = DecisionTreeClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 预测测试集结果
y_pred = clf.predict(X_test)
在这个例子中,我们加载了内置的鸢尾花数据集,并将其划分为训练集和测试集。然后,我们创建了一个决策树分类器,并用训练数据拟合它。最后,我们使用测试数据进行预测。注意,这里的预测结果是类别标签,而不是连续值。因此,我们可以使用准确率等指标来评估模型的性能。但是,为了简化示例,这里并没有展示评估过程。在实际应用中,你应该始终评估你的模型性能。