我想知道以下代码是否会给出相同的结果。更具体地说,如果 random_state=0
与 seed = 0
相同:
- 使用 sklearn
:
from sklearn.cross_validation import train_test_split
x = data['x']
y = data['y']
X_train,X_test,Y_train,Y_test = train_test_split(x,y,test_size = 0.2,random_state = 0)
- 使用
graphlab
:import graphlab
train_data,test_data = data.random_split(.8,seed=0)
据我所知,
graphlab
在 3.4 版中不可用(如果我错了,请纠正我),所以我无法检查自己。谢谢 最佳答案
不,这两个库不会为这两个代码片段提供相同的结果。 scikit-learn 函数使用随机排列来打乱数据,然后将数据拆分为所需的部分。 SFrame.random_split
方法不同;它根据指定的分数从原始数据中随机采样行。
不仅如此,两个库的随机数生成器不同,所以将随机状态和种子设置为相同的值不会有任何影响。
我用 GraphLab Create 1.7.1 和 Scikit-learn 0.17 验证了这一点。
import numpy as np
import graphlab as gl
from sklearn.cross_validation import train_test_split
sf = graphlab.SFrame(np.random.rand(10, 1))
sf = sf.add_row_number('row_id')
sf_train, sf_test = sf.random_split(0.6, seed=0)
df_train, df_test = train_test_split(sf.to_dataframe(),
test_size=0.4,
random_state=0)
sf_train
是:+--------+-------------------+
| row_id | X1 |
+--------+-------------------+
| 0 | [0.459467634448] |
| 4 | [0.424260273035] |
| 6 | [0.143786736949] |
| 7 | [0.0871068666212] |
| 8 | [0.74631952689] |
| 9 | [0.37570258651] |
+--------+-------------------+
[6 rows x 2 columns]
而
df_train
看起来像: row_id X1
1 1 [0.561396445174]
6 6 [0.143786736949]
7 7 [0.0871068666212]
3 3 [0.397315891635]
0 0 [0.459467634448]
5 5 [0.033673713722]
肯定不一样。
关于python - 种子选项 : Using different packages for machine learning in Python,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34338321/