因此,一周前,我开始在Graphlab上进行机器学习课程。我对Graphlab还是很陌生,我通读了API,但无法完全获得所需的解决方案。所以,这是问题。我具有包含多列的数据,例如卧室,浴室,平方英尺,邮政编码等。这些基本上是功能,我的目标是使用各种ML算法来预测房屋价格。现在,我应该找到邮政编码为93038的房屋的平均价格。因此,由于我很天真,因此我将问题分解为小部分,并决定使用本能。这是我到目前为止所尝试的。首先,我试图找到一种创建过滤器的方法,以便我只能提取邮政编码为93038的房屋价格。
import graphlab
sf = graphlab.SFrame('home_data.gl')
sf[(sf['zipcode']=='93038')]
这些向我显示了所有邮政编码为93038的列,但随后我只想显示价格和邮政编码为93038的邮政编码列。我尝试了许多不同的方法,但无法弄清楚。
另外,假设我要查找邮政编码值为93038的价格的平均值,该怎么做?
提前致谢。
最佳答案
您可以尝试:
import graphlab as gl
sf = gl.SFrame({'price':[1,4,2],'zipcode':['93038','93038','93037']})
# Filtering
filter_sf = sf[(sf['zipcode']=='93038')]
# Displaying
print filter_sf[['price', 'zipcode']]
# Averaging a column
print filter_sf['price'].mean()