主题:指定日期内,不同地区的发布信息的数量的变化曲线
数据库是mongod
数据是58同城的发布的信息
整体思路:
1由于从数据库中拿到的数据,格式等方面并不一样能完全满足需求,需要对数据库中的数据进行整理
2 更新数据库
3 数据可视化
出发点:
从哪天开始,到哪天结束
具体区域
追求点:
以上区域在 限定时间内的发帖变化。
part1:拿到截止天和开始天之间的每一天。
为什么把这个功能单独拿出来作为一个函数?
because 后面生成图表是,横坐标是 每一天。
所以,这样设计是有意义的。
这里用到datetime模块中的date,timedelta,和strftime方法。
def get_all_date(date1,date2):
delta = timedelta(days=)
d1 = date(int(date1.split('-')[]),int(date1.split('-')[]),int(date1.split('-')[]))
d2 = date(int(date2.split('-')[]),int(date2.split('-')[]),int(date2.split('-')[]))
while d1<=d2:
yield d1.strftime('%Y-%m-%d')
d1 += delta
part2:使用find函数查找指定数据
def get_one_area_one_date(area,date1):
return col.find({'area':area,'pub_date':date1}).count() 实际上这个函数,可以用aggregate,$group,更简单,更迅速的实现。
from datetime import date,timedelta def get_one_area_many_date(area,date1,date2):
delta = timedelta(days=)
d1 = date(int(date1.split('-')[]),int(date1.split('-')[]),int(date1.split('-')[]))
d2 = date(int(date2.split('-')[]),int(date2.split('-')[]),int(date2.split('-')[]))
while d1<=d2:
yield col.find({'area':area,'pub_date':d1.strftime('%Y-%m-%d')}).count()
d1 += delta
def get_many_area_many_date(areas,date1,date2):
for area in areas:
yield {'name':area,'data':[i for i in get_one_area_many_date(area,date1,date2)],'type':'line'}
part3: 转化数据
最终显示:
import charts
options = {
'title':{
'text':'发帖量统计'
},
'subtitle':{
'text':'北京地区'
},
'chart':{
'zoomType':'xy',
},
'xAxis':{
'categories':[i for i in get_all_date('2015-11-01','2016-01-10') ] #这便是用到的第一个函数,坐标值,每一天。是在这里。
},
'yAxis':{
'title':{
'text':'数量'
}
}
}
charts.plot(ll,show='inline',options=options)