app 应用信息统计: saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645 workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379 流程: 1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。 2

app 应用信息统计:

saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645

workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379

流程:

1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。

2,用kettle清洗设计,导入mysql

3,workbench连接好sql,设计XXX.xml的cube文件。

4,将cube文件通过saiku呈现。相关配置使用的细节,见上面的文件saiku安装。

worbench的纬度:从一个角度(另一个表的某个属性)看事实表中的数据统计信息(事实表ft要有对应的字段)

一个纬度表,通过自身的某个键,和事实表的某个键关联。dimension的foreign key和level中column的设定。注意level中的显示列为空,则默认用上面的比较列,设置要显示的列内容,比如显示年份,用date_value进行比较,满足了,在显示同一行上的另一个列的内容。

saiku数据呈现:同一个dim下的level不能分开到row和column上,只能同时在一个上。

dim上是的个数,行列都是dim,事实表中同时满足两个维度条件的元组个数。

measure是统计量,用于统计一列上的个数。比如downloads。统计的是事实表上的一列的值。另一方向放维度就表示,按不同维度值分别进行统计。多个维度,则多个满足条件下的统计。

注意,measure行列都可以放,想横着看,还是竖着看,就放到对应位置就行了。统计过程和统计结果不会发生改变(都是统计事实表中的一列)。measure和dim可以放到一起

另外,在右边的尾部加图功能,所以按日期看增长量。(这个图,放到每天的下载量时候,按区间做一个统计,下载量是否符合正态分布,如果下载量在高处居高不下,说明作弊的可能性很大)

小测试,时间维度用dataval(维度表的column设置项),与事实表的date_value(cube的foreign key)关联,可以统计每天的信息。

level的type选regular,其它类型time_XXX还在测试中?

08-30 14:52