1、某游戏的客户端每隔5分钟会向服务端报告一次玩家的账户积分,如果两次报告的时间间隔不大于5分钟,认为该玩家在这5分钟内在线,假设报告数据的格式如下:
IP Datetime Score
223.152.112.238 2014-08-22 12:01:35 54232
现有一天的数据,按时间按序保存,粗略估计玩家数在百万左右,请使用尽量少的硬件资源完成以下请求,统计在线时长最长的十个玩家;如果玩家两次提交的积分相同,认为玩家在5min的在线时间内不活跃,请统计一天内一直处于不活跃状态的玩家的百分比。
game_user_calculate.bash文件代码如下:
#!/bin/bash #先统计有多少个用户,即有多少个ip
sed '1d' log_all > log_all_1
awk '{ip[$1]++}END{for(i in ip){print i, ip[i]}}' log_all_1 > user
awk '{ip[$1]++}END{for(i in ip){print i}}' log_all_1 > user
user_count=`cat user | wc -l` #把每个用户的记录提取出来
for((i=1;i<=$user_count;i++));
do
#逐一取出各个ip
one_user=`sed -n "$i"p user` #根据ip筛选出属于此ip的报告记录,并统计报告次数
list_count=`grep "$one_user" log_all_1 | wc -l` #根据ip筛选出属于此ip的报告记录,并从第四列分数中统计出不同分数的个数
score_count=`grep "$one_user" log_all_1 | awk '{print $4}' | sort -u | wc -l` #将每个用户的报告总次数写入行首
sed -i "$i{s/^/ $list_count /}" user #将每个用户的不同分数的个数,写入行尾
sed -i "$i{s/$/ $score_count /}" user
done #把有记录报告次数和用户IP的文件及不同分数的文件user, 按记录次数由大到小排序,且取ip字段,并输出前十个
echo "The first 10 users online are"
sort -n -r -k 1 user | awk '{print $2}' | sed -n '1,10p' | cat -n #-n是以数值来排序
#-r是降序排列,默认是升序
#-k指定列数 #统计一天内一直处于不活跃状态的玩家总数,
nowake=`awk '{print $3}' user | grep "1" | wc -l` #计算不活跃状态玩家的百分比
echo Percentage of no active users is: `awk 'BEGIN{printf "%.2f%\n",('$nowake'/'$user_count')*100}'`
log文件如下:
IP Datetime Score
223.152.112.238 2014-08-22 12:01:35 54232
223.152.112.238 2014-08-22 12:06:35 54232
223.152.112.238 2014-08-22 12:11:35 54232
223.152.112.238 2014-08-22 12:17:35 54232
223.152.112.236 2014-08-22 12:01:35 54232
223.152.112.236 2014-08-22 12:06:35 54231
223.152.112.236 2014-08-22 12:15:35 54232
223.152.112.237 2014-08-22 12:01:35 54232
223.152.112.237 2014-08-22 12:06:35 54232
223.152.112.237 2014-08-22 12:11:35 5420
223.152.112.237 2014-08-22 12:16:35 54232
223.152.112.237 2014-08-22 12:29:35 54232
223.152.112.237 2014-08-22 12:34:35 54232