如果说高中毕业是毕其功于一役的战斗,那么本科毕业更像是东奔西走的忙碌。保研,考研,工作,留学,毕业,这些事情任何一样都能忙的你焦头烂额。一种是长舒一口气不得不面对的考试,一个黑夜中必须思考如何前行,体会过都很有感触。大四那年考全国前五的大学研究生只是一名之差没被录取,带着遗憾我来不及悲伤就开始准备自己的毕设,黑夜中我疲惫不堪又不得不为了毕业披荆斩棘,因为一直对数据挖掘感兴趣我的毕设题目也就是《基于数据挖掘的学生上网事件判别算法的设计与实现》,当时也是胆子大,只把西瓜书监督学习的部分看完就敢拿他做毕设。
我当时的数据是一些上网的URL的数据,通过这些数据来分析首先是数据预处理,针对URL的自然语言NLTK处理方法,朴素贝叶斯训练分类器,频繁项挖掘分析学生的行为特征,再通过上网时间戳对URL进行分时间段的处理,通过此类方法较好解决了网站内容不确定的问题;最后运用python中pd,matplotlib库函数以及两种不同的学生行为分析方法进行学生上网行为的展示。
当时最让人头疼的是两件事,一个是怎么才能判定学生在学习还是在娱乐,更具体的他是不是在进行有效的学习,另一个问题就是怎么把我得到的结果如何可视化。
在经过两个月的查阅资料和实验后我找到了解决方法,在用朴素贝叶斯模型把实验模型跑出来并分成学习,娱乐,购物等其中不同类别的URL数据后,我用频繁项挖掘来对相邻的URL进行深度处理,如果学习的URL数据和娱乐的同时出现我认为他也是在娱乐大大加强了结果的可靠性。对于可视化我用了气泡图和折现数据如下图所示。
由于这涉及到老师的课题我不便多说,但是从考研到毕业那段时间真是让人难忘。回不去的那叫从前,到不了的才是远方;不保留的那叫青春,不完美的才是人生。干杯!!