从头到尾坚持读完真不容易,但是由此确实得到很多。不仅仅有一些书本知识,更重要的是带给自己的思考

首先来梳理一下所获的知识吧

主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。

1、基于统计的方法的自然处理,统计语言模型是自然语言处理的基础。
2、自然语言处理所涉及内容:①分词(中文分词、词性标注、TF-IDF(词权重度量))②特征提取(矩阵知识、特征向量与余弦定理)③模型(隐含马儿可夫模型(马儿可夫链、贝叶斯网络(图论)、条件随机场(句法分析))、逻辑回归)④算法(维特比、最大熵、期望最大化)
3、搜索引擎涉及内容:①信息(信息熵、布尔代数与索引)②图论(网络爬虫、遍历算法、有限状态机和动态规划(地图、拼音输入法))③算法(pagerank网页排序、分治算法-MapReduce、)④搜索引擎(反作弊、广告投放)

4、①信息指纹(密码学(公钥))②数学模型(最大熵模型)③句法分析(语法树)④通信(CDMA、FDMA、TDMA) 

吴军老师在《数学之美》中提到:“这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余”。回到我们日常的开发工作中,作为IT工程师,程序员,要跟上技术的大潮流,需要学习的技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累,而且可能会是花了80%的时间却只得到了20%的效果,更别谈期望值最大化了,或许根本就达不到你期望值的60%。相反,比如cnblogs(博客园)在招聘工程师一直提到的“3大原理,2个协议,1种结构”(计算机原理、操作系统原理、编译原理、TCP/IP协议、HTTP协议、数据结构)却是没有怎么变化的(甚至是短时间不会变化的),而这些东西恰好是在这个浮躁的社会,我们这些所谓的计算机系的毕业生,所谓的科班毕业生所缺乏的(因为大部分人都没有在大学期间将这些东西真正地学好,而只是为了所谓的几个学分去图书馆奋战一两个周末而已)。站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的,这也是我为什么在毕业之后还要去重新温故操作系统原理和数据结构等科目的原因。

所以我们应该悟技术之道,让自己的技能提升,而不是仅仅满足现状。

希望大学生可以多多了解并且如实做到!

09-10 19:59