假设我要根据各种条件从Twitter收集推文,并将这些推文存储在本地mysql数据库中。我希望能够处理诸如twitter之类的趋势主题,长度可以在1-3个字之间。
是否可以编写脚本来执行类似PHP和mysql的操作?
一旦找到了术语的数量,我就找到了如何计算哪些术语“热门”的答案,但我只停留在第一部分。如何将数据存储在数据库中,如何计算数据库中长度为1-3个字的术语的出现频率?
最佳答案
我收到的热门主题收据:
1.获取推文
2.按空间将每个tweet拆分为n克(如果需要3个单词的长度,则最多3克)数组
3.从URL,@ username,常用词和垃圾字符中过滤出每个数组
4.计算所有唯一关键字/词组的出现频率
5.使一些垃圾单词/短语静音
是的,您可以在php和mysql上完成它;)
关于php - 计算趋势主题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2247663/