我认为有大量的自然语言数据与 reddit、digg 或 news.google.com 等网站相关。
我对文本挖掘做了一些研究,但找不到如何使用这些工具来解析像 reddit 这样的东西。
你能想出什么样的应用程序?
最佳答案
过去我发现在 Reddit 或 Digg 等网站上挖掘数据的最佳方法是首先使用他们提供的开发人员 API。通常,您对某个主题或趋势感兴趣,而获取该数据的唯一方法是通过已建立的公共(public)界面。您还可以解析提要,并将它们结合起来,以发现您想知道的 90%。如果您想对无法通过 API 获得的数据进行深入研究,那么您应该准备好花费大量时间围绕 cURL 等工具编写自定义包装器。如果您有预算,也可以致电他们询问他们是否提供有关用户的付费研究数据。
关于nlp - 自然语言/文本挖掘和 Reddit/社交新闻网站,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/228042/