这是我第一次涉足NLP,请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/爱好/爱好的方法。这是所有兴趣/喜好/爱好都以粗体显示的示例:


  “我认为自己是一个非常多元化的角色...我是一名专业人士
  摔跤手,但我会为Wall•E做子弹。我在体育馆里像单人种族灭绝机一样训练,但是我哭了
  “世界末日。”我会去AC / DC,我很认真
  考虑获得《塞尔达传说》纹身。我友好420。一世
  想要与兄弟人群聚会一晚,和
  接下来我的《燃烧的人》朋友,玩《光晕》和《世界》
  接下来玩魔兽,与不小于年龄的朋友们聚在一起
  40下。我最小的朋友是16岁,最大的朋友是66岁。
  在酒吧里唱卡拉OK,我是我朋友的集体
  精神科医生/肩膀。”


配置文件是纯文本。没有任何与之相关的元标记或ID,它只是一段文本。

我幼稚的想法是接受每个名词并将其与Freebase匹配,以查看它是否是一项活动/艺术家/电影/书籍等。问题在于,尽管提到的大多数实体都是用户喜欢的事物,但她也会提及她所提及的事物我不喜欢,我也无法区分2。

我有两个问题:


我应该关注NLP的哪个子领域?一些谷歌算法/技术/作者将不胜感激。
这个问题有多难?


谢谢!

最佳答案

首先,除非使用NLP这样做是您的特定目标,否则请检查问题域以查看是否可以完全避免。

例如:


这些配置文件是否包含标签(由网站或由
用户)?
网站的API提供了哪些功能(假设您就是这样
正在访问此数据;如果您要刮,那不是
当然适用)?一个很好的例子,Facebook。如果您阅读了用户的帖子,
您会看到“摔跤手”,“卡拉OK”等字眼,但是如果您查看
通过Graph API公开哪些字段,您会看到这些
活动几乎总是具有关联的FB ID。


我不是该领域的专家,但是我可以推荐一些针对NLP的资源,非专家或新手都可以使用。第一个是text processing API。这个简单的Web服务使用REST和JSON IO。它是免费的,并且似乎有相当大的速率限制。

该API似乎严重依赖于出色的Natural Language Tooolkit(NLTK),这是python中一个成熟的稳定库,其中包括针对您的问题中的问题的模块,例如,情感分析,标记和块提取等。

哪个特定子域与解决OP中的问题最相关?我不知道,但是我怀疑NLTK中是否有一个模块可以满足您的需求。阅读API Documentation部分,其中包含对NLTK模块的出色调查以及每个模块的演示。

关于nlp - 从社交资料中提取用户兴趣,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9552073/

10-12 21:33