我正在使用AngelList DB根据行业对初创公司进行分类,因为这些初创公司是根据社区输入进行分类的,这在大多数情况下都是令人误解的。

我的业务目标是提取指示此特定初创公司所属的行业的关键字,然后将其映射到LinkedIn表https://developer.linkedin.com/docs/reference/industry-codes中指定的行业之一。

我尝试了Azure机器学习,在其中推送了300个初创公司的描述,并分析了关键字提取非常糟糕,甚至与我要达到的目标都不接近。

我想知道数据科学家将如何解决这个问题?我应该在哪里看?而我不应该在哪里?是关键字分析工具(例如Google Adwords关键字规划师是一个可行的选择)

最佳答案

使用文字分类...

为了将其视为分类问题,您需要一个训练集,该训练集是一组用正确的LinkedIn类别标记的AngelList条目。这可以手动完成,也可以雇用一些Mechanical Turks为您完成这项工作。

由于您有〜150个类别,因此我想您至少需要20-30 *个AngelList条目。因此,您的训练集为{输入:angellist_description,结果:linkedin_id}

之后,您需要深入研究文本分类技术,以尝试和优化结果的准确性/准确性。 《 Taming Text》一书中有完整的章节介绍了文本分类。实施基于文本的分类器的一个好工具是Apache Solr或Apache Lucene。

* 20-30是个人快速估算,并非基于科学方法。您可以在线查找一些方法以获得良好的估算方法。

关于machine-learning - 从描述中找到创业行业,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36291712/

10-12 23:17