过去几天我一直在做一个项目,这个项目中有一个任务我实际上不知道该怎么做,这个项目包括分析网页以找到网页的特征标记。
嘿,伙计,你说的标签是什么意思?我所说的标签是指总结网页内容的关键词。例如,你在这里写下你自己的标签,这样人们就可以更好地发现你的问题我所说的是建立一个算法来分析网页,根据网页中的文本找到它的标签。
我开始从页面获取文本->完成
一般来说,我在寻找一种方法来找到总结网页内容的关键字
不过,我真的不知道下一步该怎么办有人有什么建议吗?
最佳答案
对于一个真正基本的方法,您可以使用TF-IDF算法在页面中找到最重要的单词
维基百科速览:
tf–idf权重(术语频率–反向文档频率)是
在信息检索和文本挖掘中常用的权重这个
权重是用来衡量一个词有多重要的统计指标
是指集合或语料库中的文档。重要性增加
与单词在文档中出现的次数成比例
但被语料库中单词的频率所抵消变化
在tf-idf加权方案中,搜索引擎通常使用
为文档的相关性打分和排序的中心工具
用户查询。tf–idf可成功用于停止字过滤
在包括文本摘要和
分类
一旦在页面中找到最重要的单词,就可以将它们用作标记。
如果你想改进你的标签,使它们更相关。
有很多方法可以继续,但您可以按以下步骤继续:
从中提取一组您知道主要标记的文本。
对于所有这些文本,运行tf-idf算法并使用
得分最高的。
试图找到一个主方向将所有这些向量。(运行ACP
例如,或任何机器学习工具)
并使用此标记表示来自主方向的一组单词。(ACP的最大矢量)
希望这是可以理解的