我正在开发一个电子商务搜索引擎,该引擎可让您在许多电子商务网站中搜索产品。

我该如何处理?

我需要一个能够扫描网站,解析其HTML并确定网站中的图像是产品图像,产品描述,产品价格的应用程序。

很高兴听到任何想法,例如。

提前致谢。

编辑:
我的问题不是如何从网站上获取HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪个html包含我正在寻找的实际数据,而哪个不是。

最佳答案

您可能会发现this thread对您的任务有帮助。我已经概述了那里的基本步骤。这是指向SO上所有标记为“ Screen-scraping”的问题的链接。另外,网上有很多资料-Google

10-05 22:58
查看更多