我们正在把一个电子商务网站移到一个新的平台上,因为他们所有的网页都是静态的html,而且他们没有数据库中的所有产品信息,所以我们必须从他们当前的网站上抓取产品描述。
这是其中一页:http://www.cabinplace.com/accrugsbathblackbear.htm
把描述串成一个字符串最好是什么?我应该使用html敏捷包吗?如果是的话,怎么做呢?因为我对html敏捷性包和xhtml还不熟悉。
谢谢
最佳答案
html敏捷性包是一个很好的用于此类工作的库。
您没有指明是否所有的内容都是这样构造的,也没有指明是否已经从html文件中获得了您发布的片段类型,因此很难给出进一步的建议。
一般来说,如果所有页面的结构都类似,我将使用xpath表达式来提取段落,并从每个页面中选择innerHtml
或innerText
。
大致如下:
var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;