本文介绍了有没有办法以编程方式下载网页的部分内容,而不是整个 HTML 正文?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们只需要来自 nytimes.com/technology 的 HTML 文档中的特定元素.这个页面包含很多文章,但我们只想要文章的标题,它在一个 .如果我们使用 wget、cURL 或任何其他工具或某些包,例如 Python 中的请求,整个 HTML文件被退回.我们可以将返回的数据限制为特定元素,例如 's 吗?

We only want a particular element from the HTML document at nytimes.com/technology. This page contains many articles, but we only want the article's title, which is in a . If we use wget, cURL, or any other tools or some package like requests in Python , whole HTML document is returned. Can we limite the returned data to specific element, such as the 's?

推荐答案

HTTP 协议对 HTML 或 DOM 一无所知.使用 HTTP,您可以使用 Content-Range 标头从支持的 Web 服务器获取部分文档,但您需要知道所需数据的字节偏移量.

The HTTP protocol knows nothing about HTML or DOM. Using HTTP you can fetch partial documents from supporting web servers using the Content-Range header, but you'll need to know the byte offsets of the data you want.

简短的回答是 Web 服务本身必须支持您的请求.不是HTTP层可以提供的.

The short answer is that the web service itself must support what you're requesting. It is not something that can be provided at the HTTP layer.

这篇关于有没有办法以编程方式下载网页的部分内容,而不是整个 HTML 正文?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-04 23:30