我正在构建一个网站爬虫,并使用一个cURL class用这些选项来获取标题,这样我就可以在下载完整站点之前把它们的mime/type和提取到content-length和低于指定的大小限制。
这些是我的卷发选择
$c->setopt(CURLOPT_URL, $theURL); $c->setopt(CURLOPT_HEADER, false); $c->setopt(CURLOPT_RETURNTRANSFER, true); $c->setopt(CURLOPT_TIMEOUT, 10); $c->setopt(CURLOPT_CONNECTTIMEOUT, 10); $c->setopt(CURLOPT_NOBODY, TRUE); $c->setopt(CURLOPT_FOLLOWLOCATION, TRUE); $c->setopt(CURLOPT_MAXREDIRS, 2); // Within Class $theReturnValue = curl_exec($this->m_handle); $this->m_status = curl_getinfo($this->m_handle) ;
但是它总是返回text/html,即使没有[download_content_length] => -1,但是检索的数据(整个文件)是正确的。
最佳答案
CURLINFO_CONTENT_LENGTH_DOWNLOAD的libcurl文档(这是php绑定正在使用的)表示:
“如果大小未知,则返回-1”