我正在抓取网站,到目前为止,使用 Goutte 解析 HTML 没有问题。但是我需要从网站检索 JSON,并且由于 cookie 管理,我不想使用 file_get_contents() 来执行此操作 - 这不起作用。

我可以使用纯 cURL,但在这种情况下,我只想使用 Goutte 而不想使用任何其他库。

那么有没有什么方法可以让我只通过 Goutte 解析文本,或者我真的必须用好的旧方法来做到这一点?

/* Sample Code */
$client = new Client();
$crawler = $client->request('foo');
$crawler = $crawler->filter('bar'); // of course not working

谢谢你。

最佳答案

在 Goutte 库中进行了非常深入的搜索后,我找到了一种方法,我想分享一下。因为 Goutte 是一个非常强大的库,但是文档非常复杂。

通过 (Goutte > Guzzle) 解析 JSON

只需获取所需的输出页面并将 json 存储到数组中。

$client = new Client(); // Goutte Client
$request = $client->getClient()->createRequest('GET', 'http://***.json');
/* getClient() for taking Guzzle Client */

$response = $request->send(); // Send created request to server
$data = $response->json(); // Returns PHP Array

使用 Cookie 解析 JSON via (Goutte + Guzzle) - 用于身份验证

向站点的其中一个页面(主页面看起来更好)发送请求以获取 cookie,然后使用这些 cookie 进行身份验证。
$client = new Client(); // Goutte Client
$crawler = $client->request("GET", "http://foo.bar");
/* Send request directly and get whole data. It includes cookies from server and
it automatically stored in Goutte Client object */

$request = $client->getClient()->createRequest('GET', 'http://foo.bar/baz.json');
/* getClient() for taking Guzzle Client */

$cookies = $client->getRequest()->getCookies();
foreach ($cookies as $key => $value) {
   $request->addCookie($key, $value);
}

/* Get cookies from Goutte Client and add to cookies in Guzzle request */

$response = $request->send(); // Send created request to server
$data = $response->json(); // Returns PHP Array

我希望它有帮助。因为我几乎花了3天时间来了解Gottle及其组件。

10-06 08:29