我需要从网站上获取内容
我需要得到

/html/body/div/div[2]/table/tbody/tr/td/div/div[2]/form/fieldset[2]/table[2]


<table class='properties'>

代码在此可见:http://paste.pocoo.org/show/347881/
所有内容都格式化为新行的内容。
我不在乎填充和其他格式,我只想保留新行。
例如,正确的输出是
tájékoztató
az eljárás eredményéről
A Közbeszerzések Tanácsa (Szerkesztőbizottsága) tölti ki
A hirdetmény kézhezvételének dátuma____________________
KÉ nyilvántartási szám_________________________________
I. SZAKASZ: AJÁNLATKÉRŐ
I.1) Név, cím és kapcsolattartási pont(ok)

我面临的问题是,新行是用div引入的,不能得到它。
更新
这是由PHP cron执行的,因此无法访问JS。

最佳答案

有一个名为phpQuery的库:http://code.google.com/p/phpquery/
您可以像使用jQuery那样遍历DOM对象:

phpQuery::newDocument($htmlCode)->find('table.properties');

在mached元素的content firestrip_tags上,您将得到该表的纯内容。

07-26 05:34
查看更多