我需要从网站上获取内容
我需要得到
/html/body/div/div[2]/table/tbody/tr/td/div/div[2]/form/fieldset[2]/table[2]
或
<table class='properties'>
代码在此可见:http://paste.pocoo.org/show/347881/
所有内容都格式化为新行的内容。
我不在乎填充和其他格式,我只想保留新行。
例如,正确的输出是
tájékoztató
az eljárás eredményéről
A Közbeszerzések Tanácsa (Szerkesztőbizottsága) tölti ki
A hirdetmény kézhezvételének dátuma____________________
KÉ nyilvántartási szám_________________________________
I. SZAKASZ: AJÁNLATKÉRŐ
I.1) Név, cím és kapcsolattartási pont(ok)
我面临的问题是,新行是用div引入的,不能得到它。
更新
这是由PHP cron执行的,因此无法访问JS。
最佳答案
有一个名为phpQuery
的库:http://code.google.com/p/phpquery/
您可以像使用jQuery
那样遍历DOM对象:
phpQuery::newDocument($htmlCode)->find('table.properties');
在mached元素的content fire
strip_tags
上,您将得到该表的纯内容。