我正在使用Apache Nuch来爬网网站。当我使用readseg命令读取段中的内容时,我的格式如下:

html - 以纯文本格式从小节中获取数据-LMLPHP

有什么方法可以获取纯文本格式的网络数据?
when I am using readseg command on parse text I am getting in this way

最佳答案

readseg命令转储(默认情况下)从URL提取的原始内容。这是传输的整个HTML内容。如果要获取文本内容,则需要等到解析内容之后再进行操作。这意味着您需要执行整个爬网周期(或./bin/nutch parse命令)。

检查readseg命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的其他选项,如果您已经在执行解析步骤,则可能只关心解析后的内容,因此可以避免打印其他所有内容。

关于html - 以纯文本格式从小节中获取数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50277420/

10-12 13:54