我正在使用Apache Nuch来爬网网站。当我使用readseg
命令读取段中的内容时,我的格式如下:
有什么方法可以获取纯文本格式的网络数据?
when I am using readseg command on parse text I am getting in this way
最佳答案
readseg
命令转储(默认情况下)从URL提取的原始内容。这是传输的整个HTML内容。如果要获取文本内容,则需要等到解析内容之后再进行操作。这意味着您需要执行整个爬网周期(或./bin/nutch parse
命令)。
检查readseg
命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的其他选项,如果您已经在执行解析步骤,则可能只关心解析后的内容,因此可以避免打印其他所有内容。
关于html - 以纯文本格式从小节中获取数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50277420/