我使用Python Newspaper lib开发了一个Web抓取脚本。我需要提取以下内容-URL,标题,摘要,作者和发布日期。除了出版日期,我得到了全部。我的问题是,有人用过Newspaper lib来获取出版日期吗?
hn.write("***********Article no" + str(x+1) + "************\r\n");
hn.write("URL: "+ article.url+ "\r\n");
hn.write("Title: "+ article.title + "\r\n");
hn.write( "Authors: "+' '.join(map(str, article.authors)));
hn.write("\r\n");
hn.write("Summary: "+ article.summary+ "\r\n);
hn.write("Key words: ");
hn.write(str(article.keywords).strip('[]'));
有没有办法使用Newspaper lib获取发布日期?
谢谢
穆克什
最佳答案
newspaper/article.py
中有195行
# TODO self.publish_date = self.config.publishDateExtractor.extract(self.doc)
似乎还没有准备好。但是您可以尝试取消注释此代码。
资料来源:https://github.com/codelucas/newspaper/blob/master/newspaper/article.py#L195