我已经用Hadoop / Hbase生态系统配置了Nutch 2.3.1。我没有更改gora.buffer.read.limitgora.buffer.read.limit,即在两种情况下都使用默认值10000。在生成阶段,我将topN设置为100,000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

作业完成后,我发现有100,000个URL被标记为要提取。但是我很困惑以上警告显示了什么? gora.buffer.read.limit对我的检索有什么影响?
有人可以指导吗?

最佳答案

该日志写为here。默认情况下,写入10000条记录后将刷新缓冲区,因此您必须在某处将gora.buffer.write.limit配置为60000(在core-site.xmlmapred-site.xml或code?上)。

这并不重要,因为它处于INFO级别。它仅通知写入缓冲区将被写入存储。
每次调用store.flush()gora.buffer.write.limit大小批量时都会进行写入过程。

10-08 06:41