我已经用Hadoop / Hbase生态系统配置了Nutch 2.3.1。我没有更改gora.buffer.read.limit
和gora.buffer.read.limit
,即在两种情况下都使用默认值10000。在生成阶段,我将topN设置为100,000。在生成作业期间,我得到以下信息
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
作业完成后,我发现有100,000个URL被标记为要提取。但是我很困惑以上警告显示了什么? gora.buffer.read.limit对我的检索有什么影响?
有人可以指导吗?
最佳答案
该日志写为here。默认情况下,写入10000条记录后将刷新缓冲区,因此您必须在某处将gora.buffer.write.limit
配置为60000
(在core-site.xml
或mapred-site.xml
或code?上)。
这并不重要,因为它处于INFO级别。它仅通知写入缓冲区将被写入存储。
每次调用store.flush()
或gora.buffer.write.limit
大小批量时都会进行写入过程。