我将文件直接从HDFS(Pig脚本的输出文件)以及本地硬盘上的原始数据加载到大表时出现错误。
我观察到,每当我加载文件并发出行数以查看是否所有数据都已加载到bigsheets中时,我看到的行数就会减少。
我检查过文件是否一致且正确(以/ t或逗号分隔的字段)。
我的文件大小约为2GB,并且我使用了* .csv / * .tsv格式。
同样在某些情况下,当我厌倦了直接从Windows操作系统加载文件时,文件有时会成功地以行计数与数据中实际行数匹配的方式成功加载,然后有时行数会更少。
即使有时在第一次使用一个新文件时,它也会给出正确的结果,但是如果下次我执行相同的操作,则会丢失某些行。
请分享您的大工作表经验,解决所有未加载整个数据的问题,等等。
最佳答案
您最初加载到BigSheets中的数据只是一个子集。您必须运行工作表才能将其获取完整的数据集。
http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en