我在hadoop-1.0.4源代码中阅读了SequenceFile.java。我找到了sync(long)
方法
将SequenceFile拆分为MapReduce中的文件拆分时,可在SequenceFile中找到“同步标记”(在文件创建时生成16字节的MD5)。
/** Seek to the next sync mark past a given position.*/
public synchronized void sync(long position) throws IOException {
if (position+SYNC_SIZE >= end) {
seek(end);
return;
}
try {
seek(position+4); // skip escape
in.readFully(syncCheck);
int syncLen = sync.length;
for (int i = 0; in.getPos() < end; i++) {
int j = 0;
for (; j < syncLen; j++) {
if (sync[j] != syncCheck[(i+j)%syncLen])
break;
}
if (j == syncLen) {
in.seek(in.getPos() - SYNC_SIZE); // position before sync
return;
}
syncCheck[i%syncLen] = in.readByte();
}
} catch (ChecksumException e) { // checksum failure
handleChecksumException(e);
}
}
这些代码只是寻找包含与“同步标记”相同的数据的数据序列。
我的疑问:
考虑一种情况,SequenceFile中的数据恰好包含与“同步标记”相同的16字节数据序列,上面的代码将错误地将16字节数据视为“同步标记”,然后SequenceFile将不会正确解析?
我找不到有关数据或同步标记的任何“转义”操作。 SequenceFile如何成为二进制安全的?我想念什么吗?
最佳答案
从技术上讲,冲突是可能的,但实际上,冲突是不可能的。
从http://search-hadoop.com/m/VYVra2krg5t1:
关于java - Hadoop SequenceFile二进制文件安全吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16251110/