我正在使用 BufferedReader 逐行读取字节流(UTF-8 文本)。出于特定原因,我需要知道该行在字节流中的确切位置。
问题:我不能使用插入到 BufferedReader 中的 InputStream 的位置 - 同样 - 读取器一次缓冲和读取不止一行。
我的问题: 如何确定每行读取的精确字节偏移量?
一种明显(但不正确)的解决方案是使用 (line + "\n").getBytes("UTF-8").length。这种方法有两个问题:1) 只是为了计算字节数,将字符串转换回字节是一个相当大的开销,2) 换行符并不总是标有“\n”——它也可能是“\r\n”等。
有没有其他解决方案?
编辑:到目前为止我见过的每个类似 LineReader 的类似乎都被缓冲了。有谁知道一个无缓冲的 LineReader 类?
最佳答案
只需将文件作为原始字节读取,UTF-8 中的换行符将始终是 13
和 10
、 13
或 10
......但这与将文件作为字符串读取时遇到的问题完全相同,如果文件将有不同的 EOL 约定。BufferedReader
的原始字节等价物是 BufferedInputStream
您还可以计算没有编码的字符串的 UTF-8 字节:
public static int byteCountUTF8(String input) {
int ret = 0;
for (int i = 0; i < input.length(); ++i) {
int cc = Character.codePointAt(input, i);
if (cc <= 0x7F) {
ret++;
} else if (cc <= 0x7FF) {
ret += 2;
} else if (cc <= 0xFFFF) {
ret += 3;
} else if (cc <= 0x10FFFF) {
ret += 4;
i++;
}
}
return ret;
}
关于java - BufferedReader:确定读取的行的字节偏移量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/14415084/