我正在使用golang.org/x/text/unicode/norm
包来迭代[]byte
中的 rune 。我选择这种方法是因为我需要检查每个 rune 并维护有关 rune 序列的信息。最后一次调用iter.Next()
不会读取最后一个 rune 。它给出了在最后一个 rune 上读取的0个字节。
这是代码:
package main
import (
"fmt"
"unicode/utf8"
"golang.org/x/text/unicode/norm"
)
func main() {
var (
n int
r rune
it norm.Iter
out []byte
)
in := []byte(`test`)
fmt.Printf("%s\n", in)
fmt.Println(in)
it.Init(norm.NFD, in)
for !it.Done() {
ruf := it.Next()
r, n = utf8.DecodeRune(ruf)
fmt.Printf("bytes read: %d. val: %q\n", n, r)
buf := make([]byte, utf8.RuneLen(r))
utf8.EncodeRune(buf, r)
out = norm.NFC.Append(out, buf...)
}
fmt.Printf("%s\n", out)
fmt.Println(out)
}
这将产生以下输出:
test
[116 101 115 116]
bytes read: 1. val: 't'
bytes read: 1. val: 'e'
bytes read: 1. val: 's'
bytes read: 0. val: '�'
tes�
[116 101 115 239 191 189]
最佳答案
这可能是golang.org/x/text/unicode/norm
及其Init()函数中的错误。
在包的测试和示例中,我看到所有都使用InitString。因此,作为变通方法,如果您进行更改:
it.Init(norm.NFD, in)
到:
it.InitString(norm.NFD, `test`)
一切都会按预期进行。
我建议打开一个错误报告,但是要注意,由于它位于“/x”目录中,因此Go开发人员认为该程序包是实验性的。
(顺便说一句,我使用了go debugger来帮助我跟踪正在发生的事情,但是我应该说它的使用远不是我想看到的调试器。)
关于unicode - 未读取golang unicode/norm迭代器的最后 rune ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31235584/