问题描述
我在 OSX 和 Linux 上的 Python 2.5.1 和 2.6.5 中使用 unicode 排序规则对列表进行排序时遇到问题.
I've got a problem with sorting lists using unicode collation in Python 2.5.1 and 2.6.5 on OSX, as well as on Linux.
import locale
locale.setlocale(locale.LC_ALL, 'pl_PL.UTF-8')
print [i for i in sorted([u'a', u'z', u'ą'], cmp=locale.strcoll)]
哪个应该打印:
[u'a', u'ą', u'z']
而是打印出来:
[u'a', u'z', u'ą']
总结起来 - 看起来好像 strcoll 坏了.尝试使用各种类型的变量(fe.非 unicode 编码的字符串).
Summing it up - it looks as if strcoll was broken. Tried it with various types of variables (fe. non-unicode encoded strings).
我做错了什么?
最好的问候,托马斯·科普丘克.
Best regards,Tomasz Kopczuk.
推荐答案
显然,排序适用于所有平台的唯一方法是使用带有 PyICU 绑定的 ICU 库 (PyPI 上的 PyICU).
Apparently, the only way for sorting to work on all platforms is to use the ICU library with PyICU bindings (PyICU on PyPI).
在 OS X 上:sudo port install py26-pyicu
,注意这里描述的错误:https://svn.macports.org/ticket/23429(哦,使用 macports 的乐趣).
On OS X: sudo port install py26-pyicu
, minding bug described here: https://svn.macports.org/ticket/23429 (oh the joy of using macports).
不幸的是,PyICUs 文档严重缺乏,但我设法找出了它是如何完成的:
PyICUs documentation is unfortunately severely lacking, but I managed to find out how it's done:
import PyICU
collator = PyICU.Collator.createInstance(PyICU.Locale('pl_PL.UTF-8'))
print [i for i in sorted([u'a', u'z', u'ą'], cmp=collator.compare)]
给出:
[u'a', u'ą', u'z']
另一个专业人士 - @bobince:它是线程安全的,因此在设置请求式语言环境时并非无用.
Another pro - @bobince: it's thread-safe, so not useless when setting request-wise locales.
这篇关于Python 未正确排序 unicode.Strcoll 没有帮助的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!