本文介绍了Python 未正确排序 unicode.Strcoll 没有帮助的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在 OSX 和 Linux 上的 Python 2.5.1 和 2.6.5 中使用 unicode 排序规则对列表进行排序时遇到问题.

I've got a problem with sorting lists using unicode collation in Python 2.5.1 and 2.6.5 on OSX, as well as on Linux.

import locale   
locale.setlocale(locale.LC_ALL, 'pl_PL.UTF-8')
print [i for i in sorted([u'a', u'z', u'ą'], cmp=locale.strcoll)]

哪个应该打印:

[u'a', u'ą', u'z']

而是打印出来:

[u'a', u'z', u'ą']

总结起来 - 看起来好像 strcoll 坏了.尝试使用各种类型的变量(fe.非 unicode 编码的字符串).

Summing it up - it looks as if strcoll was broken. Tried it with various types of variables (fe. non-unicode encoded strings).

我做错了什么?

最好的问候,托马斯·科普丘克.

Best regards,Tomasz Kopczuk.

推荐答案

显然,排序适用于所有平台的唯一方法是使用带有 PyICU 绑定的 ICU 库 (PyPI 上的 PyICU).

Apparently, the only way for sorting to work on all platforms is to use the ICU library with PyICU bindings (PyICU on PyPI).

在 OS X 上:sudo port install py26-pyicu,注意这里描述的错误:https://svn.macports.org/ticket/23429(哦,使用 macports 的乐趣).

On OS X: sudo port install py26-pyicu, minding bug described here: https://svn.macports.org/ticket/23429 (oh the joy of using macports).

不幸的是,PyICUs 文档严重缺乏,但我设法找出了它是如何完成的:

PyICUs documentation is unfortunately severely lacking, but I managed to find out how it's done:

import PyICU
collator = PyICU.Collator.createInstance(PyICU.Locale('pl_PL.UTF-8'))
print [i for i in sorted([u'a', u'z', u'ą'], cmp=collator.compare)]

给出:

[u'a', u'ą', u'z']

另一个专业人士 - @bobince:它是线程安全的,因此在设置请求式语言环境时并非无用.

Another pro - @bobince: it's thread-safe, so not useless when setting request-wise locales.

这篇关于Python 未正确排序 unicode.Strcoll 没有帮助的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-26 01:54