我的代码的瓶颈目前是使用ctypes从Python列表到C数组的转换,如in this question所述。

一个小实验表明,与其他Python指令相比,它确实非常慢:

import timeit
setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
print(timeit.timeit(stmt='array("I",t)',setup=setup,number=10))
print(timeit.timeit(stmt='set(t)',setup=setup,number=10))

给出:
1.790962941000089
0.0911122129996329
0.3200237319997541

我用CPython 3.4.2获得了这些结果。我使用CPython 2.7.9和Pypy 2.4.0的时间也差不多。

我尝试使用perf运行上面的代码,注释了timeit指令一次只能运行一个。我得到这些结果:

ctypes
 Performance counter stats for 'python3 perf.py':

       1807,891637      task-clock (msec)         #    1,000 CPUs utilized
                 8      context-switches          #    0,004 K/sec
                 0      cpu-migrations            #    0,000 K/sec
            59 523      page-faults               #    0,033 M/sec
     5 755 704 178      cycles                    #    3,184 GHz
    13 552 506 138      instructions              #    2,35  insn per cycle
     3 217 289 822      branches                  # 1779,581 M/sec
           748 614      branch-misses             #    0,02% of all branches

       1,808349671 seconds time elapsed

数组
 Performance counter stats for 'python3 perf.py':

        144,678718      task-clock (msec)         #    0,998 CPUs utilized
                 0      context-switches          #    0,000 K/sec
                 0      cpu-migrations            #    0,000 K/sec
            12 913      page-faults               #    0,089 M/sec
       458 284 661      cycles                    #    3,168 GHz
     1 253 747 066      instructions              #    2,74  insn per cycle
       325 528 639      branches                  # 2250,011 M/sec
           708 280      branch-misses             #    0,22% of all branches

       0,144966969 seconds time elapsed

设置
 Performance counter stats for 'python3 perf.py':

        369,786395      task-clock (msec)         #    0,999 CPUs utilized
                 0      context-switches          #    0,000 K/sec
                 0      cpu-migrations            #    0,000 K/sec
           108 584      page-faults               #    0,294 M/sec
     1 175 946 161      cycles                    #    3,180 GHz
     2 086 554 968      instructions              #    1,77  insn per cycle
       422 531 402      branches                  # 1142,636 M/sec
           768 338      branch-misses             #    0,18% of all branches

       0,370103043 seconds time elapsed

具有ctypes的代码比具有set的代码具有更少的页面错误,并且分支丢失的数量与其他两个相同。我唯一看到的是有更多的指令和分支(但我仍然不知道为什么)和更多的上下文切换(但这当然是更长的运行时间而不是原因)。

因此,我有两个问题:
  • 为什么ctypes这么慢?
  • 是否可以使用ctype或另一个库来提高性能?
  • 最佳答案

    解决方案是使用array模块并强制转换地址或使用from_buffer方法...

    import timeit
    setup="from array import array; import ctypes; t = [i for i in range(1000000)];"
    print(timeit.timeit(stmt="v = array('I',t);assert v.itemsize == 4; addr, count = v.buffer_info();p = ctypes.cast(addr,ctypes.POINTER(ctypes.c_uint32))",setup=setup,number=10))
    print(timeit.timeit(stmt="v = array('I',t);a = (ctypes.c_uint32 * len(v)).from_buffer(v)",setup=setup,number=10))
    print(timeit.timeit(stmt='(ctypes.c_uint32 * len(t))(*t)',setup=setup,number=10))
    print(timeit.timeit(stmt='set(t)',setup=setup,number=10))
    

    这样一来,使用Python 3的速度就会快很多倍:
    $ python3 convert.py
    0.08303386811167002
    0.08139665238559246
    1.5630637975409627
    0.3013848252594471
    

    关于python - 为什么ctypes这么慢才能将Python列表转换为C数组?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39225263/

    10-11 22:09
    查看更多