例如,给定两个字母A和B,我想生成所有长度为n的具有x A和y B的字符串。

我希望这能有效地完成。我考虑过的一种方法是建立一个长度x的A列表,然后以每种可能的方式将y B插入到列表中。但是插入到python列表中是线性的,因此当列表变大时,此方法会很烂。

性能目标(这可能不合理,但这是我的希望):在不到一分钟的时间内生成长度为20且具有相同数量的A和B的所有字符串。

编辑:建议使用置换('A'* x,'B'* y)。虽然这不是一个坏主意,但却浪费了很多。如果x = y = 4,则将多次生成字符串“ AAAABBBB”。有没有一种更好的方法可以只将每个字符串生成一次?我已经尝试过代码以达到set(permutations('A'* x,'B'* y))的效果,但是它太慢了。

最佳答案

关于性能,这里是您想法的实际生成器实现(没有insert)。它找到B的位置并相应地填充列表。

import itertools

def make_sequences(num_a, num_b):
    b_locations = range(num_a+1)
    for b_comb in itertools.combinations_with_replacement(b_locations, num_b):
        result = []
        result_a = 0
        for b_position in b_comb:
            while b_position > result_a:
                result.append('A')
                result_a += 1
            result.append('B')
        while result_a < num_a:
            result.append('A')
            result_a += 1
        yield ''.join(result)


它确实表现更好。与Greg Hewgill的解决方案进行比较(将其命名为make_sequences2):

In : %timeit list(make_sequences(4,4))
10000 loops, best of 3: 145 us per loop

In : %timeit make_sequences2(4,4)
100 loops, best of 3: 6.08 ms per loop


编辑

通用版本:

import itertools

def insert_letters(sequence, rest):
    if not rest:
        yield sequence
    else:
        letter, number = rest[0]
        rest = rest[1:]
        possible_locations = range(len(sequence)+1)
        for locations in itertools.combinations_with_replacement(possible_locations, number):
            result = []
            count = 0
            temp_sequence = sequence
            for location in locations:
                while location > count:
                    result.append(temp_sequence[0])
                    temp_sequence = temp_sequence[1:]
                    count += 1
                result.append(letter)
            if temp_sequence:
                result.append(temp_sequence)
            for item in insert_letters(''.join(result), rest):
                yield item

def generate_sequences(*args):
    '''
    arguments : squence of (letter, number) tuples
    '''
    (letter, number), rest = args[0], args[1:]
    for sequence in insert_letters(letter*number, rest):
        yield sequence


用法:

for seq in generate_sequences(('A', 2), ('B', 1), ('C', 1)):
    print seq

# Outputs
#
# CBAA
# BCAA
# BACA
# BAAC
# CABA
# ACBA
# ABCA
# ABAC
# CAAB
# ACAB
# AACB
# AABC

关于python - 查找A,B的所有序列,每个序列具有指定数目的元素,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10422902/

10-09 08:22