假设我有一组离散向量,其中

DATA = [
    ('a', 4),
    ('b', 5),
    ('c', 5),
    ('d', 4),
    ('e', 2),
    ('f', 5),
]

如何用matplotlib绘制数据集,以可视化这两个变量之间的任何关联?
任何简单的代码示例都是很好的。

最佳答案

Joe Kington有正确的答案,但您的DATA可能更复杂。它可能在“a”处有多个值。Joe构建x轴值的方式很快,但只适用于唯一值列表。也许有一种更快的方法可以做到这一点,但我就是这样做到的:

import matplotlib.pyplot as plt

def assignIDs(list):
    '''Take a list of strings, and for each unique value assign a number.
    Returns a map for "unique-val"->id.
    '''
    sortedList = sorted(list)

    #taken from
    #http://stackoverflow.com/questions/480214/how-do-you-remove-duplicates-from-a-list-in-python-whilst-preserving-order/480227#480227
    seen = set()
    seen_add = seen.add
    uniqueList =  [ x for x in sortedList if x not in seen and not seen_add(x)]

    return  dict(zip(uniqueList,range(len(uniqueList))))

def plotData(inData,color):
    x,y = zip(*inData)

    xMap = assignIDs(x)
    xAsInts = [xMap[i] for i in x]


    plt.scatter(xAsInts,y,color=color)
    plt.xticks(xMap.values(),xMap.keys())


DATA = [
    ('a', 4),
    ('b', 5),
    ('c', 5),
    ('d', 4),
    ('e', 2),
    ('f', 5),
]


DATA2 = [
    ('a', 3),
    ('b', 4),
    ('c', 4),
    ('d', 3),
    ('e', 1),
    ('f', 4),
    ('a', 5),
    ('b', 7),
    ('c', 7),
    ('d', 6),
    ('e', 4),
    ('f', 7),
]

plotData(DATA,'blue')
plotData(DATA2,'red')

plt.gcf().savefig("correlation.png")

myDATA2集的每个x轴值都有两个值。下面用红色标绘:
编辑
你问的问题很广泛。我搜索了‘相关性’,Wikipedia对皮尔逊的积矩系数进行了很好的讨论,这是线性拟合的斜率的特征。请记住,该值只是一个指导,决不能预测线性拟合是否是一个合理的假设,请参见上述页面中的注释。这里有一个更新的plotData方法,它使用numpy.linalg.lstsq进行线性回归,并使用numpy.corrcoef计算Pearson的r:
import matplotlib.pyplot as plt
import numpy as np

def plotData(inData,color):
    x,y = zip(*inData)

    xMap = assignIDs(x)
    xAsInts = np.array([xMap[i] for i in x])

    pearR = np.corrcoef(xAsInts,y)[1,0]
    # least squares from:
    # http://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.lstsq.html
    A = np.vstack([xAsInts,np.ones(len(xAsInts))]).T
    m,c = np.linalg.lstsq(A,np.array(y))[0]

    plt.scatter(xAsInts,y,label='Data '+color,color=color)
    plt.plot(xAsInts,xAsInts*m+c,color=color,
             label="Fit %6s, r = %6.2e"%(color,pearR))
    plt.xticks(xMap.values(),xMap.keys())
    plt.legend(loc=3)

新数字是:
同样,展平每个方向并查看单个分布可能很有用,它们是correlation and linearity的示例:
如果一个线性近似值是有用的,你可以通过观察拟合来定性地确定它,那么你可能想在展平Y方向之前减去这个趋势值。这将有助于证明你有一个关于线性趋势的高斯随机分布。

关于python - 在matplotlib中绘制相关图,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8154511/

10-12 01:23
查看更多