我有一个制表符分隔的文件:
$ echo -e 'abc\txyz\t0.9\nefg\txyz\t0.3\nlmn\topq\t0.23\nabc\tjkl\t0.5\n' > test.txt
$ cat test.txt
abc xyz 0.9
efg xyz 0.3
lmn opq 0.23
abc jkl 0.5
$ python
>>> from sframe import SFrame
>>> sf = SFrame.read_csv('test.txt', header=False, delimiter='\t', column_type_hints=[unicode, unicode, float])
[INFO] sframe.cython.cy_server: SFrame v2.1 started. Logging /tmp/sframe_server_1479718846.log
>>> sf
Columns:
X1 str
X2 str
X3 float
Rows: 4
Data:
+-----+-----+------+
| X1 | X2 | X3 |
+-----+-----+------+
| abc | xyz | 0.9 |
| efg | xyz | 0.3 |
| lmn | opq | 0.23 |
| abc | jkl | 0.5 |
+-----+-----+------+
[4 rows x 3 columns]
目标是实现一个不同的SFrame,其中将有一个唯一的行由“ X1”组成,而列是“ X2”中的值,即:
+-----+-----+-----+------+
| X1 | xyz | opq | jkl |
+-----+-----+-----+------+
| abc | 0.9 | 0.0 | 0.5 |
+-----+-----+-----+------+
| efg | 0.3 | 0.0 | 0.0 |
+-----+-----+-----+------+
| lmn | 0.0 | 0.23| 0.0 |
+-----+-----+-----+------+
我试过没有SFrame的情况:
>>> import io
>>> with io.open('test.txt', 'r', encoding='utf8') as fin:
... for line in fin:
... if line.strip():
... s,t,p = line.strip().split('\t')
... matrix[(s,t)] = float(p)
...
>>> matrix
{(u'abc', u'jkl'): 0.5, (u'abc', u'xyz'): 0.9, (u'lmn', u'opq'): 0.23, (u'efg', u'xyz'): 0.3}
>>> col1, col2 = zip(*matrix.keys())
>>> [[matrix.get((c1,c2), 0.0) for c2 in col2] for c1 in col1]
[[0.5, 0.9, 0.0, 0.9], [0.5, 0.9, 0.0, 0.9], [0.0, 0.0, 0.23, 0.0], [0.0, 0.3, 0.0, 0.3]]
>>> import numpy as np
>>> np.array([[matrix.get((c1,c2), 0.0) for c2 in col2] for c1 in col1])
array([[ 0.5 , 0.9 , 0. , 0.9 ],
[ 0.5 , 0.9 , 0. , 0.9 ],
[ 0. , 0. , 0.23, 0. ],
[ 0. , 0.3 , 0. , 0.3 ]])
>>> SFrame(np.array([[matrix.get((c1,c2), 0.0) for c2 in col2] for c1 in col1]))
Columns:
X1 array
Rows: 4
Data:
+-----------------------+
| X1 |
+-----------------------+
| [0.5, 0.9, 0.0, 0.9] |
| [0.5, 0.9, 0.0, 0.9] |
| [0.0, 0.0, 0.23, 0.0] |
| [0.0, 0.3, 0.0, 0.3] |
+-----------------------+
[4 rows x 1 columns]
但这仍然不能为我提供所需的SFrame。如何将唯一列转换为具有相应值的SFrame标头?即实现:
+-----+-----+-----+------+
| X1 | xyz | opq | jkl |
+-----+-----+-----+------+
| abc | 0.9 | 0.0 | 0.5 |
+-----+-----+-----+------+
| efg | 0.3 | 0.0 | 0.0 |
+-----+-----+-----+------+
| lmn | 0.0 | 0.23| 0.0 |
+-----+-----+-----+------+
必须有一个更简单的方法来执行此操作。想象一下,唯一的没有。列元素的数量最多可以达到1,000,000,结果SFrame的大小可能为1,000,000 X 1,000,000,因此需要SFrame或HDF之类的数据结构,而不是numpy数组或列表的本机python列表。
最佳答案
使用df.pivot(index='X1', columns='X2', values='X3')
或执行df.set_index(['X1','X2']).unstack('X2')
,您想在熊猫中做的事情确实微不足道(请参阅本文结尾)。
似乎SFrame中都不存在。 (我可能是错的,到目前为止从未使用过SFrame,但我在文档中找不到任何证据)。
您需要使用SFrame.unstack()和SFrame.unpack()才能获得所需的结果。
from sframe import SFrame
sf = SFrame.read_csv('test.txt', header=False, delimiter='\t', column_type_hints=[unicode, unicode, float])
拳头,未堆叠:
sf2 = sf.unstack(['X2', 'X3'], new_column_name='dict_counts')
sf2
X1 dict_counts
efg {'xyz': 0.3}
lmn {'opq': 0.23}
abc {'jkl': 0.5, 'xyz': 0.9}
然后解压:
out = sf2.unpack('dict_counts', column_name_prefix='')
out
X1 jkl opq xyz
efg None None 0.3
lmn None 0.23 None
abc 0.5 None 0.9
最后,如果您愿意,可以使用fillna来用
None
替换0
:for c in out.column_names():
out = out.fillna(c, 0)
out
X1 jkl opq xyz
efg 0.0 0.0 0.3
lmn 0.0 0.23 0.0
abc 0.5 0.0 0.9
另一种执行此操作的粗略方法可能是将pandas DataFrame转换为枢轴,但如果您的数据集太大,则可能无法正常工作:
import pandas as pd
from sframe import SFrame
sf = SFrame.read_csv('test.txt', header=False, delimiter='\t', column_type_hints=[unicode, unicode, float])
sf = SFrame(data=sf.to_dataframe().pivot(index='X1', columns='X2', values='X3').fillna(0).reset_index())
关于python - 将唯一列转换为具有相应值的SFrame header ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40716623/