我有一个包含数据的文本文件,格式为单个列表。数据实际上是许多行和列,但是格式是单列。我已将其导入到pandas数据框中,我想重塑此数据框。
这是列表的数据格式:
a1
b1
c1
d1
e1
a2
b2
c2
d2
e2
a3
b3
c3
d3
e3
etc...
所需的格式为:
"Heading 1" "Heading 2" "Heading 3" "Heading 4" "Heading 5"
a1 b1 c1 d1 e1
a2 b2 c2 d2 e2
a3 b3 c3 d3 e3
我已经尝试过pandas的栈和栈功能,但是没有运气。我也尝试过使用numpy数组,但是我的数据中包含数字和字符串,因此无法正常工作。
最佳答案
您可以先创建元组列表,然后传递给DataFrame
构造函数:
L = ['a1', 1, 'c1', 'd1', 'e1', 'a2', 2, 'c2', 'd2', 'e2', 'a3', 3, 'c3', 'd3', 'e3']
import itertools
#https://stackoverflow.com/a/1625013
def grouper(n, iterable, fillvalue=None):
"grouper(3, 'ABCDEFG', 'x') --> ABC DEF Gxx"
args = [iter(iterable)] * n
return itertools.zip_longest(*args, fillvalue=fillvalue)
print (list(grouper(5, L)))
[('a1', 1, 'c1', 'd1', 'e1'), ('a2', 2, 'c2', 'd2', 'e2'), ('a3', 3, 'c3', 'd3', 'e3')]
df = pd.DataFrame(list(grouper(5, L))).rename(columns = lambda x: f'Heading {x + 1}')
print (df)
Heading 1 Heading 2 Heading 3 Heading 4 Heading 5
0 a1 1 c1 d1 e1
1 a2 2 c2 d2 e2
2 a3 3 c3 d3 e3
print (df.dtypes)
Heading 1 object
Heading 2 int64
Heading 3 object
Heading 4 object
Heading 5 object
dtype: object
重塑的第一个想法,但最后一个需要将列转换为数字:
df = pd.DataFrame(np.array(L).reshape(-1, 5)).rename(columns = lambda x: f'Heading {x + 1}')
print (df)
Heading 1 Heading 2 Heading 3 Heading 4 Heading 5
0 a1 1 c1 d1 e1
1 a2 2 c2 d2 e2
2 a3 3 c3 d3 e3
print (df.dtypes)
Heading 1 object
Heading 2 object <- converted to object
Heading 3 object
Heading 4 object
Heading 5 object
dtype: object
关于python - 如何将具有所有数据的 Pandas 数据框转换为多列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58336537/