第一次写博客,写的可能有点乱,有问题可以一起探讨。格式可能控制也不是太好。

1.日常的数据集大多带有中文格式,例如“公务员招聘岗位汇总.xls”。我们使用pandas的read_csv()函数读取可能会出现无法解码的情况。强制更改xls为csv后缀可能会导致中文数据乱码

pandas中内置的read_excel()函数可直接将xls(xlsx)文件读取,返回一个dataframe

代码如下:

import pandas as pd
import numpy as np
information1=pd.read_excel("job4.xlsx")

2.当我们需要从上千个岗位中挑选出自己需要的岗位时,如果一个一个从excel表格中检索时效率特别低,而且可能会漏掉一些岗位

pandas的数据筛选切片可直接帮你筛选出你需要的岗位:例如选取招聘岗位为“材料类”的

1 df_cl=information1[information1.专业.str.contains("材料")]#直接切片
#pandas进行多条件联合筛选时不能用 and 和or 进行限制。对应使用&和| 代替

上述代码中:专业 是excel表的列名

series.str.contains("str1XXXXXX") 字符匹配

3.将筛选返回的df_cl Dataframe输出为本地的excel文件,即可过滤掉不需要的信息

df_cl.to_excel('材料专业岗位4.xlsx')

注:dataframe.to_excel()函数需要openpyxl库

输出的xls文件在你的项目文件里

01-14 01:18