第一次写博客,写的可能有点乱,有问题可以一起探讨。格式可能控制也不是太好。
1.日常的数据集大多带有中文格式,例如“公务员招聘岗位汇总.xls”。我们使用pandas的read_csv()函数读取可能会出现无法解码的情况。强制更改xls为csv后缀可能会导致中文数据乱码
pandas中内置的read_excel()函数可直接将xls(xlsx)文件读取,返回一个dataframe
代码如下:
import pandas as pd import numpy as np information1=pd.read_excel("job4.xlsx")
2.当我们需要从上千个岗位中挑选出自己需要的岗位时,如果一个一个从excel表格中检索时效率特别低,而且可能会漏掉一些岗位
pandas的数据筛选切片可直接帮你筛选出你需要的岗位:例如选取招聘岗位为“材料类”的
1 df_cl=information1[information1.专业.str.contains("材料")]#直接切片
#pandas进行多条件联合筛选时不能用 and 和or 进行限制。对应使用&和| 代替
上述代码中:专业 是excel表的列名
series.str.contains("str1XXXXXX") 字符匹配
3.将筛选返回的df_cl Dataframe输出为本地的excel文件,即可过滤掉不需要的信息
df_cl.to_excel('材料专业岗位4.xlsx')
注:dataframe.to_excel()函数需要openpyxl库
输出的xls文件在你的项目文件里