Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 Stack Overflow 的 on-topic。
2年前关闭。
Improve this question
我有各种由用户上传的“未知”字段分隔文件(我零控制,甚至不知道它们将以“v”结尾),我想看看是否有推断有关未知字段分隔文件的以下信息的现有库(希望在 python 中):
标题所在的行号。 是否有标题。 分隔符是什么。 如果在标题之后跳过任何行
![python - 用于推断以字段分隔的文件信息的库-LMLPHP python - 用于推断以字段分隔的文件信息的库-LMLPHP]()
在上面的例子中,标题从第 2 行开始,数据从第 4 行开始(这里的分隔符是一个制表符,但没有显示在上面的网格中)。
是否有任何开源库(ML/AI?)尝试根据前 100 行左右的数据推断文件标题信息?这是来自 Google 搜索的一种方法,但未指定任何软件包: https://www.computer.org/csdl/proceedings/hpcc/2016/4297/00/07828554.pdf 。
更新 :本质上,我正在寻找一个库是否存在(以任何语言),我可以通过它 只有前 100 行数据 并且它能够对 (1) 哪一行进行有根据的猜测 header 在 (2) 数据从哪一行开始; (3) 分隔符是什么。
想改善这个问题吗?更新问题,使其成为 Stack Overflow 的 on-topic。
2年前关闭。
Improve this question
我有各种由用户上传的“未知”字段分隔文件(我零控制,甚至不知道它们将以“v”结尾),我想看看是否有推断有关未知字段分隔文件的以下信息的现有库(希望在 python 中):
在上面的例子中,标题从第 2 行开始,数据从第 4 行开始(这里的分隔符是一个制表符,但没有显示在上面的网格中)。
是否有任何开源库(ML/AI?)尝试根据前 100 行左右的数据推断文件标题信息?这是来自 Google 搜索的一种方法,但未指定任何软件包: https://www.computer.org/csdl/proceedings/hpcc/2016/4297/00/07828554.pdf 。
更新 :本质上,我正在寻找一个库是否存在(以任何语言),我可以通过它 只有前 100 行数据 并且它能够对 (1) 哪一行进行有根据的猜测 header 在 (2) 数据从哪一行开始; (3) 分隔符是什么。
最佳答案
看看 pandas 。它是当今数据解析/分析的首选库。
CSV 解析器支持自动检测分隔符,并且您可以提供模式来指定注释。例如上例中的“#”。
由于上面的第一行,我还不确定它的行为方式,因为它不是以注释字符开头,如果我找到更多信息,我会改进答案。
关于python - 用于推断以字段分隔的文件信息的库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52601808/