Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 Stack Overflow 的 on-topic

2年前关闭。



Improve this question




我有各种由用户上传的“未知”字段分隔文件(我零控制,甚至不知道它们将以“v”结尾),我想看看是否有推断有关未知字段分隔文件的以下信息的现有库(希望在 python 中):
  • 标题所在的行号。
  • 是否有标题。
  • 分隔符是什么。
  • 如果在标题之后跳过任何行

  • python - 用于推断以字段分隔的文件信息的库-LMLPHP

    在上面的例子中,标题从第 2 行开始,数据从第 4 行开始(这里的分隔符是一个制表符,但没有显示在上面的网格中)。

    是否有任何开源库(ML/AI?)尝试根据前 100 行左右的数据推断文件标题信息?这是来自 Google 搜索的一种方法,但未指定任何软件包: https://www.computer.org/csdl/proceedings/hpcc/2016/4297/00/07828554.pdf

    更新 :本质上,我正在寻找一个库是否存在(以任何语言),我可以通过它 只有前 100 行数据 并且它能够对 (1) 哪一行进行有根据的猜测 header 在 (2) 数据从哪一行开始; (3) 分隔符是什么。

    最佳答案

    看看 pandas 。它是当今数据解析/分析的首选库。

    CSV 解析器支持自动检测分隔符,并且您可以提供模式来指定注释。例如上例中的“#”。

    由于上面的第一行,我还不确定它的行为方式,因为它不是以注释字符开头,如果我找到更多信息,我会改进答案。

    关于python - 用于推断以字段分隔的文件信息的库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52601808/

    10-13 02:50
    查看更多