我收集了许多媒体文件,其中大部分是音乐,其中许多是多年前从CD导入的。此收藏已在不同的媒体播放器,不同的文件系统,不同的计算机等之间多次转移。在此过程中,一些曲目被意外复制。我还一直在尝试整理这些数据的元数据并正确标记所有内容,因为当许多元数据最初被导入时,我没有精美的媒体播放软件,甚至没有意识到ID3标签表明一切都只是“在经典专辑“专辑”中跟踪“%d”。

这会造成一种情况,我有一些文件具有最新的元数据,但是“复制”了我要删除的同一媒体文件,但其元数据未正确更新。由于元数据存在于文件中,因此这些文件的内容现在有所不同,并且像liten2之类的工具无法使用。

我的问题是:是否有一个我可以使用的库,可以方便地提取仅文件媒体内容的唯一标识指纹(可能是SHA-1哈希,但这不是硬性要求),而忽略元数据?如果可以,该如何使用?

最佳答案

Echoprint是一种免费的方式来根据其内容对音频进行指纹识别-即,它不依赖于元数据,也不依赖于字节精确的数据匹配。他们的常见问题解答中有一个条目"I want to deduplicate a big collection"

我认为它的核心本身不是python,而是Web API-但它们提供了pyechonest库。

10-04 20:57
查看更多