数据集是 2.57 GB 的 6766 个文件夹中的 97984 个文件。其中很多是二进制文件。
对我来说,这听起来并不多。在大约 50 个文件上,每天的数据更改率为数百 KB。但我担心颠覆会变得非常缓慢。
无论如何它从来都不是很快,最后一次在 v1.2 的建议是将其拆分为多个存储库。不,我不喜欢这个。
有没有办法告诉 Subversion 或任何其他免费的开源版本控制信任文件修改时间/文件大小来检测文件更改而不是比较所有文件?
有了这个,并将数据放在一个快速的现代 SSD 上,它应该运行得很快,比如说,完整提交的时间少于 6 秒(这是从 Windows 资源管理器属性对话框中获取摘要的 3 倍)。
最佳答案
我刚刚在我的机器上做了一个基准测试,看看它是什么样的:
Data size - 2.3Gb (84000 files in 6000 directories, random textual data)
Checkout time 14m
Changed 500 files (14M of data changes)
Commit time 50seconds
为了了解手动比较所有这些文件需要多长时间,我还针对该数据的 2 个导出(版本 1 对版本 2)运行了差异。
Diff time: 55m
我不确定 ssd 是否会像您希望的那样缩短提交时间,但我使用普通的单个 sata 磁盘来获得 50 秒和 55 分钟的比较。
对我来说,这些时间强烈表明默认情况下 svn 不会检查文件的内容。
这是 svn 1.6。
关于svn - 我可以将 Subversion 用于多 GB 的数据集吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1396737/