我已使用Python Faker生成伪造数据。但是我需要知道使用fakerr(例如:fake.name())可以生成最大数量的不同的假数据(例如:假名)。
我已经产生了100,000个假名,而我得到的独特名少于76,000个。我需要知道最大限制,这样我才能知道使用此软件包生成数据可以扩展的数量。
我需要生成巨大的数据集。我也想知道Php伪造者,perl伪造者在不同的环境下都是一样的吗?
产生巨大数据集的其他软件包将受到高度赞赏。
最佳答案
我遇到了同样的问题,并进行了更多研究。
在en_US
提供程序中,大约有1000个姓氏和750个姓氏,用于大约750000个唯一的组合。如果您随机选择名字和姓氏,则有可能会重复。但实际上,这就是现实世界的运作方式,那里有许多约翰·史密斯(John Smiths)和罗伯特·道尔(Robert Doyles)。en
概要文件中有7203个名字和473个姓氏,可以提供帮助。 Faker选择名字和姓氏的组合,这意味着大约有7203 * 473 = 3407019。
但是,仍然有机会获得重复。
我通过在名称中添加数字来解决此问题。
请记住,实际上,任何庞大的名称数据集都将具有重复项。我使用大型数据集(>一百万个名称),我们看到大量重复的名字和姓氏。
如果您阅读了造假者的程序包代码,则可能可以弄清楚如何对其进行修改,以便获得所有3M唯一的名称。