我有一个非常大的数据集,试图立即进行可视化。集本身包含成千上万个细分,每个细分都映射到一个ID。
我收到了第二个数据源,该数据源为每个段提供了更多实时信息,但是ID与我拥有的ID不对应。
我将数据ID(9个字符的字符串)与当前ID(长整数)进行1:1映射。问题在于,有很多ID,并且传入的数据没有特定的顺序。
我想出的解决方案是拥有一个将字符串映射到道路ID的哈希映射。问题是我不知道哈希图是否足够有效以容纳所有166k数据条目。
有人对此有任何建议和/或哈希算法吗?
最佳答案
如果您只处理成千上万个数据点,那么采用幼稚的方法并坚持使用哈希图可能不会成为问题。
即使您有500,000个9个字符的字符串和相等数量的long
,每个项目仍然只有16个字节或总计8,000,000个字节。即使将开销翻倍,16 MB也不可能一次太大。
基本上,首先尝试简单的方法,并且仅在剖析告诉您花费太长时间时才担心它。