最近想使用Hash函数来根据一个字符串来生成一个惟一的值,但是没找到好用的Hash函数,像PHP内置的MD5、SHA等哈希函数生成的值太长,我没法用,想截取,这样做又担心会出现哈希碰撞,特来拜求高人们用的是什么哈希函数
回复内容:
最近想使用Hash函数来根据一个字符串来生成一个惟一的值,但是没找到好用的Hash函数,像PHP内置的MD5、SHA等哈希函数生成的值太长,我没法用,想截取,这样做又担心会出现哈希碰撞,特来拜求高人们用的是什么哈希函数
虽然说采用什么哈希算法要看数据而定,但连MD5再嫌长,可真的有些难办了。其实我很想听听为什么“哈希函数生成的值太长,我没法用”。如果是没有任何评估,单凭感觉就这么说,那真的太过分了。
你可能需要的不是一个低冲撞的哈希算法,而是将哈希算法的输出压缩的字符串压缩算法。由于哈希算法输出的字符集不过16个,而ASCII的显示字符扣掉空格也剩94个,所以单从压缩字符串长度来看,这个想法应该能够让你满意。
输出变短(也就是哈希值的取值空间变小)必然增加哈希碰撞概率,不要有任何不切实际的幻想。也就是说,无论你的算法是什么,只要范围等同的减小,哈希碰撞的概率就会等同的增大。所以如果真的需要短输出的哈希函数,也就不必再费尽心思去找,截取这个办法已经足够有效了。
标题起的也不好。哈希碰撞的出现是必然的,“解决”哈希碰撞本身就不存在。
哈希碰撞虽然是小概率事件,但绝对不能怕,更不能躲,尤其不能当作“不存在”。一定要根据应用的需求,有明确的方法对待之。我的建议,要么加长哈希算法的取值空间,要么增加其他的比较特征,作为在哈希算法之外额外的补充。
长度越长,碰撞的几率越小。减少长度必然增加碰撞几率。因为你是把原文空间隐射到哈希生成串的空间,串长度决定了空间的大小。