哈希:

字符串(数字同理):

例如有100000个字符串,现在要插入一些字符串,插入前比较是否已经存在避免含有重复数据

用暴力计较的话会比较慢,在某字符串插入时,最好的情况是在第一个位置就遇见该字符串,但如果在比较了100000后发现没有某字符串,然后进行插入,那么比较100000次的比较则是浪费时间

用映射的方法可以很快判断是否存在某字符串:

1、把100000个字符串存放在经哈希函数返回的哈希地址内

2、将待插入的字符串也经哈希函数,查看返回的哈希地址里是否已经有了某字符串或是否和含有的字符串相等(发生冲突时),没有就插入

每个串都有自己的哈希地址。这取决于需要一个好的哈希函数(BKDRhash),尽量让每个字符串的哈希地址不发生冲突。但有时总存在两个串的哈希地址相同,发生冲突,别急,有解决冲突的办法。

选用的哈希函数:

哈希函数的目的就是为了产生字符串的哈希值,让不同的字符串尽量产生不同的哈希值的函数就是好的哈希函数,全然不会产生同样的哈希函数就是完美的。

处理冲突的方法:

处理冲突的方法有多种,开放定址、拉链法、公共溢出区等。

装载因子,即哈希表的饱和程度:
BKDRhash-LMLPHP

一般来说装载因子越小越好。装载因子越小,碰撞也就越小。哈希表的速度就会越快,但是这样会大大的浪费空间。假如装载因子为0.1。那么哈希表仅仅有10%的空间被真正利用。其余的90%都浪费了,这就是时间和空间的矛盾点。为了平衡,如今大部分採用的是0.75作为装载因子,装载因子达到0.75,那么就动态添加哈希表的大小。

因此,在编写代码之前,首先需要根据所要处理的数据,选择合适的hash函数和冲突处理办法。开放定址需要空闲存储单元,所需要的表比实际容量大,而且容易产生二次聚集发生新冲突。链地址使用链表存储关键字,可以随时插入新数据,数据量大小不受限制。缺点是要用到指针,给新单元分配地址需要时间,会一定程度上减慢算法速度,但影响不大可以忽略。

BKDRhash函数代码如下:

 unsigned int BKDRHash(char *str)
{
unsigned int seed = ;//也可以乘以31、131、1313、13131、131313..
unsigned int hash = ;
while(*str)
{
hash = hash*seed + (*str++);
}
return hash%0x7FFFFFFF;//MAX代表hash表长度
}

测试代码:

#include <iostream>
#include <string.h>
#include <stdio.h>
#include <string.h>
#define MAX 40000
using namespace std;
struct node
{
char name[];
}que[MAX];
/*
BKDRHash函数的解析链接:
http://blog.csdn.net/djinglan/article/details/8812934
*/
unsigned int BKDRHash(char *str)
{
unsigned int seed = ;//也可以乘以31、131、1313、13131、131313..
unsigned int hash = ;
while(*str)
{
hash = hash*seed + (*str++);
} return hash%;//最好对一个大的素数取余
}
int main()
{
int i=,n,t,j;
char a[MAX][];
char temp[];
memset(a,,sizeof(a)); cin >> n;
for(i=;i<n;i++)
{
cin >> que[i].name;
strcpy(a[BKDRHash(que[i].name)],que[i].name);
}
cout << "请输入要查找的字符串:";
while(~scanf("%s",temp))
{
if(strcmp(a[BKDRHash(temp)],temp)==)
cout << "yes" << endl;
else
{
cout << "no" << endl;
strcpy(a[BKDRHash(temp)],temp);
strcpy(que[i++].name,temp);
}
}
for(j=;j<=i;j++)
{
cout << que[j].name << endl;//含有的所有字符串
}
return ;
}

转载用拉链法解决冲突的方法:http://www.cnblogs.com/liuliuliu/p/3966851.html    (小弟认为此定为大神级人物,膜拜O(∩_∩)O哈哈~)

05-24 21:54