时间限制:4000ms
单点时限:4000ms
内存限制:256MB
描述
你知道KMP吗?它是用于判断一个字符串是否是另一个字符串的子串的算法。今天我们想去扩展它。
在信息理论中,在两个相同长度的字符串之间的海明码距离是:两个字符串相同位置对应的字符不同的位置数目。换种说法,它表示将一个字符串转化为另一个字符串所需要改变字符的最小数目。
下面这些字符串之间的海明码距离:
"karolin"和"kathrin"是3.
"karolin"和"kerstin"是3.
1011101和1001001是2.
2173896和2233796是3.
现在给定两个字符串stra,strb,和一个整数k。对于stra中的一个子串,如果它的长度和strb的相同且它们之间的海明码距离不超过k,我们认为它们是匹配的。
那么我们想知道在stra中有多少子串是和strb是匹配的。
输入
有多组测试(大约100),每个用例占3行。
第一行是stra。
第二行是strb。
第三行是k。
请处理到文件末尾。
【参数说明】
1<=stra,strb的长度<=100000
stra,strb只包含小写字母
0<=k<=5
输出
对于每个测试用例,以输出结果占一行。
- 样例输入
abcde
f
0
abcde
f
1
karolin
kathrin
3- 样例输出
0
5
1
题意:求T串中S串的数量,最多可以失配K。
思路:len1=|S|,len2=|T|。枚举S的起点i,如果i后面的可行的长度>=len2,则累加1次。
具体实现:二分得到当前最长匹配长度,假设是L,则跳过L后面一位(失配的一位),同时失配次数累加一次,继续检测后面的。 如果匹配成功,而且跳过次数不超过K次,则满足。
Bkdrhash+二分: (题目是ExKMP,我没想到这么用扩展kmp来做,qwq。)
#include<cstdio>
#include<cstring>
#include<iostream>
using namespace std;
#define ull unsigned long long
const int maxn=;
const int seed=;
char a[maxn+],b[maxn+];
int hash1[maxn+],hash2[maxn+],g[maxn+],K;
int L1,L2,ans;
int find(int w,int v)
{
int L=,R=L2-v+,res=;
while(L<=R){
int Mid=(L+R)>>;
if(hash1[w+Mid-]-hash1[w-]*g[Mid]==hash2[v+Mid-]-hash2[v-]*g[Mid]) res=Mid,L=Mid+;
else R=Mid-;
} return res;
}
bool check(int x)
{
int w=x,v=;
for(int i=;i<=K;i++){
int L=find(w,v);
w=w+L+; v=v+L+;
if(v>L2) return true;
}
int L=find(w,v);
w=w+L; v=v+L;
if(v>L2) return true;
return false;
}
int main()
{
g[]=;
for(int i=;i<=maxn;i++) g[i]=g[i-]*seed;
while(~scanf("%s%s%d",a+,b+,&K)){
L1=strlen(a+); L2=strlen(b+); ans=;
for(int i=;i<=L1;i++) hash1[i]=hash1[i-]*seed+a[i];
for(int i=;i<=L2;i++) hash2[i]=hash2[i-]*seed+b[i];
for(int i=;i<=L1-L2+;i++)
if(check(i)) ans++;
printf("%d\n",ans);
}
return ;
}