我必须在一个给定的数据集上训练一个使用四个分量的高斯混合模型。
这个装置是三维的,包含300个样品。
问题是我不能使用对数似然来检查收敛性,因为它-Inf
。这是在评估责任公式中的高斯值时,从四舍五入的零值得出的结果(请参见e-step)。
你能告诉我到目前为止em算法的实现是否正确吗?
如何用四舍五入的零值来解释这个问题呢?
下面是我对EM算法的实现(一次迭代):
首先,我使用kmeans初始化组件的均值和协方差:
load('data1.mat');
X = Data'; % 300x3 data set
D = size(X,2); % dimension
N = size(X,1); % number of samples
K = 4; % number of Gaussian Mixture components
% Initialization
p = [0.2, 0.3, 0.2, 0.3]; % arbitrary pi
[idx,mu] = kmeans(X,K); % initial means of the components
% compute the covariance of the components
sigma = zeros(D,D,K);
for k = 1:K
sigma(:,:,k) = cov(X(idx==k,:));
end
对于E-step,我使用以下公式计算责任
下面是相应的代码:
gm = zeros(K,N); % gaussian component in the nominator -
% some values evaluate to zero
sumGM = zeros(N,1); % denominator of responsibilities
% E-step: Evaluate the responsibilities using the current parameters
% compute the nominator and denominator of the responsibilities
for k = 1:K
for i = 1:N
% HERE values evalute to zero e.g. exp(-746.6228) = -Inf
gm(k,i) = p(k)/sqrt(det(sigma(:,:,k))*(2*pi)^D)*exp(-0.5*(X(i,:)-mu(k,:))*inv(sigma(:,:,k))*(X(i,:)-mu(k,:))');
sumGM(i) = sumGM(i) + gm(k,i);
end
end
res = zeros(K,N); % responsibilities
Nk = zeros(4,1);
for k = 1:K
for i = 1:N
res(k,i) = gm(k,i)/sumGM(i);
end
Nk(k) = sum(res(k,:));
end
Nk(k)
使用m步中给出的公式计算。M步
% M-step: Re-estimate the parameters using the current responsibilities
mu = zeros(K,3);
for k = 1:K
for i = 1:N
mu(k,:) = mu(k,:) + res(k,i).*X(k,:);
sigma(:,:,k) = sigma(:,:,k) + res(k,i).*(X(k,:)-mu(k,:))*(X(k,:)-mu(k,:))';
end
mu(k,:) = mu(k,:)./Nk(k);
sigma(:,:,k) = sigma(:,:,k)./Nk(k);
p(k) = Nk(k)/N;
end
现在为了检查收敛性,对数似然是使用以下公式计算的:
% Evaluate the log-likelihood and check for convergence of either
% the parameters or the log-likelihood. If not converged, go to E-step.
loglikelihood = 0;
for i = 1:N
for k = 1:K
loglikelihood = loglikelihood + log(gm(k,i));
end
end
loglikelihood
是-Inf
因为e-step中的一些gm(k,i)
值为零。因此对数显然是负无穷大。我怎样才能解决这个问题?
可以通过提高Matlab的精度来解决这个问题吗?
或者我的实现有什么问题吗?
最佳答案
根据这个公式,你应该计算gm量之和的对数(所以,对数(和(gm(i,:))))在k个分量中,至少有一个的可能性大于0希望这能解决你的问题。
另一个非常普遍的观点是,当数字对于指数函数来说太大,并且当你确信你使用的是正确的公式时,你总是可以尝试使用数量的对数但是这里不需要这样做,因为0是EXP(- 746)的一个很好的近似值;
关于algorithm - Matlab:EM,无gm分布的高斯混合模型,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31631930/