machine-learning - 多层感知器-错误平台

我正在尝试使用仅在Matlab上有一个隐藏层的反向传播实现多层感知器。目的是复制两个函数，我正在尝试通过Matlab上只有一个隐藏层的反向传播实现一个多层感知器。目的是复制具有两个输入和一个输出的功能。

我遇到的问题是，错误随着每个时期而开始减少，但是它只是达到了平稳状态，并且似乎没有改善，如下所示：

这是单个纪元期间所有错误的图像：

如您所见，有些极端情况没有得到正确处理

我在用着：

权重从-1初始化为1
均方误差
可变数量的隐藏神经元
动量
随机输入顺序
没有偏见
隐藏层的tanh激活功能
身份作为输出层的激活功能
输入范围为-3至3
输入的最小-最大归一化

我试图改变隐藏层上神经元的数量，试图将学习率降低到非常小的水平，似乎无济于事。

这是Matlab代码：

clc
clear
%%%%%%%     DEFINITIONS  %%%%%%%%
i=0;
S=0;
X=rand(1000,2)*6-3; %generate inputs between -3,+3
Xval=rand(200,2)*6-3; %validation inputs
Number_Neurons=360;
Wh=rand(Number_Neurons,2)*2-1; %hidden weights
Wo=rand(Number_Neurons,1)*2-1;  %output weights
Learn=.001;% learning factor
momentumWh=0; %momentums
momentumWo=0;
a=.01;%momentum factor
WoN=Wo; %new weight

fxy=@(x,y) (3.*(1-x).^2).*(exp(-x.^2-(y+1).^2))-10.*(x./5-x.^3-y.^5).*(exp(-x.^2-y.^2))-(exp(-(x+1).^2-y.^2))./3;   %function to be replicated

fh=@(x) tanh(x); %hidden layer activation function
dfh= @(x) 1-tanh(x).^2; %derivative

fo=@(x) x; %output layer activation function
dfo= @(x) 1; %derivative

%%GRAPH FUNCTION
%[Xg,Yg]=meshgrid(X(:,1),X(:,2));
% Y=fxy(Xg,Yg);
% surf(Xg,Yg,Y)
%%%%%%%%%
Yr=fxy(X(:,1),X(:,2)); %Y real
Yval=fxy(Xval(:,1),Xval(:,2)); %validation Y
Epoch=1;
Xn=(X+3)/6;%%%min max normalization
Xnval=(Xval+3)/6;
E=ones(1,length(Yr));% error
Eval=ones(1,length(Yval));%validation error
MSE=1;

%%%%%        ITERATION    %%%%%
while 1
    N=1;
    perm=randperm(length(X(:,:))); %%%permutate inputs
    Yrand=Yr(perm);    %permutate outputs
    Xrand=Xn(perm,:);
    while N<=length(Yr) %epoch

        %%%%%%foward pass %%%%%
        S=Wh*Xrand(N,:)'; %input multiplied by hidden weights
        Z=fh(S); %activation function of hidden layer
        Yin=Z.*Wo; %output of hidden layer multiplied by output weights
        Yins=sum(Yin); %sum all the inputs
        Yc=fo(Yins);% activation function of output layer, Predicted Y
        E(N)=Yrand(N)-Yc; %error

        %%%%%%%% back propagation %%%%%%%%%%%%%
        do=E(N).*dfo(Yins); %delta of output layer
        DWo=Learn*(do.*Z)+a*momentumWo; %Gradient of output layer
        WoN=Wo+DWo;%New output weight
        momentumWo=DWo; %store momentum
        dh=do.*Wo.*dfh(S); %delta of hidden layer
        DWh1=Learn.*dh.*Xrand(N,1); %Gradient of hidden layer
        DWh2=Learn.*dh.*Xrand(N,2);
        DWh=[DWh1 DWh2]+a*momentumWh;%Gradient of hidden layer
        Wh=Wh+DWh;  %new hidden layer weights
        momentumWh=DWh; %store momentum
        Wo=WoN; %update output weight
        N=N+1; %next value
    end

    MSET(Epoch)=(sum(E.^2))/length(E);  %Mean Square Error Training
    N=1;
    %%%%%% validation %%%%%%%
    while N<=length(Yval)
        S=Wh*Xnval(N,:)';
        Z=fh(S);
        Yin=Z.*Wo;
        Yins=sum(Yin);
        Yc=fo(Yins);
        Eval(N)=Yc-Yval(N);
        N=N+1;
    end

    MSE(Epoch)=(sum(Eval.^2))/length(Eval);   %Mean Square Error de validacion
    if MSE(Epoch)<=1 %stop condition
        break
    end
    disp(MSET(Epoch))
    disp(MSE(Epoch))
    Epoch=Epoch+1; %next epoch
end

最佳答案

对于您要解决的特定问题，有许多因素可以起作用：

问题的复杂性：神经网络是否认为问题容易解决（如果使用标准数据集，您是否将结果与其他研究进行了比较？）
输入：输入与输出是否紧密相关？您是否可以将更多输入添加到NN？它们是否经过正确预处理？
局部最小值与全局最小值：您确定问题已在局部最小值中停止了吗（在该位置NN陷入学习，使NN无法获得更理想的解决方案）？
输出：输出样本是否以某种方式倾斜？这是二进制输出的一种问题，并且两端都有足够的样本吗？
激活功能：是否有另一个适合该问题的激活功能？

然后是您似乎已经尝试过的隐藏层，神经元，学习率，动量，历元等。

根据图表，这是BPNN大致可以预期的学习表现，但是有时需要反复试验才能从中获得最佳结果。

我将尝试使用上述选项（尤其是数据预处理），看看这是否对您有帮助。

关于machine-learning - 多层感知器-错误平台，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/44319537/