adam优化算法

1.SGD的难处：

考虑z=1/20*x²+y²图像，

等高线图和负梯度方向：

假设从（-7,2）这一点开始进行梯度更新（下降）：

learningrate=0.9;

x-=0.9*(1/10)*x (1)

y-=0.9*2*y (2)

把（-7,2）这一点带入（1）和（2）式中，得到一个新的(x,y)，继续带入，可以得到一个x的列表和y的列表，这个列表代表了梯度下降的路线。

假设走40步，梯度下降的路线如图所示：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
x_sgd=[-7.0]
y_sgd=[2.0]
x=-7.0
y=-2.0
N=40
lr=0.9
for i in range(N):
    x-=x/10*lr
    y-=2*y*lr
    x_sgd.append(x)
    y_sgd.append(y)
def f(x,y):
    return np.power(x,2)/20+np.power(y,2)
x=np.arange(-10,10,0.01)
y=np.arange(-3,3,0.01)
x,y=np.meshgrid(x,y)
plt.plot(x_sgd,y_sgd,color='red',marker='o',linestyle='solid')
plt.contour(x,y,f(x,y),cmap=plt.cm.coolwarm)
plt.show()

或者：

clc;
clear;
close all;


[xx,yy]=meshgrid(-10:0.1:10,-3:0.1:3);
zz=xx.^2/20 + yy.^2;
%zz=(1/20)*xx.^2 + yy.^2;
figure(6);surfc(xx,yy,zz);
figure(7);h=contour(xx,yy,zz, 50);
%clabel(h);
%[dx, dy]=gradient(zz,.2,2);
[dx, dy]=gradient(zz,.1,.1);
hold on;
%quiver(-dx, -dy);


lr=0.9;
a=[];
b=[];
x=-7;
y=2;
for i=1:40
    a=[a,x];
    b=[b,y];
    x=x-lr*(1/10)*x;
    y=y-lr*2*y;
    if i>40
        break
    end       
end
figure(6);hold on;plot(a,b,'r.-');
figure(7);hold on;plot(a,b,'r.-');