2025年梯度提升树算法流程（梯度提升算法的理解）

大家好，我是讯享网，很高兴认识大家。

梯度下降是一种优化算法，遵循目标函数的负梯度以定位函数的最小值。

梯度下降的局限性是，所有输入变量都使用单个步长（学习率）。像AdaGrad和RMSProp这样的梯度下降的扩展会更新算法，以对每个输入变量使用单独的步长，但可能会导致步长迅速减小到非常小的值。自适应运动估计算法（Adam）是梯度下降的扩展，是AdaGrad和RMSProp等技术的自然继承者，该技术可自动为目标函数的每个输入变量调整学习率，并通过使用以指数方式降低梯度的移动平均值以更新变量。

在本教程中，您将发现如何从头开始使用Adam优化算法开发梯度下降。完成本教程后，您将知道：

梯度下降是一种优化算法，它使用目标函数的梯度来导航搜索空间。
可以通过使用称为Adam的偏导数的递减平均值，将梯度下降更新为对每个输入变量使用自动自适应步长。
如何从头开始实施Adam优化算法并将其应用于目标函数并评估结果。

教程概述

本教程分为三个部分：他们是：

梯度下降
Adam优化算法
Adam梯度下降

二维测试问题

Adam的梯度下降优化

Adam可视化

梯度下降

梯度下降是一种优化算法。它在技术上称为一阶优化算法，因为它明确利用了目标目标函数的一阶导数。一阶导数，或简称为“导数”，是目标函数在特定点（例如，点）上的变化率或斜率。用于特定输入。如果目标函数采用多个输入变量，则将其称为多元函数，并且可以将输入变量视为向量。反过来，多元目标函数的导数也可以视为向量，通常称为梯度。

梯度：多元目标函数的一阶导数。

对于特定输入，导数或梯度指向目标函数最陡峭的上升方向。

梯度下降是指一种最小化优化算法，该算法遵循目标函数的下坡梯度负值来定位函数的最小值。梯度下降算法需要一个正在优化的目标函数和该目标函数的导数函数。目标函数f（）返回给定输入集合的分数，导数函数f’（）给出给定输入集合的目标函数的导数。梯度下降算法需要问题中的起点（x），例如输入空间中的随机选择点。

假设我们正在最小化目标函数，然后计算导数并在输入空间中采取一步，这将导致目标函数下坡运动。下坡运动是通过首先计算输入空间中的运动量来进行的，计算方法是将步长（称为alpha或学习率）乘以坡度。然后从当前点减去该值，以确保我们逆梯度移动或向下移动目标函数。

x（t）= x（t-1）–step* f’（x（t-1））

在给定点的目标函数越陡峭，梯度的幅度越大，反过来，在搜索空间中采取的步伐也越大。使用步长超参数来缩放步长的大小。

步长（alpha）：超参数，控制算法每次迭代时相对于梯度在搜索空间中移动多远。

如果步长太小，则搜索空间中的移动将很小，并且搜索将花费很长时间。如果步长太大，则搜索可能会在搜索空间附近反弹并跳过最优值。

现在我们已经熟悉了梯度下降优化算法，下面让我们看一下Adam算法。

Adam优化算法

自适应运动估计算法（简称“Adam”）是梯度下降优化算法的扩展。Diederik Kingma和Jimmy Lei Ba在2014年发表的题为“Adam：随机优化方法”的论文中描述了该算法。Adam旨在加速优化过程，例如减少达到**状态所需的功能评估次数，或提高优化算法的功能，例如产生更好的最终结果。这是通过为每个要优化的输入参数计算步长来实现的。重要的是，每个步长都将根据每个变量遇到的梯度（偏导数）自动调整搜索过程的吞吐量。

让我们逐步介绍该算法的每个元素。首先，对于作为搜索一部分而被优化的每个参数，我们必须维持一个矩矢量和指数加权无穷大范数，分别称为m和v（真是希腊字母nu）。在搜索开始时将它们初始化为0.0。

m = 0  

v = 0

该算法在从 t=1 开始的时间t内迭代执行，并且每次迭代都涉及计算一组新的参数值x，例如。从 x（t-1） 到 x（t） 。如果我们专注于更新一个参数，这可能很容易理解该算法，该算法概括为通过矢量运算来更新所有参数。首先，计算当前时间步长的梯度（偏导数）。

g（t）= f’（x（t-1））

接下来，使用梯度和超参数 beta1 更新第一时刻。

m（t）= beta1 * m（t-1）+（1 – beta1）* g（t）

然后，使用平方梯度和超参数 beta2 更新第二时刻。

v（t）= beta2 * v（t-1）+（1 – beta2）* g（t）^ 2

由于第一和第二力矩是用零值初始化的，所以它们是有偏的。接下来，对第一力矩和第二力矩进行偏差校正，并以第一力矩为起点：

mhat（t）= m（t）/（1 – beta1（t））

然后第二个时刻：

vhat（t）= v（t）/（1 – beta2（t））

注意， beta1（t） 和 beta2（t） 指的是 beta1 和 beta2 超参数，它们在算法的迭代过程中按时间表衰减。可以使用静态衰减时间表，尽管该论文建议以下内容：

beta1（t）= beta1 ^ t

beta2（t）= beta2 ^ t

最后，我们可以为该迭代计算参数的值。

x（t）= x（t-1）– alpha * mhat（t）/（sqrt（vhat（t））+ eps）

其中 alpha 是步长超参数， eps 是一个较小的值（ epsilon ），例如 1e-8 ，可确保我们不会遇到被零除的误差，而 sqrt（）是平方根函数。

注意，可以使用对本文中列出的更新规则进行更有效的重新排序：

alpha（t）= alpha * sqrt（1 – beta2（t））/（1 – beta1（t））   x（t）= x（t-1）– alpha（t）* m（t）/（sqrt（v（t））+ eps）

回顾一下，该算法有三个超参数，它们是：

alpha：初始步长（学习率），典型值为0.001。
beta1：第一个动量的衰减因子，典型值为0.9。
beta2：无穷大范数的衰减因子，典型值为0.999。

接下来，让我们看看如何在Python中从头开始实现该算法。

Adam梯度下降

在本节中，我们将探讨如何使用Adam实现梯度下降优化算法。

二维测试问题

首先，让我们定义一个优化函数。我们将使用一个简单的二维函数，该函数将每个维的输入平方，并定义有效输入的范围（从-1.0到1.0）。

下面的 Objective（） 函数实现了此功能

#&nbsp;objective&nbsp;function
def&nbsp;objective(x,&nbsp;y):
&nbsp;return&nbsp;x2.0&nbsp;+&nbsp;y2.0

讯享网

我们可以创建数据集的三维图，以了解响应面的曲率。下面列出了绘制目标函数的完整示例。

讯享网#&nbsp;3d&nbsp;plot&nbsp;of&nbsp;the&nbsp;test&nbsp;function
from&nbsp;numpy&nbsp;import&nbsp;arange
from&nbsp;numpy&nbsp;import&nbsp;meshgrid
from&nbsp;matplotlib&nbsp;import&nbsp;pyplot
&nbsp;
#&nbsp;objective&nbsp;function
def&nbsp;objective(x,&nbsp;y):
&nbsp;return&nbsp;x2.0&nbsp;+&nbsp;y2.0
&nbsp;
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
r_min,&nbsp;r_max&nbsp;=&nbsp;-1.0,&nbsp;1.0
#&nbsp;sample&nbsp;input&nbsp;range&nbsp;uniformly&nbsp;at&nbsp;0.1&nbsp;increments
xaxis&nbsp;=&nbsp;arange(r_min,&nbsp;r_max,&nbsp;0.1)
yaxis&nbsp;=&nbsp;arange(r_min,&nbsp;r_max,&nbsp;0.1)
#&nbsp;create&nbsp;a&nbsp;mesh&nbsp;from&nbsp;the&nbsp;axis
x,&nbsp;y&nbsp;=&nbsp;meshgrid(xaxis,&nbsp;yaxis)
#&nbsp;compute&nbsp;targets
results&nbsp;=&nbsp;objective(x,&nbsp;y)
#&nbsp;create&nbsp;a&nbsp;surface&nbsp;plot&nbsp;with&nbsp;the&nbsp;jet&nbsp;color&nbsp;scheme
figure&nbsp;=&nbsp;pyplot.figure()
axis&nbsp;=&nbsp;figure.gca(projection=‘3d’)
axis.plot_surface(x,&nbsp;y,&nbsp;results,&nbsp;cmap=‘jet’)
#&nbsp;show&nbsp;the&nbsp;plot
pyplot.show()

运行示例将创建目标函数的三维表面图。我们可以看到全局最小值为 f（0，0）= 0 的熟悉的碗形状。

我们还可以创建函数的二维图。这在以后要绘制搜索进度时会很有帮助。下面的示例创建目标函数的轮廓图。

#&nbsp;contour&nbsp;plot&nbsp;of&nbsp;the&nbsp;test&nbsp;function
from&nbsp;numpy&nbsp;import&nbsp;asarray
from&nbsp;numpy&nbsp;import&nbsp;arange
from&nbsp;numpy&nbsp;import&nbsp;meshgrid
from&nbsp;matplotlib&nbsp;import&nbsp;pyplot
&nbsp;
#&nbsp;objective&nbsp;function
def&nbsp;objective(x,&nbsp;y):
&nbsp;return&nbsp;x2.0&nbsp;+&nbsp;y2.0
&nbsp;
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
bounds&nbsp;=&nbsp;asarray([[-1.0,&nbsp;1.0],&nbsp;[-1.0,&nbsp;1.0]])
#&nbsp;sample&nbsp;input&nbsp;range&nbsp;uniformly&nbsp;at&nbsp;0.1&nbsp;increments
xaxis&nbsp;=&nbsp;arange(bounds[0,0],&nbsp;bounds[0,1],&nbsp;0.1)
yaxis&nbsp;=&nbsp;arange(bounds[1,0],&nbsp;bounds[1,1],&nbsp;0.1)
#&nbsp;create&nbsp;a&nbsp;mesh&nbsp;from&nbsp;the&nbsp;axis
x,&nbsp;y&nbsp;=&nbsp;meshgrid(xaxis,&nbsp;yaxis)
#&nbsp;compute&nbsp;targets
results&nbsp;=&nbsp;objective(x,&nbsp;y)
#&nbsp;create&nbsp;a&nbsp;filled&nbsp;contour&nbsp;plot&nbsp;with&nbsp;50&nbsp;levels&nbsp;and&nbsp;jet&nbsp;color&nbsp;scheme
pyplot.contourf(x,&nbsp;y,&nbsp;results,&nbsp;levels=50,&nbsp;cmap=‘jet’)
#&nbsp;show&nbsp;the&nbsp;plot
pyplot.show()

运行示例将创建目标函数的二维轮廓图。我们可以看到碗的形状被压缩为以颜色渐变显示的轮廓。我们将使用该图来绘制在搜索过程中探索的特定点。

现在我们有了一个测试目标函数，让我们看一下如何实现Adam优化算法。

Adam梯度下降优化

我们可以将带有Adam的梯度下降应用于测试问题。首先，我们需要一个函数来计算此函数的导数。

f（x）= x ^ 2

f’（x）= x * 2

x ^ 2 的导数在每个维度上均为 x * 2 。  derived（） 函数在下面实现了这一点。

讯享网#&nbsp;derivative&nbsp;of&nbsp;objective&nbsp;function
def&nbsp;derivative(x,&nbsp;y):
&nbsp;return&nbsp;asarray([x&nbsp;&nbsp;2.0,&nbsp;y&nbsp;&nbsp;2.0])

接下来，我们可以实现梯度下降优化。首先，我们可以选择问题范围内的随机点作为搜索的起点。假定我们有一个数组，该数组定义搜索范围，每个维度一行，并且第一列定义最小值，第二列定义维度的最大值。

#&nbsp;generate&nbsp;an&nbsp;initial&nbsp;point
x&nbsp;=&nbsp;bounds[:,&nbsp;0]&nbsp;+&nbsp;rand(len(bounds))&nbsp;&nbsp;(bounds[:,&nbsp;1]&nbsp;-&nbsp;bounds[:,&nbsp;0])
score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])

接下来，我们需要将第一时刻和第二时刻初始化为零。

讯享网#&nbsp;initialize&nbsp;first&nbsp;and&nbsp;second&nbsp;moments
m&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;&nbsp;in&nbsp;range(bounds.shape[0])]
v&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;
&nbsp;in&nbsp;range(bounds.shape[0])]

然后，我们运行由“ n_iter”超参数定义的算法的固定迭代次数。

…
#&nbsp;run&nbsp;iterations&nbsp;of&nbsp;gradient&nbsp;descent
for&nbsp;t&nbsp;in&nbsp;range(n_iter):
&nbsp;…

第一步是使用导数（）函数计算当前解决方案的梯度。

讯享网#&nbsp;calculate&nbsp;gradient
gradient&nbsp;=&nbsp;derivative(solution[0],&nbsp;solution[1])

第一步是计算当前参数集的导数。

#&nbsp;calculate&nbsp;gradient&nbsp;g(t)
g&nbsp;=&nbsp;derivative(x[0],&nbsp;x[1])

接下来，我们需要执行Adam更新计算。为了提高可读性，我们将使用命令式编程样式一次执行一个变量的这些计算。

在实践中，我建议使用NumPy向量运算以提高效率。

讯享网…
#&nbsp;build&nbsp;a&nbsp;solution&nbsp;one&nbsp;variable&nbsp;at&nbsp;a&nbsp;time
for&nbsp;i&nbsp;in&nbsp;range(x.shape[0]):
&nbsp;…

首先，我们需要计算力矩。

#&nbsp;m(t)&nbsp;=&nbsp;beta1&nbsp;&nbsp;m(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g(t)
m[i]&nbsp;=&nbsp;beta1&nbsp;&nbsp;m[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g[i]

然后是第二个时刻。

讯享网#&nbsp;v(t)&nbsp;=&nbsp;beta2&nbsp;&nbsp;v(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g(t)^2
v[i]&nbsp;=&nbsp;beta2&nbsp;&nbsp;v[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta2)&nbsp;*&nbsp;g[i]2

然后对第一和第二时刻进行偏差校正。

#&nbsp;mhat(t)&nbsp;=&nbsp;m(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta1(t))
mhat&nbsp;=&nbsp;m[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta1(t+1))
#&nbsp;vhat(t)&nbsp;=&nbsp;v(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta2(t))
vhat&nbsp;=&nbsp;v[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta2(t+1))

然后最后是更新的变量值。

讯享网#&nbsp;x(t)&nbsp;=&nbsp;x(t-1)&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat(t)&nbsp;/&nbsp;(sqrt(vhat(t))&nbsp;+&nbsp;eps)
x[i]&nbsp;=&nbsp;x[i]&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat&nbsp;/&nbsp;(sqrt(vhat)&nbsp;+&nbsp;eps)

然后，针对要优化的每个参数重复此操作。在迭代结束时，我们可以评估新的参数值并报告搜索的性能。

#&nbsp;evaluate&nbsp;candidate&nbsp;point
score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
#&nbsp;report&nbsp;progress
print(‘&gt;%d&nbsp;f(%s)&nbsp;=&nbsp;%.5f’&nbsp;%&nbsp;(t,&nbsp;x,&nbsp;score))

我们可以将所有这些结合到一个名为 adam（） 的函数中，该函数采用目标函数和派生函数的名称以及算法超参数，并返回在搜索及其评估结束时找到的**解决方案。

下面列出了完整的功能。

讯享网#&nbsp;gradient&nbsp;descent&nbsp;algorithm&nbsp;with&nbsp;adam
def&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;niter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2,&nbsp;eps=1e-8):
&nbsp;#&nbsp;generate&nbsp;an&nbsp;initial&nbsp;point
&nbsp;x&nbsp;=&nbsp;bounds[:,&nbsp;0]&nbsp;+&nbsp;rand(len(bounds))&nbsp;*&nbsp;(bounds[:,&nbsp;1]&nbsp;-&nbsp;bounds[:,&nbsp;0])
&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;#&nbsp;initialize&nbsp;first&nbsp;and&nbsp;second&nbsp;moments
&nbsp;m&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;v&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;_&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;#&nbsp;run&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;updates
&nbsp;for&nbsp;t&nbsp;in&nbsp;range(n_iter):
&nbsp;&nbsp;#&nbsp;calculate&nbsp;gradient&nbsp;g(t)
&nbsp;&nbsp;g&nbsp;=&nbsp;derivative(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;build&nbsp;a&nbsp;solution&nbsp;one&nbsp;variable&nbsp;at&nbsp;a&nbsp;time
&nbsp;&nbsp;for&nbsp;i&nbsp;in&nbsp;range(x.shape[0]):
&nbsp;&nbsp;&nbsp;#&nbsp;m(t)&nbsp;=&nbsp;beta1&nbsp;&nbsp;m(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g(t)
&nbsp;&nbsp;&nbsp;m[i]&nbsp;=&nbsp;beta1&nbsp;&nbsp;m[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g[i]
&nbsp;&nbsp;&nbsp;#&nbsp;v(t)&nbsp;=&nbsp;beta2&nbsp;&nbsp;v(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g(t)^2
&nbsp;&nbsp;&nbsp;v[i]&nbsp;=&nbsp;beta2&nbsp;&nbsp;v[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g[i]2
&nbsp;&nbsp;&nbsp;#&nbsp;mhat(t)&nbsp;=&nbsp;m(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta1(t))
&nbsp;&nbsp;&nbsp;mhat&nbsp;=&nbsp;m[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta1(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;vhat(t)&nbsp;=&nbsp;v(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta2(t))
&nbsp;&nbsp;&nbsp;vhat&nbsp;=&nbsp;v[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta2

(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;x(t)&nbsp;=&nbsp;x(t-1)&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat(t)&nbsp;/&nbsp;(sqrt(vhat(t))&nbsp;+&nbsp;eps)
&nbsp;&nbsp;&nbsp;x[i]&nbsp;=&nbsp;x[i]&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat&nbsp;/&nbsp;(sqrt(vhat)&nbsp;+&nbsp;eps)
&nbsp;&nbsp;#&nbsp;evaluate&nbsp;candidate&nbsp;point
&nbsp;&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;report&nbsp;progress
&nbsp;&nbsp;print(‘&gt;%d&nbsp;f(%s)&nbsp;=&nbsp;%.5f’&nbsp;%&nbsp;(t,&nbsp;x,&nbsp;score))
&nbsp;return&nbsp;[x,&nbsp;score]

注意：为了提高可读性，我们有意使用列表和命令式编码样式，而不是矢量化操作。随意将实现改编为带有NumPy数组的矢量化实现，以实现更好的性能。

然后，我们可以定义我们的超参数并调用 adam（）函数来优化我们的测试目标函数。

在这种情况下，我们将使用算法的60次迭代，初始步长为0.02， beta1 和 beta2 值分别为0.8和0.999。经过一些反复试验后，发现了这些超参数值。

#&nbsp;seed&nbsp;the&nbsp;pseudo&nbsp;random&nbsp;number&nbsp;generator
seed(1)
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
bounds&nbsp;=&nbsp;asarray([[-1.0,&nbsp;1.0],&nbsp;[-1.0,&nbsp;1.0]])
#&nbsp;define&nbsp;the&nbsp;total&nbsp;iterations
n_iter&nbsp;=&nbsp;60
#&nbsp;steps&nbsp;size
alpha&nbsp;=&nbsp;0.02
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;gradient
beta1&nbsp;=&nbsp;0.8
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;squared&nbsp;gradient
beta2&nbsp;=&nbsp;0.999
#&nbsp;perform&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;search&nbsp;with&nbsp;adam
best,&nbsp;score&nbsp;=&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;n_iter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2)
print(‘Done!’)
print(‘f(%s)&nbsp;=&nbsp;%f’&nbsp;%&nbsp;(best,&nbsp;score))

综合所有这些，下面列出了使用 Adam 进行梯度下降优化的完整示例。

讯享网#&nbsp;gradient&nbsp;descent&nbsp;optimization&nbsp;with&nbsp;adam&nbsp;for&nbsp;a&nbsp;two-dimensional&nbsp;test&nbsp;function
from&nbsp;math&nbsp;import&nbsp;sqrt
from&nbsp;numpy&nbsp;import&nbsp;asarray
from&nbsp;numpy.random&nbsp;import&nbsp;rand
from&nbsp;numpy.random&nbsp;import&nbsp;seed
&nbsp;
#&nbsp;objective&nbsp;function
def&nbsp;objective(x,&nbsp;y):
&nbsp;return&nbsp;x2.0&nbsp;+&nbsp;y2.0
&nbsp;
#&nbsp;derivative&nbsp;of&nbsp;objective&nbsp;function
def&nbsp;derivative(x,&nbsp;y):
&nbsp;return&nbsp;asarray([x&nbsp;&nbsp;2.0,&nbsp;y&nbsp;&nbsp;2.0])
&nbsp;
#&nbsp;gradient&nbsp;descent&nbsp;algorithm&nbsp;with&nbsp;adam
def&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;niter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2,&nbsp;eps=1e-8):
&nbsp;#&nbsp;generate&nbsp;an&nbsp;initial&nbsp;point
&nbsp;x&nbsp;=&nbsp;bounds[:,&nbsp;0]&nbsp;+&nbsp;rand(len(bounds))&nbsp;*&nbsp;(bounds[:,&nbsp;1]&nbsp;-&nbsp;bounds[:,&nbsp;0])
&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;#&nbsp;initialize&nbsp;first&nbsp;and&nbsp;second&nbsp;moments
&nbsp;m&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;v&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;_&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;#&nbsp;run&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;updates
&nbsp;for&nbsp;t&nbsp;in&nbsp;range(n_iter):
&nbsp;&nbsp;#&nbsp;calculate&nbsp;gradient&nbsp;g(t)
&nbsp;&nbsp;g&nbsp;=&nbsp;derivative(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;build&nbsp;a&nbsp;solution&nbsp;one&nbsp;variable&nbsp;at&nbsp;a&nbsp;time
&nbsp;&nbsp;for&nbsp;i&nbsp;in&nbsp;range(x.shape[0]):
&nbsp;&nbsp;&nbsp;#&nbsp;m(t)&nbsp;=&nbsp;beta1&nbsp;&nbsp;m(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g(t)
&nbsp;&nbsp;&nbsp;m[i]&nbsp;=&nbsp;beta1&nbsp;&nbsp;m[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g[i]
&nbsp;&nbsp;&nbsp;#&nbsp;v(t)&nbsp;=&nbsp;beta2&nbsp;&nbsp;v(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g(t)^2
&nbsp;&nbsp;&nbsp;v[i]&nbsp;=&nbsp;beta2&nbsp;&nbsp;v[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g[i]2
&nbsp;&nbsp;&nbsp;#&nbsp;mhat(t)&nbsp;=&nbsp;m(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta1(t))
&nbsp;&nbsp;&nbsp;mhat&nbsp;=&nbsp;m[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta1

(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;vhat(t)&nbsp;=&nbsp;v(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta2(t))
&nbsp;&nbsp;&nbsp;vhat&nbsp;=&nbsp;v[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta2(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;x(t)&nbsp;=&nbsp;x(t-1)&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat(t)&nbsp;/&nbsp;(sqrt(vhat(t))&nbsp;+&nbsp;eps)
&nbsp;&nbsp;&nbsp;x[i]&nbsp;=&nbsp;x[i]&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat&nbsp;/&nbsp;(sqrt(vhat)&nbsp;+&nbsp;eps)
&nbsp;&nbsp;#&nbsp;evaluate&nbsp;candidate&nbsp;point
&nbsp;&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;report&nbsp;progress
&nbsp;&nbsp;print(‘&gt;%d&nbsp;f(%s)&nbsp;=&nbsp;%.5f’&nbsp;%&nbsp;(t,&nbsp;x,&nbsp;score))
&nbsp;return&nbsp;[x,&nbsp;score]
&nbsp;
#&nbsp;seed&nbsp;the&nbsp;pseudo&nbsp;random&nbsp;number&nbsp;generator
seed(1)
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
bounds&nbsp;=&nbsp;asarray([[-1.0,&nbsp;1.0],&nbsp;[-1.0,&nbsp;1.0]])
#&nbsp;define&nbsp;the&nbsp;total&nbsp;iterations
n_iter&nbsp;=&nbsp;60
#&nbsp;steps&nbsp;size
alpha&nbsp;=&nbsp;0.02
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;gradient
beta1&nbsp;=&nbsp;0.8
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;squared&nbsp;gradient
beta2&nbsp;=&nbsp;0.999
#&nbsp;perform&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;search&nbsp;with&nbsp;adam
best,&nbsp;score&nbsp;=&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;n_iter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2)
print(‘Done!’)
print(‘f(%s)&nbsp;=&nbsp;%f’&nbsp;%&nbsp;(best,&nbsp;score))

运行示例将 Adam 优化算法应用于我们的测试问题，并报告算法每次迭代的搜索性能。

注意：由于算法或评估程序的随机性，或者数值精度的差异，您的结果可能会有所不同。考虑运行该示例几次并比较平均结果。

在这种情况下，我们可以看到在搜索53次迭代后找到了接近**的解决方案，输入值接近0.0和0.0，评估为0.0。

&gt;50&nbsp;f([-0.00056912&nbsp;-0.00])&nbsp;=&nbsp;0.00001
&gt;51&nbsp;f([-0.00052452&nbsp;-0.00])&nbsp;=&nbsp;0.00001
&gt;52&nbsp;f([-0.00043908&nbsp;-0.00])&nbsp;=&nbsp;0.00001
&gt;53&nbsp;f([-0.0003283&nbsp;&nbsp;-0.00])&nbsp;=&nbsp;0.00000
&gt;54&nbsp;f([-0.00020731&nbsp;-0.00])&nbsp;=&nbsp;0.00000
&gt;55&nbsp;f([-8.e-05&nbsp;-1.e-03])&nbsp;=&nbsp;0.00000
&gt;56&nbsp;f([&nbsp;1.e-05&nbsp;-1.e-03])&nbsp;=&nbsp;0.00000
&gt;57&nbsp;f([&nbsp;9.e-05&nbsp;-9.e-04])&nbsp;=&nbsp;0.00000
&gt;58&nbsp;f([&nbsp;0.00015359&nbsp;-0.00075587])&nbsp;=&nbsp;0.00000
&gt;59&nbsp;f([&nbsp;0.00018407&nbsp;-0.00054858])&nbsp;=&nbsp;0.00000
Done!
f([&nbsp;0.00018407&nbsp;-0.00054858])&nbsp;=&nbsp;0.000000

Adam可视化

我们可以在域的轮廓图上绘制 Adam 搜索的进度。这可以为算法迭代过程中的搜索进度提供直观的认识。我们必须更新 adam（）函数以维护在搜索过程中找到的所有解决方案的列表，然后在搜索结束时返回此列表。下面列出了具有这些更改的功能的更新版本。

讯享网#&nbsp;gradient&nbsp;descent&nbsp;algorithm&nbsp;with&nbsp;adam
def&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;niter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2,&nbsp;eps=1e-8):
&nbsp;solutions&nbsp;=&nbsp;list()
&nbsp;#&nbsp;generate&nbsp;an&nbsp;initial&nbsp;point
&nbsp;x&nbsp;=&nbsp;bounds[:,&nbsp;0]&nbsp;+&nbsp;rand(len(bounds))&nbsp;*&nbsp;(bounds[:,&nbsp;1]&nbsp;-&nbsp;bounds[:,&nbsp;0])
&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;#&nbsp;initialize&nbsp;first&nbsp;and&nbsp;second&nbsp;moments
&nbsp;m&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;v&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;_&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;#&nbsp;run&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;updates
&nbsp;for&nbsp;t&nbsp;in&nbsp;range(n_iter):
&nbsp;&nbsp;#&nbsp;calculate&nbsp;gradient&nbsp;g(t)
&nbsp;&nbsp;g&nbsp;=&nbsp;derivative(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;build&nbsp;a&nbsp;solution&nbsp;one&nbsp;variable&nbsp;at&nbsp;a&nbsp;time
&nbsp;&nbsp;for&nbsp;i&nbsp;in&nbsp;range(bounds.shape[0]):
&nbsp;&nbsp;&nbsp;#&nbsp;m(t)&nbsp;=&nbsp;beta1&nbsp;&nbsp;m(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g(t)
&nbsp;&nbsp;&nbsp;m[i]&nbsp;=&nbsp;beta1&nbsp;&nbsp;m[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g[i]
&nbsp;&nbsp;&nbsp;#&nbsp;v(t)&nbsp;=&nbsp;beta2&nbsp;&nbsp;v(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g(t)^2
&nbsp;&nbsp;&nbsp;v[i]&nbsp;=&nbsp;beta2&nbsp;&nbsp;v[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g[i]2
&nbsp;&nbsp;&nbsp;#&nbsp;mhat(t)&nbsp;=&nbsp;m(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta1(t))
&nbsp;&nbsp;&nbsp;mhat&nbsp;=&nbsp;m[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta1(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;vhat(t)&nbsp;=&nbsp;v(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta2(t))
&nbsp;&nbsp;&nbsp;vhat&nbsp;=&nbsp;v[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta2

(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;x(t)&nbsp;=&nbsp;x(t-1)&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat(t)&nbsp;/&nbsp;(sqrt(vhat(t))&nbsp;+&nbsp;ep)
&nbsp;&nbsp;&nbsp;x[i]&nbsp;=&nbsp;x[i]&nbsp;-&nbsp;alpha&nbsp;&nbsp;mhat&nbsp;/&nbsp;(sqrt(vhat)&nbsp;+&nbsp;eps)
&nbsp;&nbsp;#&nbsp;evaluate&nbsp;candidate&nbsp;point
&nbsp;&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;keep&nbsp;track&nbsp;of&nbsp;solutions
&nbsp;&nbsp;solutions.append(x.copy())
&nbsp;&nbsp;#&nbsp;report&nbsp;progress
&nbsp;&nbsp;print(‘&gt;%d&nbsp;f(%s)&nbsp;=&nbsp;%.5f’&nbsp;%&nbsp;(t,&nbsp;x,&nbsp;score))
&nbsp;return&nbsp;solutions

然后，我们可以像以前一样执行搜索，这一次将检索解决方案列表，而不是**的最终解决方案。

#&nbsp;seed&nbsp;the&nbsp;pseudo&nbsp;random&nbsp;number&nbsp;generator
seed(1)
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
bounds&nbsp;=&nbsp;asarray([[-1.0,&nbsp;1.0],&nbsp;[-1.0,&nbsp;1.0]])
#&nbsp;define&nbsp;the&nbsp;total&nbsp;iterations
n_iter&nbsp;=&nbsp;60
#&nbsp;steps&nbsp;size
alpha&nbsp;=&nbsp;0.02
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;gradient
beta1&nbsp;=&nbsp;0.8
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;squared&nbsp;gradient
beta2&nbsp;=&nbsp;0.999
#&nbsp;perform&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;search&nbsp;with&nbsp;adam
solutions&nbsp;=&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;n_iter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2)

然后，我们可以像以前一样创建目标函数的轮廓图。

讯享网#&nbsp;sample&nbsp;input&nbsp;range&nbsp;uniformly&nbsp;at&nbsp;0.1&nbsp;increments
xaxis&nbsp;=&nbsp;arange(bounds[0,0],&nbsp;bounds[0,1],&nbsp;0.1)
yaxis&nbsp;=&nbsp;arange(bounds[1,0],&nbsp;bounds[1,1],&nbsp;0.1)
#&nbsp;create&nbsp;a&nbsp;mesh&nbsp;from&nbsp;the&nbsp;axis
x,&nbsp;y&nbsp;=&nbsp;meshgrid(xaxis,&nbsp;yaxis)
#&nbsp;compute&nbsp;targets
results&nbsp;=&nbsp;objective(x,&nbsp;y)
#&nbsp;create&nbsp;a&nbsp;filled&nbsp;contour&nbsp;plot&nbsp;with&nbsp;50&nbsp;levels&nbsp;and&nbsp;jet&nbsp;color&nbsp;scheme
pyplot.contourf(x,&nbsp;y,&nbsp;results,&nbsp;levels=50,&nbsp;cmap=‘jet’)

最后，我们可以将在搜索过程中找到的每个解决方案绘制成一条由一条线连接的白点。

#&nbsp;plot&nbsp;the&nbsp;sample&nbsp;as&nbsp;black&nbsp;circles
solutions&nbsp;=&nbsp;asarray(solutions)
pyplot.plot(solutions[:,&nbsp;0],&nbsp;solutions[:,&nbsp;1],&nbsp;’.-’,&nbsp;color=‘w’)

综上所述，下面列出了对测试问题执行 Adam 优化并将结果绘制在轮廓图上的完整示例。

讯享网#&nbsp;example&nbsp;of&nbsp;plotting&nbsp;the&nbsp;adam&nbsp;search&nbsp;on&nbsp;a&nbsp;contour&nbsp;plot&nbsp;of&nbsp;the&nbsp;test&nbsp;function
from&nbsp;math&nbsp;import&nbsp;sqrt
from&nbsp;numpy&nbsp;import&nbsp;asarray
from&nbsp;numpy&nbsp;import&nbsp;arange
from&nbsp;numpy.random&nbsp;import&nbsp;rand
from&nbsp;numpy.random&nbsp;import&nbsp;seed
from&nbsp;numpy&nbsp;import&nbsp;meshgrid
from&nbsp;matplotlib&nbsp;import&nbsp;pyplot
from&nbsp;mpl_toolkits.mplot3d&nbsp;import&nbsp;Axes3D
&nbsp;
#&nbsp;objective&nbsp;function
def&nbsp;objective(x,&nbsp;y):
&nbsp;return&nbsp;x2.0&nbsp;+&nbsp;y2.0
&nbsp;
#&nbsp;derivative&nbsp;of&nbsp;objective&nbsp;function
def&nbsp;derivative(x,&nbsp;y):
&nbsp;return&nbsp;asarray([x&nbsp;&nbsp;2.0,&nbsp;y&nbsp;&nbsp;2.0])
&nbsp;
#&nbsp;gradient&nbsp;descent&nbsp;algorithm&nbsp;with&nbsp;adam
def&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;niter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2,&nbsp;eps=1e-8):
&nbsp;solutions&nbsp;=&nbsp;list()
&nbsp;#&nbsp;generate&nbsp;an&nbsp;initial&nbsp;point
&nbsp;x&nbsp;=&nbsp;bounds[:,&nbsp;0]&nbsp;+&nbsp;rand(len(bounds))&nbsp;*&nbsp;(bounds[:,&nbsp;1]&nbsp;-&nbsp;bounds[:,&nbsp;0])
&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;#&nbsp;initialize&nbsp;first&nbsp;and&nbsp;second&nbsp;moments
&nbsp;m&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;v&nbsp;=&nbsp;[0.0&nbsp;for&nbsp;_&nbsp;in&nbsp;range(bounds.shape[0])]
&nbsp;#&nbsp;run&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;updates
&nbsp;for&nbsp;t&nbsp;in&nbsp;range(n_iter):
&nbsp;&nbsp;#&nbsp;calculate&nbsp;gradient&nbsp;g(t)
&nbsp;&nbsp;g&nbsp;=&nbsp;derivative(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;build&nbsp;a&nbsp;solution&nbsp;one&nbsp;variable&nbsp;at&nbsp;a&nbsp;time
&nbsp;&nbsp;for&nbsp;i&nbsp;in&nbsp;range(bounds.shape[0]):
&nbsp;&nbsp;&nbsp;#&nbsp;m(t)&nbsp;=&nbsp;beta1&nbsp;&nbsp;m(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g(t)
&nbsp;&nbsp;&nbsp;m[i]&nbsp;=&nbsp;beta1&nbsp;&nbsp;m[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta1)&nbsp;&nbsp;g[i]
&nbsp;&nbsp;&nbsp;#&nbsp;v(t)&nbsp;=&nbsp;beta2&nbsp;&nbsp;v(t-1)&nbsp;+&nbsp;(1&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g(t)^2
&nbsp;&nbsp;&nbsp;v[i]&nbsp;=&nbsp;beta2&nbsp;&nbsp;v[i]&nbsp;+&nbsp;(1.0&nbsp;-&nbsp;beta2)&nbsp;&nbsp;g[i]2
&nbsp;&nbsp;&nbsp;#&nbsp;mhat(t)&nbsp;=&nbsp;m(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta1(t))
&nbsp;&nbsp;&nbsp;mhat&nbsp;=&nbsp;m[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta1

(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;vhat(t)&nbsp;=&nbsp;v(t)&nbsp;/&nbsp;(1&nbsp;-&nbsp;beta2(t))
&nbsp;&nbsp;&nbsp;vhat&nbsp;=&nbsp;v[i]&nbsp;/&nbsp;(1.0&nbsp;-&nbsp;beta2*(t+1))
&nbsp;&nbsp;&nbsp;#&nbsp;x(t)&nbsp;=&nbsp;x(t-1)&nbsp;-&nbsp;alpha&nbsp;
&nbsp;mhat(t)&nbsp;/&nbsp;(sqrt(vhat(t))&nbsp;+&nbsp;ep)
&nbsp;&nbsp;&nbsp;x[i]&nbsp;=&nbsp;x[i]&nbsp;-&nbsp;alpha&nbsp;*&nbsp;mhat&nbsp;/&nbsp;(sqrt(vhat)&nbsp;+&nbsp;eps)
&nbsp;&nbsp;#&nbsp;evaluate&nbsp;candidate&nbsp;point
&nbsp;&nbsp;score&nbsp;=&nbsp;objective(x[0],&nbsp;x[1])
&nbsp;&nbsp;#&nbsp;keep&nbsp;track&nbsp;of&nbsp;solutions
&nbsp;&nbsp;solutions.append(x.copy())
&nbsp;&nbsp;#&nbsp;report&nbsp;progress
&nbsp;&nbsp;print(‘&gt;%d&nbsp;f(%s)&nbsp;=&nbsp;%.5f’&nbsp;%&nbsp;(t,&nbsp;x,&nbsp;score))
&nbsp;return&nbsp;solutions
&nbsp;
#&nbsp;seed&nbsp;the&nbsp;pseudo&nbsp;random&nbsp;number&nbsp;generator
seed(1)
#&nbsp;define&nbsp;range&nbsp;for&nbsp;input
bounds&nbsp;=&nbsp;asarray([[-1.0,&nbsp;1.0],&nbsp;[-1.0,&nbsp;1.0]])
#&nbsp;define&nbsp;the&nbsp;total&nbsp;iterations
n_iter&nbsp;=&nbsp;60
#&nbsp;steps&nbsp;size
alpha&nbsp;=&nbsp;0.02
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;gradient
beta1&nbsp;=&nbsp;0.8
#&nbsp;factor&nbsp;for&nbsp;average&nbsp;squared&nbsp;gradient
beta2&nbsp;=&nbsp;0.999
#&nbsp;perform&nbsp;the&nbsp;gradient&nbsp;descent&nbsp;search&nbsp;with&nbsp;adam
solutions&nbsp;=&nbsp;adam(objective,&nbsp;derivative,&nbsp;bounds,&nbsp;n_iter,&nbsp;alpha,&nbsp;beta1,&nbsp;beta2)
#&nbsp;sample&nbsp;input&nbsp;range&nbsp;uniformly&nbsp;at&nbsp;0.1&nbsp;increments
xaxis&nbsp;=&nbsp;arange(bounds[0,0],&nbsp;bounds[0,1],&nbsp;0.1)
yaxis&nbsp;=&nbsp;arange(bounds[1,0],&nbsp;bounds[1,1],&nbsp;0.1)
#&nbsp;create&nbsp;a&nbsp;mesh&nbsp;from&nbsp;the&nbsp;axis
x,&nbsp;y&nbsp;=&nbsp;meshgrid(xaxis,&nbsp;yaxis)
#&nbsp;compute&nbsp;targets
results&nbsp;=&nbsp;objective(x,&nbsp;y)
#&nbsp;create&nbsp;a&nbsp;filled&nbsp;contour&nbsp;plot&nbsp;with&nbsp;50&nbsp;levels&nbsp;and&nbsp;jet&nbsp;color&nbsp;scheme
pyplot.contourf(x,&nbsp;y,&nbsp;results,&nbsp;levels=50,&nbsp;cmap=‘jet’)
#&nbsp;plot&nbsp;the&nbsp;sample&nbsp;as&nbsp;black&nbsp;circles
solutions&nbsp;=&nbsp;asarray(solutions)
pyplot.plot(solutions[:,&nbsp;0],&nbsp;solutions[:,&nbsp;1],&nbsp;’.-’,&nbsp;color=‘w’)
#&nbsp;show&nbsp;the&nbsp;plot
pyplot.show()