<p id="2PATKSGF">有个事情可能会让初学者惊讶:<strong>神经网络模型并不复杂!</strong>『神经网络』这个词让人觉得很高大上,但实际上神经网络算法要比人们想象的简单。</p><p id="2PATKSGG">这篇文章完全是为新手准备的。我们会通过用Python从头实现一个神经网络来理解神经网络的原理。本文的脉络是:</p><p><ol><li id="2PATKSN2"></p><p id="2PATKSGH"> 介绍了神经网络的基本结构——神经元;</p><p></li><li id="2PATKSN3"></p><p id="2PATKSGI"> 在神经元中使用S型激活函数;</p><p></li><li id="2PATKSN4"></p><p id="2PATKSGJ"> 神经网络就是连接在一起的神经元;</p><p></li><li id="2PATKSN5"></p><p id="2PATKSGK"> 构建了一个数据集,输入(或特征)是体重和身高,输出(或标签)是性别;</p><p></li><li id="2PATKSN6"></p><p id="2PATKSGL"> 学习了损失函数和均方差损失;</p><p></li><li id="2PATKSN7"></p><p id="2PATKSGM"> 训练网络就是最小化其损失;</p><p></li><li id="2PATKSN8"></p><p id="2PATKSGN"> 用反向传播方法计算偏导;</p><p></li><li id="2PATKSN9"></p><p id="2PATKSGO"> 用随机梯度下降法训练网络。</p><p></li></ol></p><p id="2PATKSGT">砖块:神经元</p><p id="2PATKSH1">首先让我们看看神经网络的基本单位,神经元。神经元接受输入,对其做一些数据操作,然后产生输出。例如,这是一个2-输入神经元:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2Fj00sev5o7000td200ll00b2g00it009m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSH3">这里发生了三个事情。首先,每个输入都跟一个权重相乘(红色):</p><p id="2PATKSH4">然后,加权后的输入求和,加上一个偏差b(绿色):</p><p id="2PATKSH5">最后,这个结果传递给一个激活函数f:</p><p id="2PATKSH6">激活函数的用途是将一个无边界的输入,转变成一个可预测的形式。常用的激活函数就就是S型函数:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2Fc9f38b89j00sev5o8001qd200u000jvg00it00cg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSH7">S型函数的值域是(0, 1)。简单来说,就是把(−∞, +∞)压缩到(0, 1) ,很大的负数约等于0,很大的正数约等于1。</p><p id="2PATKSHB">一个简单的例子</p><p id="2PATKSHE">假设我们有一个神经元,激活函数就是S型函数,其参数如下:</p><p id="2PATKSHF"> 就是以向量的形式表示 。现在,我们给这个神经元一个输入 。我们用点积来表示:</p><p id="2PATKSHI">当输入是[2, 3]时,这个神经元的输出是0.999。给定输入,得到输出的过程被称为前馈(feedforward)。</p><p id="2PATKSHM">编码一个神经元</p><p id="2PATKSHP">让我们来实现一个神经元!用Python的NumPy库来完成其中的数学计算:</p><pre></pre></p><p id="2PATKSHQ">还记得这个数字吗?就是我们前面算出来的例子中的0.999。</p><p id="2PATKSHU">把神经元组装成网络</p><p id="2PATKSI1">所谓的神经网络就是一堆神经元。这就是一个简单的神经网络:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F0a91279aj00sev5ob001rd200u000deg00it008e.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSI2">这个网络有两个输入,一个有两个神经元( 和 )的隐藏层,以及一个有一个神经元( ) )的输出层。要注意, 的输入就是 和 的输出,这样就组成了一个网络。</p><p><blockquote id="2PATKSO2">隐藏层就是输入层和输出层之间的层,隐藏层可以是多层的。</blockquote></p><p id="2PATKSI6">例子:前馈</p><p id="2PATKSIA">我们继续用前面图中的网络,假设每个神经元的权重都是 ,截距项也相同 ,激活函数也都是S型函数。分别用 表示相应的神经元的输出。<br/></p><p id="2PATKSIB">当输入 时,会得到什么结果?</p><p id="2PATKSIE">这个神经网络对输入 的输出是0.7216,很简单。</p><p id="2PATKSIF">一个神经网络的层数以及每一层中的神经元数量都是任意的。基本逻辑都一样:输入在神经网络中向前传输,最终得到输出。接下来,我们会继续使用前面的这个网络。</p><p id="2PATKSIJ">编码神经网络:前馈</p><p id="2PATKSIM">接下来我们实现这个神经网络的前馈机制,还是这个图:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F0j00sev5od001qd200u000cvg00it0082.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><pre></pre></p><p id="2PATKSIN">结果正确,看上去没问题。</p><p id="2PATKSIR">训练神经网络 第一部分</p><p id="2PATKSIU">现在有这样的数据:</p><p><br/>姓名 体重(磅) 身高 (英寸) 性别 Alice 133 65 F Bob 160 72 M Charlie 152 70 M Diana 120 60 F<br/></p><p id="2PATKSIV">接下来我们用这个数据来训练神经网络的权重和截距项,从而可以根据身高体重预测性别:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F83a324a6j00sev5of001sd200u000d1g00it0085.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSJ0">我们用0和1分别表示男性(M)和女性(F),并对数值做了转化:</p><p><br/>姓名 体重 (减 135) 身高 (减 66) 性别 Alice -2 -1 1 Bob 25 6 0 Charlie 17 4 0 Diana -15 -6 1<br/><blockquote id="2PATKSO3">我这里是随意选取了135和66来标准化数据,通常会使用平均值。</blockquote></p><p id="2PATKSJ3">损失</p><p id="2PATKSJ7">在训练网络之前,我们需要量化当前的网络是『好』还是『坏』,从而可以寻找更好的网络。这就是定义损失的目的。<br/></p><p id="2PATKSJ8">我们在这里用平均方差(MSE)损失: ,让我们仔细看看:</p><p><ul><li id="2PATKSNA"></p><p id="2PATKSJ9"> 是样品数,这里等于4(Alice、Bob、Charlie和Diana)。</p><p></li><li id="2PATKSNB"></p><p id="2PATKSJA"> 表示要预测的变量,这里是性别。</p><p></li><li id="2PATKSNC"></p><p id="2PATKSJB"> 是变量的真实值(『正确答案』)。例如,Alice的 就是1(男性)。</p><p></li><li id="2PATKSND"></p><p id="2PATKSJC"> 变量的预测值。这就是我们网络的输出。</p><p></li></ul></p><p id="2PATKSJD"> 被称为方差(squared error)。我们的损失函数就是所有方差的平均值。预测效果越好,损失就越少。</p><p id="2PATKSJE">更好的预测 = 更少的损失!</p><p id="2PATKSJF">训练网络 = 最小化它的损失。</p><p id="2PATKSJJ">损失计算例子</p><p id="2PATKSJM">假设我们的网络总是输出0,换言之就是认为所有人都是男性。损失如何?</p><p><br/>Name y_true<br/>y_pred<br/>(y_true - y_pred)^2<br/>Alice 1 0 1 Bob 0 0 0 Charlie 0 0 0 Diana 1 0 1</p><p id="2PATKSJS">代码:MSE损失</p><p id="2PATKSK0">下面是计算MSE损失的代码:<br/></p><pre></pre><blockquote id="2PATKSO4">如果你不理解这段代码,可以看看NumPy的快速入门中关于数组的操作。</blockquote></p><p id="2PATKSK1">好的,继续。</p><p id="2PATKSK4">训练神经网络 第二部分</p><p id="2PATKSK8">现在我们有了一个明确的目标:最小化神经网络的损失。通过调整网络的权重和截距项,我们可以改变其预测结果,但如何才能逐步地减少损失?</p><p><blockquote id="2PATKSO5">这一段内容涉及到多元微积分,如果不熟悉微积分的话,可以跳过这些数学内容。</blockquote></p><p id="2PATKSK9">为了简化问题,假设我们的数据集中只有Alice:</p><p id="2PATKSKA">假设我们的网络总是输出0,换言之就是认为所有人都是男性。损失如何?</p><p><br/>姓名 体重 (减 135) 身高 (减 66) Gender Alice -2 -1 1<br/></p><p id="2PATKSKC">那均方差损失就只是Alice的方差:</p><p id="2PATKSKD">也可以把损失看成是权重和截距项的函数。让我们给网络标上权重和截距项:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F83a324a6j00sev5of001sd200u000d1g00it0085.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSKE">这样我们就可以把网络的损失表示为:</p><p id="2PATKSKF">假设我们要优化 ,当我们改变 时,损失 会怎么变化?可以用 来回答这个问题,怎么计算?</p><p><blockquote id="2PATKSO6">接下来的数据稍微有点复杂,别担心,准备好纸和笔。</blockquote></p><p id="2PATKSKG">首先,让我们用 来改写这个偏导数:</p><p id="2PATKSKH">因为我们已经知道 ,所以我们可以计算</p><p id="2PATKSKI">现在让我们来搞定 。 分别是其所表示的神经元的输出,我们有:</p><p id="2PATKSKJ">由于 只会影响 (不会影响 ),所以:</p><p id="2PATKSKM">对 ,我们也可以这么做:</p><p id="2PATKSKN">在这里, 是身高, 是体重。这是我们第二次看到 (S型函数的导数)了。求解:</p><p id="2PATKSKO">稍后我们会用到这个 。</p><p id="2PATKSKP">我们已经把 分解成了几个我们能计算的部分:</p><p id="2PATKSKQ">这种计算偏导的方法叫『反向传播算法』(backpropagation)。</p><p id="2PATKSKR">好多数学符号,如果你还没搞明白的话,我们来看一个实际例子。<br/></p><p id="2PATKSKV">例子:计算偏导数</p><p id="2PATKSL2">我们还是看数据集中只有Alice的情况:<br/></p><p><br/>Name</p><p id="2PATKSL4"> Alice 1 0 1</p><p id="2PATKSL5"> 姓名 身高 (minus 135) 体重 (minus 66) Gender Alice -2 -1 1<br/></p><p id="2PATKSL6">把所有的权重和截距项都分别初始化为1和0。在网络中做前馈计算:</p><p id="2PATKSL9">网络的输出是 ,对于Male(0)或者Female(1)都没有太强的倾向性。算一下</p><p><blockquote id="2PATKSO7">提示:前面已经得到了S型激活函数的导数 。</blockquote></p><p id="2PATKSLC">搞定!这个结果的意思就是增加 也会随之轻微上升。</p><p id="2PATKSLG">训练:随机梯度下降</p><p id="2PATKSLJ">现在训练神经网络已经万事俱备了!我们会使用名为随机梯度下降法的优化算法来优化网络的权重和截距项,实现损失的最小化。核心就是这个更新等式:<br/></p><p id="2PATKSLK"> 是一个常数,被称为学习率,用于调整训练的速度。我们要做的就是用 减去</p><p><br/><ul><li id="2PATKSNE"></p><p id="2PATKSLL"> 如果 是正数, 变小, 会下降。</p><p></li><li id="2PATKSNF"></p><p id="2PATKSLM"> 如果 是负数, 会变大, 会上升。</p><p></li></ul></p><p id="2PATKSLN">如果我们对网络中的每个权重和截距项都这样进行优化,损失就会不断下降,网络性能会不断上升。</p><p id="2PATKSLO">我们的训练过程是这样的:</p><p><ol><li id="2PATKSNG"></p><p id="2PATKSLP"> 从我们的数据集中选择一个样本,用随机梯度下降法进行优化——每次我们都只针对一个样本进行优化;</p><p></li><li id="2PATKSNH"></p><p id="2PATKSLQ"> 计算每个权重或截距项对损失的偏导(例如 、 等);</p><p></li><li id="2PATKSNI"></p><p id="2PATKSLR"> 用更新等式更新每个权重和截距项;</p><p></li><li id="2PATKSNJ"></p><p id="2PATKSLS"> 重复第一步;</p><p></li></ol></p><p id="2PATKSLV">代码:一个完整的神经网络</p><p id="2PATKSM2">我们终于可以实现一个完整的神经网络了:</p><p><br/>姓名 身高 (减 135) 体重 (减 66) Gender Alice -2 -1 1 Bob 25 6 0 Charlie 17 4 0 Diana -15 -6 1<br/><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F01ca4946j00sev5om001td200u000c3g00it007k.jpg&thumbnail=660x&quality=80&type=jpg"/></p><pre></pre></p><p id="2PATKSM3">随着网络的学习,损失在稳步下降。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0610%2F52b9fc49j00sev5on001pd200u000hfg00it00ax.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="2PATKSM4">现在我们可以用这个网络来预测性别了:</p><pre></pre></p><p id="2PATKSM8">接下来?</p><p id="2PATKSMC">搞定了一个简单的神经网络,快速回顾一下:<br/></p><p><ul><li id="2PATKSNK"></p><p id="2PATKSMD"> 介绍了神经网络的基本结构——神经元;</p><p></li><li id="2PATKSNL"></p><p id="2PATKSME"> 在神经元中使用S型激活函数;</p><p></li><li id="2PATKSNM"></p><p id="2PATKSMF"> 神经网络就是连接在一起的神经元;</p><p></li><li id="2PATKSNN"></p><p id="2PATKSMG"> 构建了一个数据集,输入(或特征)是体重和身高,输出(或标签)是性别;</p><p></li><li id="2PATKSNO"></p><p id="2PATKSMH"> 学习了损失函数和均方差损失;</p><p></li><li id="2PATKSNP"></p><p id="2PATKSMI"> 训练网络就是最小化其损失;</p><p></li><li id="2PATKSNQ"></p><p id="2PATKSMJ"> 用反向传播方法计算偏导;</p><p></li><li id="2PATKSNR"></p><p id="2PATKSMK"> 用随机梯度下降法训练网络;</p><p></li></ul></p><p id="2PATKSML">接下来你还可以:</p><p><ul><li id="2PATKSNS"></p><p id="2PATKSMM"> 用机器学习库实现更大更好的神经网络,例如TensorFlow、Keras和PyTorch;</p><p></li><li id="2PATKSNT"></p><p id="2PATKSMN"> 其他类型的激活函数;</p><p></li><li id="2PATKSNU"></p><p id="2PATKSMO"> 其他类型的优化器;</p><p></li><li id="2PATKSNV"></p><p id="2PATKSMP"> 学习卷积神经网络,这给计算机视觉领域带来了革命;</p><p></li><li id="2PATKSO0"></p><p id="2PATKSMQ"> 学习递归神经网络,常用于自然语言处理;</p><p id="2PATKSMS"> 作者:Victor Zhou</p><p id="2PATKSMT"> 原文链接:https://victorzhou.com/blog/intro-to-neural-networks/</p><p></li><li id="2PATKSO1"></li></ul></p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/192310.html