深度学习神经网络分类及其公式学习

  1. prompt: 我在学习深度学习,学习过程中对一些公式理解不够,请你给按照神经网络分类梳理出核心公式,并输出解析帮助我理解
  2. answer:

prompt: 我在学习深度学习,学习过程中对一些公式理解不够,请你给按照神经网络分类梳理出核心公式,并输出解析帮助我理解

answer:

好的,很高兴能帮助你学习深度学习。下面我将按照神经网络的分类,梳理出核心公式,并给出详细解析。

1. 感知机 (Perceptron)

  • 公式:

    • $z = w ⋅ x + b$
    • $a = σ(z)$
  • 解析:

    • $x$: 输入特征向量 (input feature vector)
    • $w$: 权重向量 (weight vector)
    • $b$: 偏置 (bias)
    • $z$: 线性组合,也称为加权和 (weighted sum)
    • $σ$: 激活函数 (activation function),例如阶跃函数 (step function)、Sigmoid 函数等。
    • $a$: 感知机的输出 (output)

    理解: 感知机是神经网络的最基本单元。它接收输入特征,通过权重和偏置进行线性组合,然后通过激活函数将结果转化为输出。权重和偏置决定了感知机对不同特征的重视程度和整体输出的偏移。

2. 多层感知机 (Multilayer Perceptron, MLP)

  • 公式:

    • $z^(l) = W^(l) a^(l-1) + b^(l)$
    • $a^(l) = σ(z^(l))$
  • 解析:

    • $l$: 第 l 层 (layer)
    • $a^(l-1)$: 第 l-1 层的输出 (input to layer l)
    • $W^(l)$: 第 l 层的权重矩阵 (weight matrix)
    • $b^(l)$: 第 l 层的偏置向量 (bias vector)
    • $z^(l)$: 第 l 层的线性组合
    • $σ$: 激活函数,例如 Sigmoid, ReLU, Tanh 等
    • $a^(l)$: 第 l 层的输出

    理解: MLP 是由多个全连接层组成的神经网络。每一层接收前一层的输出作为输入,进行线性组合和激活函数处理,然后将结果传递到下一层。通过多层结构,MLP 可以学习到复杂的非线性关系。

3. 卷积神经网络 (Convolutional Neural Network, CNN)

  • 卷积层 (Convolutional Layer)

    • $a^(l) = σ(z^(l))$
    • $z^(l) = W^(l) * x^(l-1) + b^(l)$
    • $*$:卷积操作
  • 池化层 (Pooling Layer)

    • $a^(l) = f(x^(l))$
    • $f()$:池化函数,例如最大池化 (max pooling) 或平均池化 (average pooling)
  • 解析:

    • $x^(l-1)$: 第 l-1 层的输入 (通常是图像)
    • $W^(l)$: 第 l 层的卷积核 (kernel)
    • $b^(l)$: 第 l 层的偏置
    • $z^(l)$: 卷积层的线性组合
    • $σ$: 激活函数
    • $a^(l)$: 卷积层的输出 (特征图)
    • 池化层通过减少特征图的尺寸来降低计算量和防止过拟合。

    理解: CNN 专门用于处理图像数据。卷积层通过卷积核提取图像的局部特征,池化层减少特征图的维度。通过多层卷积和池化,CNN 可以学习到图像的层次化表示。

4. 循环神经网络 (Recurrent Neural Network, RNN)

  • 公式:

    • $h_t = σ(W_hh * h_{t-1} + W_xh * x_t + b_h)$
    • $y_t = σ(W_hy * h_t + b_y)$
  • 解析:

    • $x_t$: 时间步 t 的输入
    • $h_t$: 时间步 t 的隐藏状态 (hidden state)
    • $y_t$: 时间步 t 的输出
    • $W_hh$: 隐藏状态到隐藏状态的权重矩阵
    • $W_xh$: 输入到隐藏状态的权重矩阵
    • $W_hy$: 隐藏状态到输出的权重矩阵
    • $b_h$: 隐藏状态的偏置
    • $b_y$: 输出的偏置
    • $σ$: 激活函数

    理解: RNN 专门用于处理序列数据,例如文本、语音等。RNN 通过隐藏状态来记忆过去的序列信息,并将这些信息用于当前时刻的输出。

5. 长短期记忆网络 (Long Short-Term Memory, LSTM)

  • 公式 (简化版):

    • $f_t = σ(W_f * [h_{t-1}, x_t] + b_f)$ (遗忘门)
    • $i_t = σ(W_i * [h_{t-1}, x_t] + b_i)$ (输入门)
    • $C_t = f_t * C_{t-1} + i_t * tanh(W_C * [h_{t-1}, x_t] + b_C)$ (单元状态)
    • $o_t = σ(W_o * [h_{t-1}, x_t] + b_o)$ (输出门)
    • $h_t = o_t * tanh(C_t)$
  • 解析:

    • $x_t$: 时间步 t 的输入
    • $h_t$: 时间步 t 的隐藏状态
    • $C_t$: 时间步 t 的单元状态 (cell state)
    • $f_t$, $i_t$, $o_t$: 遗忘门、输入门、输出门
    • $W_*$: 权重矩阵
    • $b_*$: 偏置向量
    • $σ$: Sigmoid 激活函数
    • $tanh$: 双曲正切激活函数

    理解: LSTM 是 RNN 的一种变体,旨在解决 RNN 的梯度消失问题。LSTM 通过引入单元状态和门机制来控制信息的流动,从而更好地记忆长期依赖关系。

6. 注意力机制 (Attention Mechanism)

  • 公式:

    • $e_{ti} = a(s_{t-1}, h_i)$ (计算注意力权重)
    • $α_{ti} = softmax(e_{ti})$ (归一化注意力权重)
    • $c_t = Σ(α_{ti} * h_i)$ (计算上下文向量)
  • 解析:

    • $s_{t-1}$: 解码器在时间步 t-1 的隐藏状态
    • $h_i$: 编码器在时间步 i 的隐藏状态
    • $a()$: 对齐函数 (alignment function)
    • $softmax()$: 归一化函数
    • $c_t$: 上下文向量 (context vector)

    理解: 注意力机制允许模型在处理序列数据时关注不同的部分。通过计算每个输入元素与当前输出相关的程度,模型可以为每个输入元素分配不同的权重,从而更好地捕捉序列中的重要信息。

一些补充说明:

  • 损失函数 (Loss Function): 用来衡量模型的预测结果与真实值之间的差距。常见的损失函数包括均方误差 (Mean Squared Error)、交叉熵 (Cross Entropy) 等。
  • 优化器 (Optimizer): 用来更新模型参数,以最小化损失函数。常见的优化器包括梯度下降 (Gradient Descent)、Adam 等。
  • 反向传播 (Backpropagation): 一种计算梯度的方法,用于更新模型参数。

希望这些公式和解析能够帮助你更好地理解深度学习。学习过程中,多做实验,多实践,才能真正掌握这些知识。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 1056615746@qq.com

文章标题:深度学习神经网络分类及其公式学习

字数:1.4k

本文作者:攀登

发布时间:2025-08-09, 11:55:01

最后更新:2025-08-09, 11:56:43

原始链接:http://jiafeimao-gjf.github.io/2025/08/09/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%88%86%E7%B1%BB%E5%8F%8A%E5%85%B6%E5%85%AC%E5%BC%8F%E5%AD%A6%E4%B9%A0/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

×

喜欢就点赞,疼爱就打赏