深度学习自提问及解决

卷积神经网络 是如何实现通道数的改变?

Conv2d(in_channels=3,out_channels=32,kernel_size=5,stride=1,padding=2)

在这个例子中,输入通道数为3,输出通道数为32,卷积核大小为5x5,步长为1,填充为2。

不,卷积操作并不是通过对 3 个输入通道进行“平均卷积”来生成 64 个输出通道的。每个输出通道是由一个滤波器(或卷积核)与输入的所有通道进行卷积操作的结果。具体来说,卷积核在每个输入通道上进行卷积,再通过对所有输入通道的卷积结果进行加权求和来产生每个输出通道。

让我们通过具体的例子来详细说明这个过程:

假设:

  • 输入的图像有 3 个通道(例如 RGB 图像),每个通道的尺寸是 (H, W)。
  • 我们有一个卷积层,in_channels=3out_channels=64kernel_size=5stride=1padding=2

卷积过程:

  1. 卷积核(滤波器):每个输出通道对应一个卷积核。假设有 64 个滤波器(即输出通道数是 64),每个滤波器的形状是 ( 5 \times 5 \times 3 ),即每个滤波器包含 3 个通道的权重(与输入的 3 个通道相对应),每个滤波器的大小是 5x5

  2. 卷积计算

    • 卷积核会在输入图像的每个区域(根据 stride=1padding=2,会按照 5x5 的大小扫描整个图像)与输入图像进行卷积操作。
    • 对于每个输出通道的每一个位置,卷积核会对输入图像的每个通道执行卷积操作:
      • 每个卷积核与输入图像的每个通道做点积,然后将点积结果加在一起,得到该位置在输出特征图中的值。

    例如,对于第一个输出通道(即第一个卷积核):

    • 它会与输入图像的第一个通道(红色通道)进行卷积,得到一个特征图。
    • 它会与输入图像的第二个通道(绿色通道)进行卷积,得到一个特征图。
    • 它会与输入图像的第三个通道(蓝色通道)进行卷积,得到一个特征图。
    • 然后,将这三个特征图的结果加在一起,得到最终的输出特征图中对应位置的值。
  3. 输出通道的生成

    • 这种方式对每个滤波器进行,从而得到 64 个不同的输出通道,每个输出通道都包含了输入图像的所有通道的特征信息。

关键点:

  • 每个输出通道都不是仅仅通过对输入通道进行“平均卷积”得到的,而是通过卷积核与输入图像的每个通道的加权卷积结果来生成的。
  • 每个卷积核都看到了输入图像的所有通道,而不是单独对每个通道进行卷积。因此,卷积操作是跨通道的加权计算。

总结:

卷积核不仅仅是通过对每个输入通道进行平均来生成输出通道,而是通过在每个通道上的卷积操作并加权求和生成输出特征图。这种方式使得卷积神经网络能够从输入的多个通道中提取出丰富的特征信息,并通过多个卷积核得到多个输出通道。

卷积神经网络为保持输入尺寸不变,如何计算pandding

Conv2d(in_channels=3,out_channels=32,kernel_size=5,stride=1,padding=2)

在这个例子中,输入通道数为3,输出通道数为32,卷积核大小为5x5,步长为1,填充为2。

在卷积神经网络(CNN)中,为了保持输入和输出的尺寸相同(即保持输入的空间尺寸不变),通常使用 padding 来在输入图像的边缘添加额外的像素。这种技术称为 "same padding"。具体来说,padding 的计算方法和卷积核的大小、步幅(stride)有关。

如何计算 Padding?

假设输入图像的尺寸是 ( H \times W ),卷积核的尺寸是 ( K \times K ),步幅是 ( S ),那么为了保证输出的尺寸与输入的尺寸相同,padding 需要根据以下公式计算。

对于单个维度(高度或宽度):

如果要求输出的大小与输入的大小相同,那么对于一个维度(比如高度 ( H )),有:

O = \frac{I - K + 2P}{S} + 1

其中:

  • ( O ) 是输出的尺寸(目标尺寸,应该等于输入尺寸 ( I ))。
  • ( I ) 是输入的尺寸。
  • ( K ) 是卷积核的尺寸。
  • ( P ) 是每一边的 padding 大小。
  • ( S ) 是步幅(stride)。

为了保持输入和输出的尺寸一致,设置 ( O = I ),得到:

I = \frac{I - K + 2P}{S} + 1

通过整理这个公式,可以得出 padding 的计算公式:

P = \frac{(S \times (I - 1) + K - I)}{2}

通常情况下,步幅 ( S = 1 ) 时,公式会变得更简单。

具体步骤:

  1. 保持输入输出相同:为了保证输入尺寸和输出尺寸相同,通常使用 padding。假设卷积核大小 ( K ) 为奇数(例如 3x35x5 等),并且步幅 ( S = 1 ),我们可以采用以下公式来计算 padding 大小。

  2. 公式简化

    • 对于步幅 ( S = 1 ) 和卷积核尺寸 ( K ) 为奇数时,padding 计算为:
    P = \frac{K - 1}{2}

    例如:

    • 对于卷积核大小 3x3,padding 为 ( \frac{3 - 1}{2} = 1 )。
    • 对于卷积核大小 5x5,padding 为 ( \frac{5 - 1}{2} = 2 )。

    这个公式也适用于图像的高度和宽度,若你同时对两个维度(高度和宽度)进行卷积,那么高度和宽度的 padding 一般是相同的。

示例

  1. 3x3卷积核、步幅为1

    • 输入图像尺寸 ( 32 \times 32 )。
    • 卷积核尺寸为 3x3,步幅 ( S = 1 )。
    • 根据公式,padding ( P = \frac{3 - 1}{2} = 1 )。
    • 所以,对于 3x3 卷积核和步幅为1,padding 为 1。输入和输出的尺寸都会保持为 ( 32 \times 32 )。
  2. 5x5卷积核、步幅为1

    • 输入图像尺寸 ( 32 \times 32 )。
    • 卷积核尺寸为 5x5,步幅 ( S = 1 )。
    • 根据公式,padding ( P = \frac{5 - 1}{2} = 2 )。
    • 所以,对于 5x5 卷积核和步幅为1,padding 为 2。输入和输出的尺寸都会保持为 ( 32 \times 32 )。

其他情况

  • 步幅大于1:如果步幅 ( S ) 大于 1,输出尺寸会缩小。这时,如果仍然想保持输出尺寸与输入相同,可以根据上面的公式进行调整,但通常步幅大于1时,会有更多的空间丢失。

  • 偶数卷积核:对于偶数尺寸的卷积核(比如 4x4),没有一个明确的中心点,因此 padding 的计算会稍微复杂一些,但可以通过采用适当的 padding 来尽量使输入输出尺寸一致。在这种情况下,通常会根据需要手动调整 padding 的大小。

总结:

  • 为了保持输入和输出尺寸相同,padding 大小通常是通过计算卷积核大小、步幅和输入尺寸来确定的。
  • 对于奇数大小的卷积核(如 3x35x5),如果步幅 ( S = 1 ),则 padding 大小通常为 ( \frac{K - 1}{2} )。

卷积核只能是奇数吗?

卷积核(滤波器)不必是奇数大小,但在实际应用中,奇数大小的卷积核是最常见和推荐使用的。这是因为奇数大小的卷积核具有一些有利的属性,特别是对称性,能够使卷积操作更加简洁和有效。

为什么奇数卷积核更常用?

  1. 对称性

    • 当卷积核的大小是奇数时,它有一个明确的中心位置。例如,3x35x57x7等都是奇数大小的卷积核。这使得卷积核能够在输入数据的中心位置上进行计算,从而能够很好地对齐图像的像素(尤其是在边界和图像中央之间的过渡)。
    • 这种对称性使得卷积操作在空间上更加平衡,特别是在使用 padding 时,奇数大小的卷积核能够均匀地扩展输入的边缘。
  2. 卷积计算的效率

    • 对于奇数大小的卷积核,卷积计算可以更加简洁。例如,使用 3x3 卷积核时,中心像素位置明确,卷积核会围绕这个中心位置进行计算。
    • 相比之下,如果使用偶数大小的卷积核(如 4x46x6 等),就没有一个明确的中心位置,这可能导致卷积操作在对称性和效率上出现一些复杂性。
  3. 特征提取能力

    • 奇数大小的卷积核通常能够捕捉到更多的局部特征。例如,3x3 卷积核通过两个连续的卷积层(每层 3x3),可以等价于一个 5x5 卷积核,但具有更少的参数,这使得网络能够更高效地学习。
  4. 边缘处理

    • 使用奇数大小的卷积核时,通常会使用“same padding”(即填充图像边缘使得输出图像的尺寸与输入图像相同),这种处理方式在卷积神经网络中非常常见,能够确保每个输入的像素都得到合理的处理。

使用偶数大小卷积核的情况:

虽然奇数大小卷积核是更常见的选择,但偶数大小的卷积核也可以使用,并且在一些特殊场景中可能有效。比如:

  1. 特定的设计需求

    • 在一些特定的网络架构或任务中,可能会使用偶数大小的卷积核,例如,4x46x6。这些卷积核可以改变特征提取的方式,尤其是在某些实验或理论模型中。
  2. 非对称卷积

    • 在某些应用中,为了处理特定的方向性(例如,某些非对称数据的处理),偶数大小的卷积核可能是合适的选择,但这种情况相对较少。

总结:

卷积核不一定非要是奇数大小,但在大多数卷积神经网络中,奇数大小(如 3x35x5 等)的卷积核更为常见和推荐,主要是因为它们具有良好的对称性,简洁的计算过程和高效的参数利用。不过,偶数大小的卷积核(如 4x46x6)在特定的应用中也有其存在的合理性。

最大池化怎么计算池化后的尺寸?

在卷积神经网络中,最大池化(Max Pooling) 是一种常用的下采样操作,通常用于降低图像的空间尺寸(宽度和高度),从而减少计算量和内存消耗。池化操作并不会改变通道数(深度),只会对图像的空间尺寸(宽度和高度)进行缩小。

最大池化的基本计算方法

最大池化操作通常有以下参数:

  • 池化窗口(Pooling Window):例如 2x23x3 等。
  • 步幅(Stride):池化窗口在图像上滑动的步幅,通常是 12,如果步幅为 2,池化窗口就会在每次滑动时跳过一个像素。
  • 填充(Padding):有时会在图像的边缘添加填充(通常是零),但在池化层中一般不使用填充。

假设输入图像的尺寸为 ( H \times W )(高度 ( H ) 和宽度 ( W )),池化窗口的大小为 ( K \times K ),步幅为 ( S ),没有填充,则输出图像的大小可以通过以下公式计算:

输出尺寸的计算公式

高度(( O_H ))和宽度(( O_W ))的计算:

  1. 没有填充的情况(即 "valid" padding):

    O_H = \left\lfloor \frac{H - K}{S} \right\rfloor + 1
    O_W = \left\lfloor \frac{W - K}{S} \right\rfloor + 1

    其中:

    • ( H ) 和 ( W ) 分别是输入图像的高度和宽度。
    • ( K ) 是池化窗口的大小(假设池化窗口是正方形,所以只需要一个 ( K ) 即可)。
    • ( S ) 是步幅。
    • ( \lfloor \cdot \rfloor ) 表示向下取整(floor function)。
  2. 使用填充的情况(即 "same" padding):
    如果在池化操作前对图像进行填充,目标是保持输入图像和输出图像的大小相同(或者通过 padding 来确保较小的边缘不会丢失信息)。在这种情况下,可以使用以下公式:

    O_H = \left\lceil \frac{H}{S} \right\rceil
    O_W = \left\lceil \frac{W}{S} \right\rceil

    这里:

    • ( \lceil \cdot \rceil ) 表示向上取整(ceiling function)。
    • 由于填充的存在,通常会有一些像素被加入到输入的边缘,确保输出尺寸尽可能与输入尺寸一致。

示例

示例 1:没有填充(Valid Padding)

假设输入图像大小为 ( 5 \times 5 ),池化窗口为 ( 2 \times 2 ),步幅为 2。

  • 输入尺寸:( H = 5, W = 5 )
  • 池化窗口大小:( K = 2 )
  • 步幅:( S = 2 )

使用公式:

O_H = \left\lfloor \frac{5 - 2}{2} \right\rfloor + 1 = \left\lfloor \frac{3}{2} \right\rfloor + 1 = 1 + 1 = 2
O_W = \left\lfloor \frac{5 - 2}{2} \right\rfloor + 1 = \left\lfloor \frac{3}{2} \right\rfloor + 1 = 1 + 1 = 2

输出尺寸为 ( 2 \times 2 )。

示例 2:使用填充(Same Padding)

假设输入图像大小为 ( 5 \times 5 ),池化窗口为 ( 2 \times 2 ),步幅为 2。

  • 输入尺寸:( H = 5, W = 5 )
  • 池化窗口大小:( K = 2 )
  • 步幅:( S = 2 )

使用公式:

O_H = \left\lceil \frac{5}{2} \right\rceil = 3
O_W = \left\lceil \frac{5}{2} \right\rceil = 3

输出尺寸为 ( 3 \times 3 )。

总结

  • 无填充(valid padding):输出尺寸通过公式 ( O = \left\lfloor \frac{I - K}{S} \right\rfloor + 1 ) 计算。
  • 有填充(same padding):输出尺寸通过公式 ( O = \left\lceil \frac{I}{S} \right\rceil ) 计算。

如果步幅大于池化窗口大小,输出尺寸将会更小;而如果使用填充,输出尺寸通常会更接近输入尺寸,甚至在某些情况下保持相同。

图像是怎么经过Linear层后进行分类的?

在卷积神经网络(CNN)中,线性层(Linear Layer)(也叫全连接层)通常用于将从卷积层(或者其他特征提取层)中提取到的高维特征映射转换成分类的输出。这里的核心过程是通过一个或多个全连接层,将卷积层生成的高维特征向量映射到分类结果。下面是图像经过卷积层和线性层(全连接层)后进行分类的过程。

1. 图像经过卷积层和池化层提取特征

卷积神经网络中的第一部分通常包括多个卷积层和池化层,它们的作用是从输入图像中提取有意义的特征。

  • 卷积层:使用卷积核对图像进行卷积操作,生成特征图(feature maps)。卷积层的作用是通过不同的卷积核提取图像中的局部特征(如边缘、纹理、形状等)。
  • 池化层:用于下采样(通常是最大池化),减少特征图的空间维度(宽度和高度),从而减少计算量,避免过拟合,同时保留最重要的特征信息。

卷积层和池化层通常交替堆叠,提取出越来越抽象的特征。例如,第一层可能捕捉到简单的边缘特征,第二层捕捉到更复杂的形状,第三层捕捉到对象的更高层次特征。

2. 卷积和池化后的输出

经过多层卷积和池化后,得到的输出是一个包含特征图的多维张量。例如,假设通过卷积和池化层得到的输出特征图的大小为 ( 6 \times 6 \times 256 ),其中 ( 6 \times 6 ) 是特征图的空间维度(高度和宽度),而 ( 256 ) 是特征图的深度(即通道数)。

3. 展平(Flatten)

为了将卷积层和池化层的输出传递给全连接层,首先需要将其 展平(Flatten) 成一个一维向量。假设输出的特征图的尺寸为 ( H \times W \times C ),展平后会变成一个大小为 ( H \times W \times C ) 的一维向量。比如,假设输出的特征图尺寸为 ( 6 \times 6 \times 256 ),展平后得到的向量大小为 ( 6 \times 6 \times 256 = 9216 ) 个元素。

4. 传递到全连接层(Linear Layer)

在展平之后,这个一维向量会被传递到一个或多个 全连接层(Linear Layer) 中。每个全连接层通过矩阵乘法和加权求和将输入特征映射到输出空间。在全连接层中,每个神经元与前一层的每个神经元都有连接,并且每个连接都有一个权重。假设全连接层的输出维度为 ( N ),则通过矩阵乘法计算出:

\mathbf{y} = \mathbf{W} \cdot \mathbf{x} + \mathbf{b}

其中:

  • ( \mathbf{y} ) 是全连接层的输出向量。
  • ( \mathbf{W} ) 是权重矩阵,形状为 ( N \times M )(( M ) 是输入特征的数量,( N ) 是输出的神经元个数)。
  • ( \mathbf{x} ) 是输入特征的向量(展平后的特征图)。
  • ( \mathbf{b} ) 是偏置项。

5. 分类输出

经过若干层的全连接层后,最后的输出会是一个与类别数相同长度的向量。如果我们有 ( N ) 个类别,最终的输出向量的长度也是 ( N )。例如,如果我们进行手写数字识别(如 MNIST 数据集),类别数 ( N = 10 ),那么最后的输出是一个包含 10 个元素的向量,每个元素表示属于某个类别的分数。

为了使输出表示每个类别的概率,通常会将全连接层的输出通过 softmax 激活函数,softmax 将输出的实数值转化为概率分布,使得每个元素的值在 [0, 1] 之间,并且所有输出的和为 1。即:

\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}

其中 ( x_i ) 是第 ( i ) 个类别的得分。

6. 进行预测

最终,我们可以选择得分最高的类别作为网络的预测结果。例如,如果在手写数字分类任务中,softmax 输出为:

[0.1, 0.05, 0.02, 0.4, 0.05, 0.01, 0.07, 0.1, 0.1, 0.02]

则网络会预测该图像为类别 3(得分 0.4)。因此,最终的分类结果是基于网络输出的类别概率进行选择。

总结

图像通过卷积层和池化层提取特征,经过展平操作变成一维向量后,输入到全连接层(Linear Layer)。全连接层将这些特征映射到一个与类别数相等的输出向量,通过 softmax 激活函数得到每个类别的概率,最后选择概率最大的类别作为网络的分类结果。

简而言之,卷积层负责从图像中提取重要的特征,线性层(全连接层)则将这些特征映射到最终的分类空间,用于预测类别。

卷积层通道数的增加和减少的作用分别是什么?

卷积层的通道数(即输出通道数或卷积核数量)的增加和减少对卷积神经网络的作用各有不同。我们可以从网络的学习能力、计算开销、特征表示等方面来分析这两者的不同影响:

1. 增加通道数的作用

增加通道数意味着网络的卷积层将有更多的卷积核来学习输入数据的特征。这主要会带来以下几个好处:

a) 增强特征表示能力

  • 更多的卷积核意味着网络可以学习到更多样化的特征。比如,某些卷积核可能关注颜色、纹理,其他卷积核则可能关注边缘或形状信息。增加通道数可以帮助网络捕捉到更多的低级和中级特征。
  • 通道数增加后,网络的表达能力变强,可以从不同的角度理解输入数据。对于更复杂的任务(比如图像分类、目标检测等),通常需要较高的通道数来提升模型的性能。

b) 提高模型的抽象能力

  • 通常,随着网络深度的增加,我们会看到网络层次的抽象逐渐增多。在较深的卷积层中,增加通道数可以帮助网络学习更高层次的抽象特征(如物体部分、复杂形状等)。比如在图像分类中,初级卷积层学习的可能是边缘和纹理,而高级卷积层学习的则是更具语义的特征,如脸部、汽车等。

c) 提高网络的容量

  • 增加通道数可以增加网络的容量,使得模型能够学习到更多复杂的模式和关系。尤其在网络的前几个卷积层,通道数的增加可以帮助网络更好地理解输入数据的多样性。

d) 提升分类精度

  • 对于复杂的任务或者较难区分的类别,增加卷积层的通道数能够提高最终分类精度,因为更多的卷积核能够提取更多、更丰富的特征。

2. 减少通道数的作用

减少通道数意味着网络的卷积层将有较少的卷积核来提取输入数据的特征。虽然这样会降低网络的学习能力,但也有其潜在的优点:

a) 减少计算量与内存消耗

  • 每个卷积核的计算都会涉及到大量的乘加操作。如果输出通道数过多,网络的计算量和内存需求会显著增加,特别是在较深的网络中。通过减少通道数,网络的计算开销和内存消耗会得到有效控制。
  • 这在一些资源受限的设备(如嵌入式设备、移动设备)上尤为重要,因为这些设备无法承受高昂的计算成本。

b) 控制过拟合

  • 增加过多的通道数可能导致模型过于复杂,从而导致过拟合,尤其是当训练数据不足时。减少通道数可以限制模型的复杂度,从而有助于防止过拟合。
  • 在数据集较小、样本不多的情况下,减少通道数有助于限制网络的容量,降低其过拟合的风险。

c) 降低模型的容量

  • 减少通道数意味着网络有更少的学习参数,模型的容量减少。这虽然可能降低模型的学习能力,但在一些简单任务或小型数据集上,过大的网络容量反而可能不适合。因此,减少通道数在某些简单任务中能使模型更加高效。

d) 网络的简化

  • 当任务本身比较简单(例如图像尺寸小或类别较少时),增加过多的通道数可能会导致模型不必要的复杂性。此时,减少通道数可能会使得网络更加精简且高效。

3. 增加与减少通道数的选择

  • 增加通道数的时机:通常在网络的前几层或浅层增加通道数有助于提取更丰富的特征;在网络的后续层增加通道数通常有助于学习更复杂、更抽象的特征。
  • 减少通道数的时机:当网络已经学习到足够的特征,或者在瓶颈层时,可以减少通道数,降低计算量和内存消耗。此外,减少通道数也可以通过增加网络深度来补偿其容量的下降。

总结:

  • 增加通道数:提升模型的特征学习能力、增强抽象能力、提高分类精度,但也会增加计算量和内存消耗。
  • 减少通道数:降低计算开销、内存消耗和模型复杂度,适用于简单任务或资源有限的设备,但可能牺牲模型的学习能力。

因此,选择增加还是减少通道数要根据具体的任务、计算资源以及模型复杂度来平衡。

卷积设置的大小,卷积里面的参数是随机设定的吗?如果是随机设定的,那么不会影响图片的特征,从而影响权重吗?

nn.Conv2d 中设置的参数(例如 in_channels=3, out_channels=32, kernel_size=5, stride=1, padding=2)确实定义了卷积层的结构和计算方式。但这些参数本身并不直接决定卷积核(滤波器)中的权重值。

1. 卷积核的大小和形状

  • kernel_size=5 表示卷积核的大小是 5x5。
  • in_channels=3 表示输入的图像有 3 个通道(RGB 图像),而 out_channels=32 表示卷积层将会输出 32 个特征图。

2. 权重的初始化

  • 卷积层的 权重(卷积核的值)是随机初始化的。在训练开始时,通常会使用某种方法来初始化这些权重,例如 Xavier 初始化He 初始化 等。权重的随机初始化并不意味着它们没有影响,而是为网络提供了开始训练的起点。

  • 这些随机初始化的权重会在训练过程中通过反向传播算法进行更新,使得模型能够学习到如何提取输入数据中的特征。权重的更新是通过梯度下降或其他优化算法进行的,目标是最小化损失函数,从而改善模型的性能。

3. 卷积核的作用

  • 卷积核本质上是特征提取器,它在图像上滑动并执行点乘操作以提取局部特征。随机初始化的权重会导致初期卷积核提取到的特征并不理想,但随着训练进行,卷积核会根据反向传播中的梯度调整权重,从而学习到更有意义的特征。

  • 因此,卷积层的权重会在训练过程中不断优化,从而影响特征图的生成,最终影响整个网络的输出。

4. 影响图像特征的提取

  • 通过卷积运算,卷积核会提取输入图像的局部特征。由于卷积层的权重在训练过程中会不断更新,它对图像特征的提取能力也会随着训练的进行而逐步优化。

  • 即使在初始化时权重是随机的,卷积层仍然能够提取到有效的特征,并且随着训练过程的推进,特征提取的效果会逐渐改善。

总结:

卷积核的大小和形状(如 kernel_size=5, in_channels=3, out_channels=32 等)定义了卷积层的结构和计算方式,而权重在初始时是随机设定的。随机的权重不会直接影响图像的特征提取,但它们会随着训练进行更新,从而使得卷积层逐渐学习到更有意义的特征,并提高模型的性能。

随机梯度下降会调整那些值来保证模型的正确?

随机梯度下降(SGD)是一种优化算法,用于通过调整模型的参数来最小化损失函数,从而使得模型在训练数据上表现得更好。在深度学习中,随机梯度下降主要会调整以下几类值:

1. 权重(Weights)

  • 权重是神经网络中最重要的参数,它们控制了网络的学习过程。
  • 在卷积层中,权重通常对应于卷积核(滤波器)的参数。在全连接层中,权重控制着输入与输出节点之间的连接强度。
  • SGD通过计算损失函数相对于每个权重的梯度(偏导数),然后调整权重值,以减少损失函数的值。这一过程通过以下公式实现:
    W_{\text{new}} = W_{\text{old}} - \eta \cdot \nabla_W L
    其中:
    • ( W_{\text{new}} ) 是更新后的权重,
    • ( W_{\text{old}} ) 是当前的权重,
    • ( \eta ) 是学习率(控制更新步伐的大小),
    • ( \nabla_W L ) 是损失函数相对于权重的梯度。

2. 偏置(Biases)

  • 偏置是与每个神经元相对应的额外参数,通常用于调整神经元的输出,使得神经网络在没有任何输入时也能产生一定的输出。
  • 类似于权重,偏置也会通过梯度下降进行更新。偏置的更新公式与权重类似:
    [
    b_{\text{new}} = b_{\text{old}} - \eta \cdot \nabla_b L
    ]
    其中:
    • ( b_{\text{new}} ) 是更新后的偏置,
    • ( b_{\text{old}} ) 是当前的偏置,
    • ( \nabla_b L ) 是损失函数相对于偏置的梯度。

3. 学习率(Learning Rate)

  • 学习率决定了每次更新的步长,也就是权重和偏置更新的幅度。虽然学习率本身不是直接优化的参数,但它对优化过程的效率和稳定性有重要影响。
  • 在训练过程中,可能需要调节学习率,以避免过大的步长导致训练不稳定,或者步长过小导致训练进展缓慢。

4. 其他超参数(如动量、正则化系数等)

  • 虽然 SGD 主要优化权重和偏置,但在实际应用中,通常会引入一些其他的超参数来加速训练过程和提高模型的泛化能力。例如:
    • 动量(Momentum):动量是用来加速SGD的更新的一种方法,它通过加入历史梯度的加权平均来调整当前的更新步长。动量可以帮助模型避免陷入局部最优。
    • 正则化系数(Regularization):如 L1 或 L2 正则化,用于防止模型过拟合。正则化项会加入到损失函数中,并影响梯度计算,从而在权重更新时产生约束。
    • 学习率衰减(Learning Rate Decay):逐步降低学习率,帮助网络在训练后期更稳定地收敛。

5. 激活函数的参数(如果有的话)

  • 某些网络结构(如 Batch Normalization)可能会有额外的可调参数。例如,Batch Normalization 中的缩放参数 ( \gamma ) 和偏移参数 ( \beta ) 也会在训练过程中进行调整。

总结:

随机梯度下降优化的主要参数是 权重偏置,它们通过计算损失函数相对于这些参数的梯度并在每次更新时调整它们的值,从而使得模型的输出逐渐逼近真实值。除了权重和偏置外,学习率、动量、正则化等超参数也在一定程度上影响训练的效果,但它们本身不被梯度下降直接调整。