送钞票 LV
发表于 2025-4-7 14:34:23
可解释性:从频域角度解释卷积解码神经网络的表达瓶颈
大家好,我们是唐灵和沈雯。沈雯是上海交通大学博士后研究员,目前由张拳石老师指导。唐灵是大四学生,目前在张拳石老师团队实习。
本研究理论证明了级联卷积解码器网络(a cascaded convolutional decoder network)在表达输入样本的不同频率成分方面的瓶颈。
对应论文:Ling Tang*, Wen Shen*, Zhanpeng Zhou, Yuefeng Chen, Quanshi Zhang. “Defects of Convolutional Decoder Networks in Frequency Representation” in arXiv:2210.09020, 2022.
深度学习发展至今,越来越多的研究者跳脱出唯性能至上的思维,开始思考深度神经网络(DNNs)发展的未来道路。就像张老师一直所信奉的,深度学习下一个突破口应该是研究神经网络的“可量化”、“可证明”且“可验证”的“第一性原理”,要证明其结论的最优性和唯一性。当然了,这些只是泛泛的描述,而不是一个确定的研究。在不同的方向上,研究会遇到不同的问题,怎么从五花八门的现象背后,框定出一个相对严谨的结论,还是很有难度的。
目前,有一些研究关注DNN的理论缺陷,如大家所熟知的对对抗攻击不鲁棒。我们团队在此方向也有探索,例如我们团队在ICLR 2022 Oral论文“发现并证明神经网络表征瓶颈”中,理论证明了神经网络的公共表征瓶颈,即神经网络善于建模较为简单或较为复杂的模式表征,而不善于建模中等复杂度的模式表征。此外,其他团队的研究解释了DNN训练过程中的典型现象,如双下降现象[1]、信息瓶颈理论[2]和彩票理论[3]等。
本文从一个新的角度来研究级联卷积解码器网络如何表示输入样本的不同频率成分的特征。即,当我们对特征图或输入样本的每个通道应用离散傅立叶变换(discrete Fourier transform,DFT)时,我们试图证明每个特征图/输入通道的哪些频率成分更容易被网络加强/削弱。在此方面,同在上海交大的许志钦老师(@许志钦)证明了DNN难以编码高频成分[4][5]。但是,这些研究关注的是一种特殊的频率,该频率将所有输入样本的损失函数的landscape作为时域。尽管如此,那篇文章依然给了我们和张老师一些启发,但是我们转而研究另一个更加直白的问题——图像生成网络对图像内部不同傅里叶变换频率成分的建模的特点。
具体地,本文给出了频域上的前向传播形式。本文证明了在特定的条件下(假设网络不包含ReLU层,且卷积操作使用循环padding来保证不改变特征图的大小),对输入图像的级联卷积操作,等价于对输入图像的频谱图的矩阵乘,且每个频率成分[u,v]是独立传播的,如Corollary 1所示。具体地,我们证明了下面两个过程是等价的:(1)时域上,使用L层级联的卷积层 对输入图像 做卷积,生成图像 ;(2)频域上,复数矩阵 (完全由卷积核权重 所决定)与输入图像的每个频率成分 对应的向量 做矩阵乘,得到生成图像的每个频率成分 对应的向量 。
其中 当且仅当 表示基频。 进一步地,在时域上的梯度下降法所得到的卷积核权重修改(即, ),对应在等价形式(公式7)上时, 矩阵的改变量可以写为如下形式。
上述理论发现,是在一定的假设下证明的。即,假设网络不包含ReLU层,且卷积操作使用了循环padding来保证不改变特征图的大小(对应下图蓝色曲线的结果)。但是,我们发现,即使在常见的设置下(网络有ReLU层,有zero-padding,对应下图绿色曲线的结果),我们的理论也能解释通用的网络的特性。
基于上述推导,我们进一步分析了卷积操作、zero-padding操作、和上采样操作,并证明了以下两个表达瓶颈。
1
. 表达瓶颈1:卷积操作和zero-padding操作,会使得一个级联的卷积解码器网络更容易削弱对高频成分的编码。
低频 有更大的 值,从而 的模长更可能大。相反,高频 有更小的 值,从而 的模长更可能小。基于公式(7), ,我们可以得出结论,网络更容易增强对输入的低频 的学习。 我们在一个级联的卷积auto-encoder网络上验证了上述理论发现,即神经网络先学习输入图像的低频成分,再逐渐学习更高频的成分。
为了更清楚的展示,我们把低频成分放到频谱图的中心,而把高频成分放到频谱图的四角。 我们同样理论证明了,zero-padding操作会增大特征图的低频强度。
实验同样证明了zero-padding使得一个级联的卷积解码器网络更容易增强对低频成分的编码。
此外,基于定理4中对 的二阶矩的证明,即  ,我们得出不同因素对上述表达瓶颈的影响。 1)网络更深,级联的卷积解码器网络更容易削弱对高频成分的编码。
2)卷积核参数的均值的绝对值越大,级联的卷积解码器网络更容易削弱对高频成分的编码。
3)卷积核越小,级联的卷积解码器网络更容易削弱对高频成分的编码,即学习更多比例 的低频成分。
2. 表达瓶颈2: 如果输入样本的频率成分和拟合目标输出的频率成分之间存在微小偏移,那么卷积解码器网络通常难以进行有效的学习。
我们用网络初始化和收敛后的参数改变量大小 来衡量卷积解自编码器拟合目标图像的优化成本(困难程度),在理论上证明了目标频率成分的偏移量 越小,卷积解码器的学习成本越大(即 显著增大)。
我们在一个级联的auto-encoder网络上验证了上述理论发现,即如果输入样本的频率成分和拟合目标输出的频率成分之间存在微小偏移,那么卷积解码器网络通常难以进行有效的学习。
3. 表达瓶颈3:上采样操作使得级联的卷积解码器网络所生成的特征频谱中,输入特征的强基频信号以特定频率重复出现。
我们在一个级联的卷积auto-encoder网络上验证了上述理论发现,即经过上采样操作的特征图中强信号在特定频率重复出现。
从下面的实验结果,可以更清楚的看到本文所证明的两个表达瓶颈,在一个级联的卷积auto-encoder网络的训练过程中是同时出现的。在训练的早期极少数几个epoch,网络在尝试消除由上采样操作导致的噪声信号。在那之后,网络先学习输入的低频成分,再逐渐学习更高的频率成分。
参考文献:
[1] P. Nakkiran et al. “Deep double descent: Where bigger models and more data hurt”, in ICLR 2019.
[2] Naftali Tishby and Noga Zaslavsky. “Deep learning and the information bottleneck principle”, in IEEE information theory workshop (itw), pp. 1–5. IEEE, 2015.
[3] Jonathan Frankle and Michael Carbin. “The lottery ticket hypothesis: Finding sparse, trainable neural networks”, in arXiv:1803.03635, 2018.
[4] Xu et al. “Frequency principle: Fourier analysis sheds light on deep neural networks”, in arXiv:1901.06523, 2019a.
[5] Xu et al. “Training behavior of deep neural network in frequency domain”, in ICONIP 2019.
【作者】
唐灵*:上海交通大学本科四年级,师从张拳石副教授。
沈雯*:上海交通大学博士后研究员,由张拳石副教授指导。https://ada-shen.github.io
周展鹏:上海交通大学博士研究生一年级,曾经在张拳石团队实习。
陈越丰,阿里巴巴集团
张拳石:上海交通大学副教授,博士生导师。http://qszhang.com
Qs.Zhang张拳石:可解释性理论系列:反思深度学习,去伪存真、合众归一198 赞同 · 16 评论文章211 赞同 · 17 评论文章220 赞同 · 17 评论文章Qs.Zhang张拳石:敢问深度学习路在何方,从统一12种提升对抗迁移性的算法说起上交大张拳石:深度学习可解释性,从百家争鸣到合众归一mp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3AQs.Zhang张拳石:ICLR 2022 Oral论文中得分排名前五的高分论文“发现并证明神经网络表征瓶颈”(得分10,8,8,8)923 赞同 · 25 评论文章995 赞同 · 25 评论文章1030 赞同 · 25 评论文章1067 赞同 · 26 评论文章Qs.Zhang张拳石:神经网络的博弈交互解释性(一):前言,漂在零丁洋里的体系268 赞同 · 20 评论文章275 赞同 · 20 评论文章
- 前言,漂在零丁洋里的体系
- 博弈交互概念、定义、定理、推论、与计算
- 动机:建模知识,连接性能
- 背景基础Shapley value
- 双变元博弈交互
- 多变元博弈交互,及其近似计算
- 多阶博弈交互
- 相关定理与推论
- 自然语言交互树
- 博弈交互与知识表达的关
- 探索中低阶博弈交互所建模的视觉概念及泛化能力
- 探索高阶博弈交互所建模的视觉概念
- 神经网络对纹理概念的建模相比形状概念更具有弹性
- 博弈交互与对抗攻击的关系,推导证明与实验
- 证明博弈交互与对抗迁移性的负相关关系
- 证明多个前人迁移性增强算法可近似归纳解释为对博弈交互的抑制
- 交互损失函数与迁移性的增强
- 博弈交互与泛化能力的关系,推导证明与实验
- 探索交互强度与泛化能力的关系
- 证明Dropout对交互强度的抑制
- 交互强度损失函数与泛化能力的提升
- 从博弈交互层面解释对抗鲁棒性
- 对抗攻击在多阶博弈交互上的效用
- 从知识构成的层面探索对抗训练提升鲁棒性的原因
- 去芜存菁:解释并萃取多个前人防御算法中公共的有效机理
- 神经网络对抗迁移性:从神农尝百草到精炼与萃取
- 完善Shapley value理论体系,建模并学习基准值
- 在博弈交互体系内,对“美”提出一个假设性建模
- 可解释性核心——神经网络的知识表达瓶颈
- 博弈交互与神经网络知识表征
- 发现并理论解释神经网络的表达瓶颈
- 突破表达瓶颈及探究不同交互复杂度下的表达能力
- 敢问深度学习路在何方,从统一12种提升对抗迁移性的算法说起
- 博弈交互与XXXXXXXXXXXXXXXXX
|
|