网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
12月21日漏签0天
人工智能吧 关注:118,748贴子:513,628
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 88回复贴,共1页
<<返回人工智能吧
>0< 加载中...

BN网络的一个问题

  • 只看楼主
  • 收藏

  • 回复
  • 笑而不语的谁
  • Siri
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
BN网络的算法核心就是gama beta 的数据重构,让网络自身学习这两个参数,然后恢复前一层学到的数据特征,那我的疑惑是,既然都要恢复成原来数据的分布,为什么还要将数据一开始归一化呢??
这一点我不是很理解。希望大家指正。


  • 胡梦柯5
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
归一化不冲突,归一化在行或列上进行的是线性变换,不破坏原来的数据分布的非线性,是仅改变了幅度的等效变换而已。只要预测数据与训练数据作了相同的变换,最后是线性相似的。所以很多都先归一化一下,结果只会更好,最多浪费点运算。


2025-12-21 17:22:06
广告
不感兴趣
开通SVIP免广告
  • 笑而不语的谁
  • Siri
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
借用网上的一段话来阐述下我的困惑:
BN核心思想应该是想找到一个线性和非线性的较好平衡点,既能享受非线性的较强表达能力的好处,又避免太靠非线性区两头使得网络收敛速度太慢。当然,这是我的理解,论文作者并未明确这样说。但是很明显这里的scale和shift操作是会有争议的,因为按照论文作者论文里写的理想状态,就会又通过scale和shift操作把变换后的x调整回未变换的状态,那不是饶了一圈又绕回去原始的“Internal Covariate Shift”问题里去了吗,感觉论文作者并未能够清楚地解释scale和shift操作的理论原因。


  • 笑而不语的谁
  • Siri
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
我梳理一下流程啊:数据->输入层->bn层->relu层,就是个例子哈。训练到最后阶段,假设结果可以 训练的非常好,bn层最后重构两个参数训练的可以将数据还原成原始数据的样貌,那么bn层不就是没用了,那我还要bn层有什么用呢。bn层不就是确保进入激活层的数据分布更好么?


  • 笑而不语的谁
  • Siri
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@胡梦柯5 @璐村惂鐢ㄦ埛_7SKAAD6馃惥
感谢二位的解答。但是我总是觉得我的疑惑和二位的解答不在一个道上。
我理解BN的作用主要是将数据往线性范围去拉,防止梯度消失之类的问题,这个我完全可以理解。我不理解的是scale和shift的含义,因为用BN层前几步的作用是为了更好地让数据在激活层运作,行,现在我把数据处理好了,也减去平均值了,也把方差变成1了,不就可以直接送到激活层,然后这样训练不就好了么,为什么还多此一举在激活层前,加入了scale和shift呢?我好不容易把数据拉到了线性区域,你倒好,还要通过每次不停地训练scale和shift参数把我的数据还原回去(原文作者的意思是最理想的状态是还原成原始数据?????what????这不是等于没加BN层了么?????作者在原文并没有解释这个含义)
按照作者的理想结果,scale shift参数将激活层前的数据还原成原始数据,那BN层不就等于无了么??我还训练个什么劲啊


  • Rukia蛟蛟7h0
  • 人脸辨识
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
既然都要恢复成原来数据的分布,为什么还要将数据一开始归一化呢??
这一点我不是很理解。希望大家指正。


  • 胡梦柯5
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
BN网络,假定每一批数据,与数据全体都i.i.d,即小批量数据独立的与全体数据同一分布采样而来,那同一导某个神经元进行BN的小批量数据的均值与方差,最终与测试数据进行去均值除方差的这两参数基本相同,就算不同,也由于大量数据都训练过,也基本可以考虑成训练时用小批量数据的均值与方差,一致于预测时用所有数据的均值与方差,这样,训练时进行了小批量内去均值及除方差之BN层的操作,预测时也相当于能用全体数据去均值及除方差之BN层相似的操作。


  • 不唱歌的大叔
  • 人脸辨识
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
看这个免费课你就懂了很体系ke.lieweiai.com


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 88回复贴,共1页
<<返回人工智能吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示