一言でいうと
Batch Normalizationだとバッチごとのμとσを利用するが,
バッチごとに分布が異なると大きなズレが生じるため,
データ全体のμとσを使う.
詳しい事はちゃんと読んでいないが,
#10 でBRNが出てきて軽く知りたかったので,読むの途中でやめました.
論文リンク
https://arxiv.org/abs/1702.03275
著者/所属機関
Sergey Ioffe
Google Inc., sioffe@google.com
(Batch Normalizationの著者の一人)
投稿日付(yyyy/MM/dd)
[v1] Fri, 10 Feb 2017 18:27:17 UTC
概要
新規性・差分
手法
結果
コメント