CGやBFGSや,ニューラルネットの世界ではSGDなどの様々な最適化手法があるが,どのようなケースがどれがどれだけ効率的なのかを系統的に調べたケースがあまり見当たらない.

Reddit にて質問があって,質問者自身がいろいろと論文などを掲載してくれている.

上記論文では,基本的にはSGDよりもL-BFGSやCGの方が効率的で,変数が少ないとL-BFGSが,変数が多いとCGの方が優位になる傾向のようだ.

しかし,どうも自分の経験とは異なる. CGは常にBFGSよりも効率が悪いと印象なのだが,大きな問題になると変わってくるのだろうか?