- Yann LeCun らが1989年に発表した論文「Backpropagation Applied to Handwritten Zip Code Recognition」の歴史的重要性を扱った記事で、この論文は逆伝播を用いてニューラルネットワークをエンドツーエンドで訓練した最初期の実用的応用例の1つと見なされています。
- 著者は PyTorch のような現代的なツールを使って論文の仕事を再現しようと試みており、元のネットワークは Bottou と LeCun による1988年の逆伝播シミュレーター SN(後に Lush と改名)を用いて Lisp で実装されていたと述べています。
- 元のネットワークは SUN-4/260 ワークステーションで3日間かけて訓練されましたが、著者が MacBook Air (M1) の CPU を使って再現したものは約90秒で済みました。
- 著者はさらに、Adam オプティマイザの使用、データ拡張やドロップアウトの導入、
tanh 活性化関数を ReLU に置き換えることなど、現代のディープラーニング技法も試しており、その結果エラー率は約60%低下しました。
- 著者は、ネットワークやデータセットの規模を拡大することでさらなる改善が可能だが、そのぶん計算コストが増え、推論レイテンシが発生しうると示唆しています。
- 過去33年間のディープラーニングの進歩を振り返りつつ、著者は基本原理は同じままである一方、データセットとモデルの規模は大幅に増大し、モデル訓練に必要な時間は大きく短縮されたと指摘しています。
- 著者は2055年までにニューラルネットワークはさらに巨大化し、ほとんどのアプリケーションはネットワークの一部を軽くファインチューニングするか、プロンプトエンジニアリングを行うか、あるいはデータやモデルをより小さく特定用途向けの推論ネットワークへ蒸留することで実現されるだろうと推測しています。
1件のコメント
Hacker Newsの意見