2 ポイント 投稿者 GN⁺ 2023-08-27 | 1件のコメント | WhatsAppで共有
  • Yann LeCun らが1989年に発表した論文「Backpropagation Applied to Handwritten Zip Code Recognition」の歴史的重要性を扱った記事で、この論文は逆伝播を用いてニューラルネットワークをエンドツーエンドで訓練した最初期の実用的応用例の1つと見なされています。
  • 著者は PyTorch のような現代的なツールを使って論文の仕事を再現しようと試みており、元のネットワークは Bottou と LeCun による1988年の逆伝播シミュレーター SN(後に Lush と改名)を用いて Lisp で実装されていたと述べています。
  • 元のネットワークは SUN-4/260 ワークステーションで3日間かけて訓練されましたが、著者が MacBook Air (M1) の CPU を使って再現したものは約90秒で済みました。
  • 著者はさらに、Adam オプティマイザの使用、データ拡張やドロップアウトの導入、tanh 活性化関数を ReLU に置き換えることなど、現代のディープラーニング技法も試しており、その結果エラー率は約60%低下しました。
  • 著者は、ネットワークやデータセットの規模を拡大することでさらなる改善が可能だが、そのぶん計算コストが増え、推論レイテンシが発生しうると示唆しています。
  • 過去33年間のディープラーニングの進歩を振り返りつつ、著者は基本原理は同じままである一方、データセットとモデルの規模は大幅に増大し、モデル訓練に必要な時間は大きく短縮されたと指摘しています。
  • 著者は2055年までにニューラルネットワークはさらに巨大化し、ほとんどのアプリケーションはネットワークの一部を軽くファインチューニングするか、プロンプトエンジニアリングを行うか、あるいはデータやモデルをより小さく特定用途向けの推論ネットワークへ蒸留することで実現されるだろうと推測しています。

1件のコメント

 
GN⁺ 2023-08-27
Hacker Newsの意見
  • この記事は、過去33年間におけるディープニューラルネットワークの進化を論じ、次の33年に関する予測を示しています。
  • このネットワークの当初の学習は Sun 4/260 ワークステーションで3日間かけて行われ、約14400ワット時のエネルギーを消費しました。今日では、同じ学習を MacBook でわずか90秒で実行でき、使用するのはたった0.5ワット時で、エネルギー効率はほぼ30000倍向上しています。
  • 一部の読者は、2055年に関する記事の予測を「メタ線形的」だと批判しており、依然として現在の日付を原点とする「ワールドライン対称性」を反映していると主張しています。彼らは、予想外のブレークスルーや障害が数多く起こり得るほど十分に長い時間枠だと述べています。
  • 次の33年間も、より多くのデータとより大きな計算能力で同じことを続けるのがよいのか、それとも新しいアプローチを探るべきなのかについて議論があります。
  • 一部の読者は今後33年間におけるコンピューティングのスケーラビリティに疑問を呈する一方で、別の読者は、過去と同じようにスケールする必要はないと主張しています。
  • この記事は、機械学習の基礎を直接的かつ簡潔な形で掘り下げている点で、多くの論文が新しく複雑なアーキテクチャで再現しにくい成果でページを埋めているのとは対照的だとして評価されています。
  • 読者たちは、最も根本的な変化はどのモデルが学習されているかにあり、小さな画像から人類の言語的・視覚的コミュニケーションへと移っていると指摘しています。
  • この記事は、ニューラルネットワークへの関心の高まり、低下、そして復活を目撃してきた一部の読者に郷愁を呼び起こしています。
  • 技術の未来に興奮を示す読者がいる一方で、AI が支配する世界で人間が無意味な存在になる可能性に懸念を示す読者もいます。
  • この記事は、ハードウェアの進歩が AI の進化において重要な役割を果たしていることを示しており、一部の読者は将来の進歩がそれほど劇的ではないかもしれないと主張しています.