17 ポイント 投稿者 GN⁺ 2024-02-29 | 2件のコメント | WhatsAppで共有

1ビット大規模言語モデルの時代: すべての大規模言語モデルは1.58ビットにある

  • 最近の研究であるBitNetは、1ビット大規模言語モデル(LLMs)の新しい時代を切り開いている。
  • この研究では、すべての単一パラメータ(または重み)が三値 {-1, 0, 1} である1ビットLLMの変種、BitNet b1.58を紹介している。
  • BitNet b1.58は、同じモデルサイズと学習トークンを持つフル精度(例: FP16またはBF16)のTransformer LLMと、複雑性および最終タスク性能の面で一致しつつ、レイテンシ、メモリ、スループット、およびエネルギー消費の面ではるかにコスト効率が高い。
  • さらに踏み込むと、1.58ビットLLMは、高性能かつコスト効率の高い新世代のLLMを学習するための新しいスケーリング則とレシピを定義している。
  • また、新しい計算パラダイムを可能にし、1ビットLLMに最適化された専用ハードウェアを設計できる道を開く。

GN⁺の見解

  • 1ビットLLMは、既存の大規模言語モデルよりもはるかに効率的な演算を可能にし、人工知能の研究および応用分野におけるエネルギー消費とコストを大幅に削減できる潜在力を持っている。
  • この技術が実際に広く採用されるには、既存のハードウェアおよびソフトウェアインフラとの互換性と統合の問題が重要な検討事項になるだろう。
  • 1ビットLLMによって得られる利点は、モデルのサイズと複雑さが増すほどいっそう重要になり、とくにリソースが限られた環境でAI技術を利用したい開発者にとって魅力的だろう。
  • 現在この分野ではGoogleのTPUのようなAI専用ハードウェアがすでに存在するが、1ビットLLM向けに特化したハードウェア設計は新たな市場機会を生み出す可能性がある。
  • この技術の導入によって期待できる実益は、モデルの精度と応答速度を維持しながら電力消費とコストを削減できることだが、実運用では既存モデルとの性能差、互換性の問題、新たなハードウェア要件などを考慮する必要がある。

2件のコメント

 
kuroneko 2024-02-29

これはすごく不思議ですね。浮動小数点ではなく、{-1, 0, 1} だけでも可能だったとは…。
今後どのように発展していくのか楽しみです。

 
xguru 2024-02-29

Hacker Newsのコメント

  • この研究結果に関する衝撃的な発見が2つある:

    • 既存の大規模言語モデル(LLM)のパラメータ値を、実数の代わりに三値(-1, 0, 1)に置き換えられる。
    • 行列積では、各ドット積の要素ごとの乗算を要素ごとの加算に置き換えられ、符号は値によって決まる。
    • 現在のハードウェアでこの方法を使うと、計算効率とメモリ効率が大幅に向上し、性能低下もない。
    • ハードウェアにこの方法を実装すれば、さらに大きな効率向上が見込める。
  • BitNet b1.58の性能と効率性:

    • BitNet b1.58は、3Bサイズからフル精度のベースラインモデルと同等の性能を示す。
    • モデル性能と推論コストに関する新しいスケーリング則を可能にする。
    • 13B BitNet b1.58は、3B FP16 LLMよりもレイテンシ、メモリ使用量、エネルギー消費の面で効率的。
    • 30B BitNet b1.58は7B FP16 LLMより、70B BitNet b1.58は13B FP16 LLMより効率的。
    • この論文は、性能低下なしで効率を改善するという、LLM効率化における大きなブレークスルーを示している。
  • 既存モデルをこの新しい方式に変換できるのかという疑問と、NVIDIAの株価に関する冗談。

  • AI応用分野におけるトランジスタの役割を見直す必要性についての考察:

    • AIではエントロピーの低下が大きな問題ではないため、利用可能な電圧範囲をもっと活用すべきだ。
    • トランジスタの役割を再考し、NANDゲートが根本的な構成要素ではない可能性を示唆している。
  • 浮動小数点表現に関するブログ記事と結び付けた、新しい表現方式への考察:

    • 浮動小数点標準で+0.0と-0.0を区別することが有用であると説明している。
    • LLM論文で使われた{-1, 0, -1}の値と関連付けて、2ビットの{-1, -0, 0, 1}表現が追加の利点をもたらすのかという疑問。
    • 他のLLM量子化論文で提案された2ビット量子化の値についての関心。
  • 研究結果の現実性に対する疑念と、Microsoft ResearchおよびUCASの著者確認後にその重要性を認識したという話:

    • 結果が良すぎて本当か疑ったが、著者を確認して本物だと気付いた。
    • エッジコンピューティング用途だけでなく、クラウドで高性能LLMを提供するコストも下げると予想される。
    • 長期的な経済的影響や、新たな競合の登場可能性について考えさせられる。
  • 「bit」と「trit」の説明、および三進コンピューティングの理論的可能性に関する議論:

    • 「bit」ではなく「trit」という用語を使い、三進コンピューティングの有望性を理論的に説明している。
    • 三進コンピューティングに関するソ連時代の研究や、理論的に理想的なe進法への言及。
  • GigaMLの新モデル学習計画と協力提案:

    • GigaMLが、llama.cppと互換性のある新しいモデルを学習する計画を発表。
    • 小型モデル(3-4B、1ビット、オープンソース)を最新のstack-v2データセットで学習する予定で、協力者を募集している。
  • 結果に対する懐疑的な見方と、再現の必要性を強調する声:

    • こうした改善に対する批判的な見方と、極端な量子化の試みについての過去の経験への言及。
  • LLM分野における主要なブレークスルーと、単一カードで120Bモデルを動かせる可能性への驚き:

    • FP16モデルと同等の性能と複雑さを達成しつつ、24GB VRAMの単一カードで120Bモデルを動かせる潜在性への驚嘆。