2 ポイント 投稿者 GN⁺ 2023-12-09 | 1件のコメント | WhatsAppで共有

1件のコメント

 
GN⁺ 2023-12-09
Hacker Newsの意見
  • Andrej Karpathyの意見:

    • MistralAIの新しいオープンソースLLM(Large Language Model)の紹介
    • params.json ファイル内の注目すべき設定:
      • hidden_dim / dim = 14336/4096 => MLP拡張は3.5倍
      • n_heads / n_kv_heads = 32/8 => マルチクエリは4倍
      • "moe" => Mixture of Expertsで上位2つのうち8倍
    • 関連コードはGitHubで確認可能
    • AI革命に関する大げさなプロモーション動画はない
    • NeurIPSという大規模なディープラーニングカンファレンスが近づいているため、多くのAIの動きが起きている
  • 他のLLMの話題:

    • Mistral/Yiは「neural alignment」という新しい技術でファインチューニングされたモデルを使い、Hugging Faceリーダーボードで他モデルを圧倒している
    • 7Bモデルが大半の70Bモデルに「勝っている」
    • テスト中の34Bモデルは非常に良さそう
    • この技術がMistral Moeに適用されれば、非常に優れたモデルになる可能性がある
    • デスクトップで実行可能なOSSがGPT-4に挑戦する重要な変曲点になりうる
  • Mistralのアプローチ:

    • Mistralは説明にあまり気を配らないが、このスタイルはGoogleの磨き込まれた企業発表よりも信頼感を与える
  • シンプルな発表方式:

    • 90年代式のシンプルな発表を好む
  • Mistralのモデル仕様:

    • Mixture of Experts構造を持つ params.json ファイルを公開
  • MistralとGoogleの発表方式の比較:

    • GoogleのGemini発表と対照的なMistralのモデル発表方式
    • MistralはStanfordのMegablocksをベースに学習されたように見える
  • Mistralのマーケティング戦略:

    • 他社がランディングページやプロモーション動画を重視する一方で、Mistralはシンプルにモデルを公開する
  • Mistralの公開情報:

    • Mixture of Expertsアーキテクチャを使用
    • 7Bパラメータを持つ8つのエキスパート
    • 重みは合計96GBで、一般的な家庭用GPUでは実行不可能