6 ポイント 投稿者 GN⁺ 2024-03-18 | 1件のコメント | WhatsAppで共有
  • 314B(3140億)パラメータのMixture-of-ExpertsモデルのWeightsとアーキテクチャをリリース
  • 2023年10月に終了したGrok-1事前学習段階のRaw Base Model
    • モデルが会話のような特定タスク向けにファインチューニングされていないことを意味する
  • モデル詳細
    • 特定タスク向けにファインチューニングされていない、大量のテキストデータで学習されたベースモデル
    • 与えられたトークンに対して重みの25%が有効化される、314BパラメータのMixture of Expertsモデル
    • 2023年10月に、JAXとRust上のカスタム学習スタックを使用してxAIによってゼロから学習された

Grok-1リポジトリの使い方

  • JAXのサンプルコードを含むGrok-1リポジトリは、Grok-1オープンウェイトモデルを読み込んで実行するために使われる。
  • チェックポイントをダウンロードしてcheckpointディレクトリ内にckpt-0ディレクトリを配置した後、pip install -r requirements.txtpython run.pyを実行してコードをテストする。
  • スクリプトはチェックポイントを読み込み、テスト入力に対してモデルからサンプルを生成する。
  • モデルのサイズが非常に大きいため(314Bパラメータ)、十分なGPUメモリを備えたマシンが必要。
  • このリポジトリのMoE(Mixture of Experts)レイヤー実装は効率的ではなく、モデルの正確性を検証するためにカスタムカーネルを避ける目的で選ばれている。

重みのダウンロード

  • torrentクライアントと以下のリンクを使って重みをダウンロードできる: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

ライセンス

  • このリリースに含まれるコードとGrok-1の重みは、Apache 2.0ライセンスの下でライセンスされている。
  • ライセンスは、このリポジトリのソースファイルとGrok-1モデルの重みにのみ適用される。

GN⁺の見解

  • Grok-1は大規模パラメータを持つモデルであり、機械学習の研究者やエンジニアが高性能計算資源を活用して実験できる良い機会を提供する。
  • オープンソースライセンスであるApache 2.0を採用することで、コミュニティはモデルを自由に使用、修正、配布でき、これは協業とイノベーションを促進しうる。
  • モデルのサイズが非常に大きいため、実際にこのモデルを実験するには相当な計算資源が必要であり、これはアクセス性を制限する可能性がある。
  • MoEレイヤーの非効率な実装は研究目的では有用かもしれないが、実際の製品やサービスに適用する際には最適化された実装を探す必要があるだろう。
  • 類似の機能を提供する他のオープンソースプロジェクトとしては、GoogleのTensorFlowやFacebookのPyTorchがあり、これらも大規模モデルの実験に利用できる。

1件のコメント

 
GN⁺ 2024-03-18
Hacker News のコメント
  • 8x86B モデルは、現時点で最大のオープンモデルのように見える。このモデルがどれだけ多くのトークンで訓練されたのかを知るのは興味深い。

    • 大規模なテキストデータで訓練されたベースモデルであり、特定のタスク向けにはファインチューニングされていない。
    • Twitter で事前に披露されたバージョンは、生の重みとは異なる振る舞いをする指示チューニング済みモデルだったと推測される。
  • このモデルを、Mistral のようなオープンソースの代替ではなく、あえて使いたい理由は何だろうか?

  • このモデルはネイティブ FP8 をサポートする最初の主要モデルなのだろうか? ハードウェアが対応していれば大きな利点になりそうだが、なぜこれまで誰もやってこなかったのか気になる。

  • このモデルがサポートする言語は何か?

  • ブログ記事: Grok-OS

    • 314B パラメータのうち 86B がアクティブ。
    • 8 つの Mixture of Experts のうち 2 つがアクティブ。
    • 重みとアーキテクチャは Apache 2.0 ライセンスの下で公開されている。
  • 昨年公開されたブログ記事: Grok

    • Claude 2、GPT-3.5、GPT-4 と比較したベンチマークを含む。
    • GPT-3.5、Mixtral、Qwen-1.5-72B に近い能力を持つが、オープンウェイトモデルとしてははるかに大規模。
  • パラメータ数と Mixture of Experts の観点で、上限や収穫逓減点に到達するのはいつなのだろうか?

  • モデルカードはどこかにあるのだろうか? このモデルが何で訓練されたのか知りたい。

  • 微妙な点として、マスクは「オープンソース」と言っていたが、実際に得られたのは「オープンウェイト」だった(それでも何もないよりはずっと良いので、とてもありがたい)。

  • 他のリポジトリは Qdrant のフォークだけだ。