- 314B(3140億)パラメータのMixture-of-ExpertsモデルのWeightsとアーキテクチャをリリース
- 2023年10月に終了したGrok-1事前学習段階のRaw Base Model
- モデルが会話のような特定タスク向けにファインチューニングされていないことを意味する
- モデル詳細
- 特定タスク向けにファインチューニングされていない、大量のテキストデータで学習されたベースモデル
- 与えられたトークンに対して重みの25%が有効化される、314BパラメータのMixture of Expertsモデル
- 2023年10月に、JAXとRust上のカスタム学習スタックを使用してxAIによってゼロから学習された
Grok-1リポジトリの使い方
- JAXのサンプルコードを含むGrok-1リポジトリは、Grok-1オープンウェイトモデルを読み込んで実行するために使われる。
- チェックポイントをダウンロードして
checkpointディレクトリ内にckpt-0ディレクトリを配置した後、pip install -r requirements.txtとpython run.pyを実行してコードをテストする。
- スクリプトはチェックポイントを読み込み、テスト入力に対してモデルからサンプルを生成する。
- モデルのサイズが非常に大きいため(314Bパラメータ)、十分なGPUメモリを備えたマシンが必要。
- このリポジトリのMoE(Mixture of Experts)レイヤー実装は効率的ではなく、モデルの正確性を検証するためにカスタムカーネルを避ける目的で選ばれている。
重みのダウンロード
- torrentクライアントと以下のリンクを使って重みをダウンロードできる:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
ライセンス
- このリリースに含まれるコードとGrok-1の重みは、Apache 2.0ライセンスの下でライセンスされている。
- ライセンスは、このリポジトリのソースファイルとGrok-1モデルの重みにのみ適用される。
GN⁺の見解
- Grok-1は大規模パラメータを持つモデルであり、機械学習の研究者やエンジニアが高性能計算資源を活用して実験できる良い機会を提供する。
- オープンソースライセンスであるApache 2.0を採用することで、コミュニティはモデルを自由に使用、修正、配布でき、これは協業とイノベーションを促進しうる。
- モデルのサイズが非常に大きいため、実際にこのモデルを実験するには相当な計算資源が必要であり、これはアクセス性を制限する可能性がある。
- MoEレイヤーの非効率な実装は研究目的では有用かもしれないが、実際の製品やサービスに適用する際には最適化された実装を探す必要があるだろう。
- 類似の機能を提供する他のオープンソースプロジェクトとしては、GoogleのTensorFlowやFacebookのPyTorchがあり、これらも大規模モデルの実験に利用できる。
1件のコメント
Hacker News のコメント
8x86B モデルは、現時点で最大のオープンモデルのように見える。このモデルがどれだけ多くのトークンで訓練されたのかを知るのは興味深い。
このモデルを、Mistral のようなオープンソースの代替ではなく、あえて使いたい理由は何だろうか?
このモデルはネイティブ FP8 をサポートする最初の主要モデルなのだろうか? ハードウェアが対応していれば大きな利点になりそうだが、なぜこれまで誰もやってこなかったのか気になる。
このモデルがサポートする言語は何か?
ブログ記事: Grok-OS
昨年公開されたブログ記事: Grok
パラメータ数と Mixture of Experts の観点で、上限や収穫逓減点に到達するのはいつなのだろうか?
モデルカードはどこかにあるのだろうか? このモデルが何で訓練されたのか知りたい。
微妙な点として、マスクは「オープンソース」と言っていたが、実際に得られたのは「オープンウェイト」だった(それでも何もないよりはずっと良いので、とてもありがたい)。
他のリポジトリは Qdrant のフォークだけだ。