1 ポイント 投稿者 GN⁺ 2023-07-24 | 1件のコメント | WhatsAppで共有
  • 純粋なCで小さなLlama 2モデルを推論できます。
  • このコードは、PyTorchでLlama 2 LLMアーキテクチャを学習し、重みを生のバイナリファイルとして保存できるようにします。
  • その後、Cファイルに重みを読み込めます。
  • Cファイルは、かなり大きなモデルを非常に高速に実行できます。
  • このプロジェクトは週末プロジェクトとして作られたものであり、本番用ライブラリではありません。
  • 事前学習済みモデルをダウンロードして、Cで実行できます。
  • Cコードは生のトークンをストリーミングし、簡単なラッパーを使ってテキストに変換できます。
  • CコードはM1 MacBook Airで約100トークン/秒の速度で実行されます。
  • Cコードの出力は、モデルに基づいて生成されたテキストです。
  • このプロジェクトは特定のアプリケーションに焦点を当て、同じアーキテクチャをゼロから学習します。
  • ソースデータセットをダウンロードして事前にトークン化し、その後モデルを学習できます。
  • ハイパーパラメータを調整して、より良いモデルを作れます。
  • 比較のためにPyTorch推論スクリプトも実行できます。
  • 提供されているテストスクリプトを使って、詳細なテストを実行できます。
  • このプロジェクトでは、PyTorch学習で model.bin ファイルと model.ckpt ファイルが必要です。
  • テキストには、いくつかのToDoと質問が記載されています。
  • このプロジェクトはMITライセンスで提供されます。

1件のコメント

 
GN⁺ 2023-07-24
Hacker Newsの意見
  • アンドレイはOpenAIから給与を受け取りながら、Apple、Facebook、そしてオープンソース運動を支援しています。
  • 元のチェックポイントは、MacBook Air M1で予想より速く動作します。
  • 新しい44Mモデルはトレーニング中です。
  • LlamaモデルはEmscriptenを通じてブラウザで実行されます。
  • ローカルベースのLLMは、ローカル推論向けのウェブアプリ構築において興味深い技術です。
  • コードはWASI SDKでクリーンにビルドでき、Wasmランタイムで実行されます。
  • 詳細はアンドレイのTwitterで確認できます。
  • ニューラルネットワークの実行に必要なメモリ要件について議論されています。
  • Llama-2は創造的な作業には使えないことが明らかになりました。
  • 業界は、各リリースモデルごとに個別のソースコードへ移行する可能性があります。
  • 「1つのファイル内」あるいは「ヘッダーのみ」の魅力について議論されました。
  • yoloを減らすために、より良いテストを作ることについてのユーモラスなコメントがあります.