Microsoft、2.7Bの小型ながら強力な言語モデルPhi-2を公開

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model 2.7Bモデルでありながら、最大25倍大きいモデルと同等またはそれ以上の性能を示す Mistral 7B、Llama-7B/13Bの性能を上回るコーディングや数学のような多段階推論では、25倍大きいLlama-2-70Bモデルよりも優れている Google Gemini Nano 2より小さいが、同等またはそれ以上の性能を発揮 GPT-4やLlama-2のようなモデルより少ない計算資源でも、テキスト生成や画像説明のような類似タスクを実行可能小型であるため、機械的な解釈可能性、安全性の改善、さまざまなタスクに対するファインチューニング実験を含め、研究者にとって理想的なプレイグラウンドである

(microsoft.com)

17 ポイント投稿者 xguru 2023-12-15 | 2件のコメント | WhatsAppで共有

SLM: Small Language Model
2.7Bモデルでありながら、最大25倍大きいモデルと同等またはそれ以上の性能を示す
- Mistral 7B、Llama-7B/13Bの性能を上回る
- コーディングや数学のような多段階推論では、25倍大きいLlama-2-70Bモデルよりも優れている
- Google Gemini Nano 2より小さいが、同等またはそれ以上の性能を発揮
GPT-4やLlama-2のようなモデルより少ない計算資源でも、テキスト生成や画像説明のような類似タスクを実行可能
小型であるため、機械的な解釈可能性、安全性の改善、さまざまなタスクに対するファインチューニング実験を含め、研究者にとって理想的なプレイグラウンドである

2件のコメント

xguru 2023-12-15

Weightsはこちら https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Hacker Newsの意見

GPT-3とPhi-2のパラメータ数の比較
- GPT-3は1740億個のパラメータを持っている。
- Phi-2は27億個のパラメータを持っており、GPT-3より約65倍小さい。
学習データ量の比較
- GPT-3は3000億個のトークンで学習された。
- Phi-2は1兆4000億個のトークンで学習されており、GPT-3より約5倍多いデータで学習されている。
人間の言語習得と人工知能
- 人間の赤ちゃんが言語を学ぶには、約3000万個の「トークン相当」の学習データが必要である。
- これは、人間の生物学的構造が言語習得に特化しており、可能な人間言語の仮説空間を狭める強力な「ガイド」や制約を持っていることを示唆している。
- 言語モデルが、より少ないデータで学習できる同様の構造を見つけられるのか気になる。
Phi-2の重みが公開されているかどうか
- Phi-2の重みは公開されているが、ダウンロードするにはAzure Studioにログインする必要がある。
- Azure AI StudioでPhi-2のページを見つけ、「artifacts」タブをクリックすればダウンロードできる。
Phi-2の学習コスト
- Phi-2は96基のA100 GPUで14日間学習された。
- これは、学習コストがおよそ3万USD程度であることを意味する。
- LLM（Large Language Model）の学習コストが自動車の購入費用より安くなれば、AIの民主化に大きく貢献しうる。
Phi-2の研究用途限定
- 「研究用途のみ」という制限があるにもかかわらず、Phi-2の性能はさまざまなデバイスでのローカル利用の可能性を高めている。
- 性能が優れていると主張されており、未来は明るい／恐ろしいという意見がある。
小型モデル競争
- 最近、小型モデル分野では激しい競争がある。
- こうした小型モデルの主な目標は、スマートフォンやノートPCなどにローカル配備され、新しい世代のアプリやユーザーインターフェースを生み出すことにある。
Phi-2とMistral 7Bの性能比較
- 27億規模のPhi-2が70億規模のMistral 7Bより優れた性能を示すのは印象的だ。
ウェブサイト接続の問題
- ウェブサイトにアクセスできないが、キャッシュ版を通じて確認できる。
Phi-2の配布方式
- Phi-1.5はhuggingfaceで配布されたが、Phi-2はAzure AI Studioにのみ追加され、開発者の登録を促している。
- MicrosoftがhuggingfaceのようなML界のGitHubに参加しない理由について疑問がある。
Phi-2モデルのダウンロード可否
- Phi-2モデルをローカルにダウンロードできるのか、それともAzureでのみ利用可能なのかという質問がある。

Microsoft、2.7Bの小型ながら強力な言語モデルPhi-2を公開

関連記事

2件のコメント

Hacker Newsの意見