17 ポイント 投稿者 xguru 2023-12-15 | 2件のコメント | WhatsAppで共有
  • SLM: Small Language Model
  • 2.7Bモデルでありながら、最大25倍大きいモデルと同等またはそれ以上の性能を示す
    • Mistral 7B、Llama-7B/13Bの性能を上回る
    • コーディングや数学のような多段階推論では、25倍大きいLlama-2-70Bモデルよりも優れている
    • Google Gemini Nano 2より小さいが、同等またはそれ以上の性能を発揮
  • GPT-4やLlama-2のようなモデルより少ない計算資源でも、テキスト生成や画像説明のような類似タスクを実行可能
  • 小型であるため、機械的な解釈可能性、安全性の改善、さまざまなタスクに対するファインチューニング実験を含め、研究者にとって理想的なプレイグラウンドである

2件のコメント

 
xguru 2023-12-15
 
xguru 2023-12-15
Hacker Newsの意見
  • GPT-3とPhi-2のパラメータ数の比較
    • GPT-3は1740億個のパラメータを持っている。
    • Phi-2は27億個のパラメータを持っており、GPT-3より約65倍小さい。
  • 学習データ量の比較
    • GPT-3は3000億個のトークンで学習された。
    • Phi-2は1兆4000億個のトークンで学習されており、GPT-3より約5倍多いデータで学習されている。
  • 人間の言語習得と人工知能
    • 人間の赤ちゃんが言語を学ぶには、約3000万個の「トークン相当」の学習データが必要である。
    • これは、人間の生物学的構造が言語習得に特化しており、可能な人間言語の仮説空間を狭める強力な「ガイド」や制約を持っていることを示唆している。
    • 言語モデルが、より少ないデータで学習できる同様の構造を見つけられるのか気になる。
  • Phi-2の重みが公開されているかどうか
    • Phi-2の重みは公開されているが、ダウンロードするにはAzure Studioにログインする必要がある。
    • Azure AI StudioでPhi-2のページを見つけ、「artifacts」タブをクリックすればダウンロードできる。
  • Phi-2の学習コスト
    • Phi-2は96基のA100 GPUで14日間学習された。
    • これは、学習コストがおよそ3万USD程度であることを意味する。
    • LLM(Large Language Model)の学習コストが自動車の購入費用より安くなれば、AIの民主化に大きく貢献しうる。
  • Phi-2の研究用途限定
    • 「研究用途のみ」という制限があるにもかかわらず、Phi-2の性能はさまざまなデバイスでのローカル利用の可能性を高めている。
    • 性能が優れていると主張されており、未来は明るい/恐ろしいという意見がある。
  • 小型モデル競争
    • 最近、小型モデル分野では激しい競争がある。
    • こうした小型モデルの主な目標は、スマートフォンやノートPCなどにローカル配備され、新しい世代のアプリやユーザーインターフェースを生み出すことにある。
  • Phi-2とMistral 7Bの性能比較
    • 27億規模のPhi-2が70億規模のMistral 7Bより優れた性能を示すのは印象的だ。
  • ウェブサイト接続の問題
    • ウェブサイトにアクセスできないが、キャッシュ版を通じて確認できる。
  • Phi-2の配布方式
    • Phi-1.5はhuggingfaceで配布されたが、Phi-2はAzure AI Studioにのみ追加され、開発者の登録を促している。
    • MicrosoftがhuggingfaceのようなML界のGitHubに参加しない理由について疑問がある。
  • Phi-2モデルのダウンロード可否
    • Phi-2モデルをローカルにダウンロードできるのか、それともAzureでのみ利用可能なのかという質問がある。