4 ポイント 投稿者 GN⁺ 2023-12-03 | 1件のコメント | WhatsAppで共有

ChatGPT公開1周年: オープンソース大規模言語モデルの追い上げ

  • 2022年末に公開されたChatGPTは、AI分野全般に大きな変化をもたらした。
  • 大規模言語モデル(LLM)を教師あり学習と人間のフィードバックによる強化学習で調整し、さまざまなタスクで人間の質問に答え、指示に従える能力を示した。
  • この成功以降、学界と産業界でLLMへの関心が高まり、多くのスタートアップがLLMに注力しており、オープンソースLLMは急速に発展し、特定のタスクではChatGPTと同等かそれ以上の性能を示すと主張されている。

研究とビジネスへの影響

  • クローズドソースのLLM(例: OpenAIのGPT、AnthropicのClaude)が一般的にはオープンソースモデルより優れた性能を示すものの、オープンソースLLMの進歩は速く、一部のタスクでは同等またはそれ以上の性能を達成したという主張がある。
  • このような進展は、研究だけでなくビジネスにも重要な影響を与える。

GN⁺の見解

  • ChatGPT公開1周年を迎え、オープンソース大規模言語モデルが急速に進歩しており、特定のタスクではChatGPTに近い、あるいはそれ以上の性能を示している点が重要だ。
  • これは研究とビジネスの両方に重大な影響を与え、AI技術の民主化とイノベーションの促進に寄与しうる。
  • この記事は、AI技術の進展とそれが社会に及ぼす影響に関心のある人にとって興味深い内容を提供する。

1件のコメント

 
GN⁺ 2023-12-03
Hacker Newsの意見
  • ここ数日で公開された大規模かつ強力なモデル:

    • Qwen 72B(および 1.8B): 32Kコンテキスト、3Tトークンで学習、月間ユーザー1億未満の商用ライセンス、ベンチマークで強力な性能
    • DeepSeek LLM 67B: 4Kコンテキスト、2Tトークン、Apache 2.0ライセンス、コード分野で強い(DeepSeek Code 33Bと比べても優れている)
    • 中国で公開されたモデル: Yi 34B(100Bのうわさあり)、XVERSE-65B、Aquila2-70B、Yuan 2.0-102B
    • OpenChat 3.5: 7bモデルで2023年3月のChatGPTに近い結果を達成、8kコンテキストウィンドウ、チャットボットアリーナのリーダーボードでLlama-2-70b-chatより上位
    • オープンソースLLMは、特にパラメータ効率と、消費者が自分のハードウェア上で実行できる有用なモデルを提供する点で業界をリードしている
  • 13億パラメータのllama2をqloraでファインチューニングした能力の実演:

    • Inkbotは知識グラフを生成し、YAML形式で適切な構造を返し、GPT4より良い結果を得る
    • シンプルなプロンプトと複雑なプロンプトの例を提供
    • チャンク要約機能も実行する
  • 複数の専門化モデル(コード、チャット、数学、SQL、ヘルスケアなど)の前にプロンプトルーターを置くことが必要になりそう:

    • 汎用モデルが実行中のルーターにリクエストを送る
    • プロンプト/質問が分解され、専門家モデルへ分類・転送される
    • 応答が戻り、汎用モデルによって組み立てられる
    • これに似たプロジェクトが進行中かどうかという質問
  • 現在の約70BモデルはChatGPT 3.5と同等レベルであり、小型モデルは最初は似て見えるかもしれないが、より高い割合でハルシネーションを起こし、世界に関する知識が不足している

  • GPT 4はより深いレベルで「理解」しており、オープンソースモデルはまだ比較にならない

  • オープンソース技術は、OpenAIが実装していない出力制御機能(例: llama.cppの文法やControlNet)を備えており、この点ではオープンソースがOpenAIより先行している

  • DeepSeek 67Bモデルを使ってみた経験の共有:

    • ChatGPTの必要性を置き換えられるほど十分である
  • Mistral OpenOrcaは創造的な文章作成/分析においてGPT4-turboとほぼ同等で、似たようなテキストを出力する傾向がある

  • 長期的にはオープンソースLLMが追いつくのはほぼ避けられず、オープンソースコミュニティはリソースがはるかに限られているにもかかわらず、30B未満パラメータモデルの開発速度を大きく高めている

  • 個人的な経験では、オープンソースLLMはまだGPT 3.5の品質には達していないが、すでに今日では有用であり、ローカルマシンで実行可能

  • Neovimプラグイン gen.nvim を使って簡単な作業を行い、多くの時間を節約している

  • 将来への期待感を表明

  • GPT4がこの1か月間継続的に後退しているため、オープンソースモデルが追いついてきていると確信している