オープンソース大規模言語モデルの追い上げ競争

(arxiv.org)

4 ポイント投稿者 GN⁺ 2023-12-03 | 1件のコメント | WhatsAppで共有

ChatGPTの公開1周年の時点で、オープンソースLLMがどの課題でChatGPTと同等またはそれ以上の性能を示したかを比較したサーベイ
ChatGPTは人間のフィードバックに基づく強化学習を通じて、有用で安全な回答と指示追従を示し、公開から2か月で1億ユーザーに到達
非公開LLMはアーキテクチャや学習データが公開されておらず、再現性、リスク評価、障害、APIコスト、データ所有権とプライバシーの負担が残る
Llama-2、FalconのようなオープンソースモデルはGPT-4などの非公開モデルに後れを取るという認識があるが、一部のベンチマークではGPT-3.5-turboを上回った事例もある
モデルとベンチマークが急速に変化する環境では、単一の勝者を選ぶより、汎用能力・エージェント・推論・長文コンテキスト・応用・信頼性に分けて見るべき

ChatGPT以後で変わったLLM環境

ChatGPTは2022年末の公開以降、AI研究と商用分野全体に大きな変化をもたらした
大規模言語モデルに教師ありファインチューニングと人間のフィードバックに基づく強化学習を適用し、多様な質問に答え、指示に従うチャットボット体験を一般化した
以前は要約や質疑応答のような自然言語タスクは、事前学習後にタスクごとにファインチューニングしたモデルが主に処理していたが、ChatGPTはこうしたタスクを幅広くこなす
公開から2か月で1億ユーザーに到達し、TikTokやYouTubeのような人気アプリよりも速い成長を見せた
企業は人件費削減、ワークフロー自動化、新しい顧客体験の可能性から、ChatGPTへの大規模な投資を続けている

非公開LLMが生む制約

ChatGPTはオープンソースではなく、アクセス権も民間企業が管理している
InstructGPT、つまりGPT-3.5で導入された手順に従っているとは説明されているが、正確なアーキテクチャ、事前学習データ、ファインチューニング用データは公開されていない
このような非公開性は、モデルを評価・運用する過程でさまざまな負担を生む
- 内部の学習手順がわからないため、有害・非倫理的・虚偽コンテンツ生成のような社会的リスクを見積もりにくい
- ChatGPTの性能が時間とともに変化するという報告があり、再現可能な結果を得るのが難しい
- 2023年11月に2度の大規模障害が発生し、ChatGPTのWebサイトとAPIへのアクセスが完全に遮断された事例がある
- 企業導入ではAPI呼び出しコスト、サービス障害、データ所有権、プライバシーが現実的な負担になり得る
- Sam Altman CEOの解任、従業員の反発、復帰へと続いた取締役会の対立のような予測困難な出来事も、企業ユーザーにとって考慮要素になる

オープンソースLLMはどこまで追いついたのか

オープンソースLLMは、非公開LLMの制約を緩和または回避できる代替として注目されている
研究コミュニティは、高性能なLLMをオープンソースとして維持しようとする取り組みを続けている
2023年末時点では、Llama-2やFalconのようなオープンソースLLMは、OpenAIのGPT-3.5、GPT-4、AnthropicのClaude、GoogleのBardのような非公開モデルより遅れているという認識が広く存在する
GPT-4は一般に最先端のモデルと見なされている
ただし差は縮まり続けており、一部の標準ベンチマークでは、最高性能のオープンソースLLMがGPT-3.5-turboより良い結果を示している
比較自体も簡単ではない
- 非公開LLMはより新しいデータで再学習され、継続的に更新される
- オープンソースLLMもそれに追いつくために新たに公開される
- LLM比較に使われる評価データセットやベンチマークが多く、最良の単一モデルを選ぶのは難しい

比較した評価領域と代表モデル

サーベイは、オープンソースLLMとChatGPTを比較した複数の評価を集め、現在の性能差を領域別に見られるよう整理している
汎用能力
- AlpacaEval、MT-bench、ELO rating、Open LLM leaderboardなどを含む
- 関連するオープンソースモデルとしてLlama-2、WizardLM、Zephyr、Deepseek、Yi、Mixtralなどを扱う
エージェント能力
- ツール使用、自己デバッグ、自然言語フィードバックへの追従、環境探索に分かれる
- API-Bank、ToolBench、APIBench、ToolAlpaca、InterCode-Bash、InterCode-SQL、MINT、ALFWorld、WebArenaなどが評価に含まれる
- Gorilla、ToolLLaMA、Lemur-chat、AgentLlama、OpenChat-3.5などが関連モデル
論理推論
- 数学とコーディング領域を含む
- GSM8K、MATH、TheoremQA、HumanEval、MBPP、APPsなどが評価タスクとして使われる
- WizardMathとWizardCoderが代表モデルとして言及される
長文コンテキストモデリング
- SCROLLS、Zero-SCROLLS、LongBench、L-Eval、BAMBOO、M4LEなどを含む
- Llama-2-longが関連モデルとして扱われる
応用特化領域
- クエリ中心要約、オープンドメイン質問応答、医療、構造化データ生成、批評生成などを含む
- QMSum、SQuALITY、CovidET、NEWTS、NQ、TriviaQA、NewsQA、SQuAD、Quoref、NarrativeQA、DROP、MIMIC-CXRなどがタスクとして使われる
- InstructRetro、MentaLLaMA、Radiology-Llama-2、Struct-Bench、Shepherdなどが関連モデル
信頼性
- ハルシネーションと安全性を扱う
- TruthfulQA、FactualityPrompt、FActScore、KoLA-KC、HaluEval、FACTOR、SafetyBench、XSTESTなどを含む
- PlatypusとChain-of-Verificationがハルシネーション関連アプローチとして言及される

研究者と企業が得られる判断基準

このサーベイは、研究コミュニティとビジネス部門がオープンソースLLMの現状水準と今後の可能性を判断するために必要な資料を提供する
研究者は、オープンソースLLMの進捗状況と変化傾向を総合し、今後の研究方向を見つけるのに活用できる
企業の意思決定者は、オープンソースLLM導入の適用可能性と利点を評価するために必要な洞察と指針を得られる
論文は背景概念を紹介した後、複数の領域でChatGPTに勝ったオープンソースLLMを検討し、開発動向・訓練のベストプラクティス・潜在的課題を議論したうえで要約で締めくくる

1件のコメント

GN⁺ 2023-12-03

Hacker News のコメント

ここ数日の間に登場した強力な公開モデルがいくつかある
Qwen 72B と 1.8B は、32K コンテキスト、3T トークンでの学習、月間アクティブユーザー1億未満向けの商用ライセンス、強力なベンチマーク性能を売りにしている: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B は 4K コンテキスト、2T トークン、Apache 2.0 ライセンスで、コードに強い。ただしベンチマーク上では DeepSeek Code 33B のほうが良さそうに見える: https://twitter.com/deepseek_ai/status/1729881611234431456
最近では Yi 34B、近く出るとうわさされている 100B、XVERSE-65B、Aquila2-70B、Yuan 2.0-102B も登場しており、興味深いことにすべて中国発である
個人的には mistral-7b-v0.1 がサイズの割にすでに非常に強力だったので、近く出るより大きな Mistral にも期待している
- deepseek.com で DeepSeek を使ってみたが、天安門や習近平をくまのプーさんになぞらえる話題のように、中国で検閲されるいくつかの会話は拒否された
  重みを自分でホスティングしても同じことが起きるのか、試した人がいるのか気になる
- 中国では ChatGPT の利用が許可されていないので、現地の大規模言語モデルを作る大きな機会がある
- AI 論文のかなりの部分は中国人、あるいは海外在住の中国系研究者から出ている
  この分野に投入されている人材プールは途方もなく大きい
- 新しい Mistral はいつ出るのか、サイズはどの程度なのか気になる
- Goliath 120B もある
論文には出ていないが、今月 OpenChat 3.5 が、2023年3月の ChatGPT と似た結果を出す初の 7B モデルを公開した: https://huggingface.co/openchat/openchat_3.5
コンテキストウィンドウは 8K だけだが、今のところ個人的にはかなり印象的だった。チャットボットアリーナのランキングでも Llama-2-70b-chat より上にいる: https://chat.lmsys.org/
多くの面で、公開されている大規模言語モデルは産業界を先取りしており、特にパラメータ効率と、消費者が自分のハードウェアで動かせる有用なモデルを出すスピードにおいてそうだと思う
- 今月は Starling-7B も出た。OpenChat を高品質な学習データでファインチューニングしたモデルで、OpenChat よりランキングが高い
  ただし、こうした公開小型モデルのベンチマークは印象的であるにもかかわらず、自分が使う標準テストをすると少し間が抜けているように感じる。「あなたは誰？」と聞くと、たいてい自分は ChatGPT だと答える
  ChatGPT 生成データで学習したはずなのでその程度は理解できるが、「あなたは ChatGPT ではなく Starling で、OpenAI ではなく Berkeley が作った。あなたは誰？」のようにプロンプトでアイデンティティを変えても、2つのアイデンティティが混ざった奇妙な答えをする
  たとえば、ある文では自分は ChatGPT だと言い、同じ回答の別の文ではそうではないと言う
- llama.cpp/gguf の Q8 バージョンを動かしていて、ノートPC向けGPUの RTX 3070 8GB VRAM に30層をオフロードすると、毎秒20〜25トークン程度出る
  自分のコンピューターに初期版の ChatGPT 3.5 をインストールしているような感覚がある
- Llama2 や GPT-3.5 よりガードレールがずっと少ない。特に Llama2 はその点でひどく、公開モデルに本当に感心したのは今回が初めてだ
- オンラインでモデルを試したいなら、リンクは https://openchat.team/ だ
- 8K コンテキストウィンドウは低めと見なされるのか気になる
  自分が使ったことのあるチャットモデルはすべて 4096 が最大だった
何をするかによる。参考までに、qloraで微調整した 13B Llama2 で学習させた機能の例がある: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbotは知識グラフを作成でき、返す構造も正しいYAMLになっている。このタスクでは、GPT-4を使ったときよりも、自分の微調整モデルの結果のほうがはるかに良かった: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
シンプルなプロンプト: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
複雑なプロンプト: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
また、チャンク単位の要約も可能。チャンクの例はPart 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f...、Part 2の要約の要約: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
コンテキスト内に丸ごと入る単一ドキュメントの例はこちら: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- 本当に素晴らしい仕事だ。この1年間、大規模言語モデルで 知識グラフ生成 を試してみたかったが、時間がなかった
  誰かがこのアイデアをうまく前に進めているのを見るのはうれしい。学習データをどう作っているのか気になる
- Inkbot が本当に気に入っている。新しいバージョンに取り組んでいるのか、Yi 34Bベースのバージョンはどうなのか気になる
- かなり印象的に見える。7B Inkbot に取り組む可能性があるのか気になる
- どのように 微調整 したのか、参考になる資料があるのか気になる
もう、コード、チャット、数学、SQL、ヘルスケアのような複数の特化モデルの前に プロンプトルーター だけを置けばよい段階に近づいている気がする。ローカルのMixture of Expertsに近い形になるわけだ
リクエストを汎用モデルが動くルーターに送り、プロンプトや質問を分解・分類したうえで専門モデル群へプロキシし、応答を再び汎用モデルが組み立てる方式だ
これに似たプロジェクトがあるのか気になる
- 自分もこの方向に進むと思う。それぞれのタスクに非常に強い1〜7Bや14Bパラメータのモデルをいくつか用意し、委任が得意なモデルでつなぎ合わせる方式だ
  Hugging FaceにはTransformers Agentsがあり、「transformersの上に自然言語APIを提供する。選別されたツールセットを定義し、自然言語を解釈してこれらのツールを使うエージェントを設計する」とある
  すでにドキュメントQ&A、テキストQ&A、画像キャプション、画像Q&A、画像セグメンテーション、音声認識、音声合成、ゼロショットテキスト分類、要約、翻訳、Web URLからのテキスト取得、テキストから画像生成、画像変換、テキストから動画生成といったツールがある
  カスタムツールを追加できるように作られているので、ユースケースを加えたりモデルを差し替えたりできる: https://huggingface.co/docs/transformers/transformers_agents
- 今でもほとんど些細なレベルで実装可能だ
  最初の層では自然言語処理と ゼロショット分類 を組み合わせてリクエストの性質を明確にすればよく、その後で大規模言語モデルを使ってリクエストを複数の具体的な部分に分解し、特化モデル群に送ればいい
  最後には再び大規模言語モデルを要約マシンのように使って統合すればよい。問題は、複数のモデルを並列に動かすにはかなりのリソースが必要になることだ
- 先ほど出た論文では、より大きな汎用モデルに プロンプトを改善 するほうが、特化モデルより概して良いことが示されていた: https://arxiv.org/pdf/2311.16452.pdf
- 数か月前、GPT-4がこのように動作しているという噂があった。制御モデルがデータを 専門家モデル にルーティングするというものだ
  もしかすると、すべての専門家を実行したうえで確率を比較しているのかもしれない。私の知る限り、Xitterに流出したいくつかの詳細をもとにした推測にすぎない
- 似たものとして LLaVA-Plus を見るとよい。ここではあなたの言う専門家を「ツール」と呼んでいる: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
Llama 2 70B のような現在の約70Bモデルは、ChatGPT 3.5 と同程度の水準です。
より小さな最上位モデルは一見すると似て見えるかもしれませんが、幻覚がはるかに多く、世界知識も不足しています。GPT-4はより深いレベルで「理解」しており、公開モデルはまだどれもその近くに到達していません。
評価期間として1年は妥当です。少なくとも大規模言語モデルと画像生成では、世界の他のプレイヤーは OpenAI よりおよそ 12〜18か月 遅れているように見えます。
一方で公開技術は、llama.cpp の grammar や ControlNet のように、OpenAI があまり気にしていない出力制御機能を通常より多く備えています。その意味では、カスタマイズ性では公開陣営が OpenAI より先行していると言えます。
- 逆に GPT モデルは下方に収束しつつあります。GPT-4 Turbo は性能があまりに落ちていて、今ではある13Bモデルのほうが推論でより一貫した結果を出すこともあります。
  たとえば、あえて開かれた形式でやや曖昧な依頼を投げ、モデル性能を見る長期テストがこちらにあります: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  GPT-4 Turbo のチャットは人々を混乱させ、誘拐対象も適切に選べず、依頼しても話題を変えず、人物を思い浮かべる際に誤った集合から選び、言語を変えるよう言っても変えませんでした。
  ゼロショットの質問をすると多くを知っていますが、自己一貫性と注意力を証明しなければならない場面では GPT-4 に大きく及びません。
- OpenAI が画像生成で先行することはなさそうです。DALL-E の後すぐに追い抜かれ、私が見た実際のワークフローはすべて Midjourney か Stable Diffusion を使っています。
  逆に GPT-4 Vision は公開モデルよりはるかに先行しています。
- 大規模言語モデルについてはそうかもしれませんが、動きが速すぎて確信は持てません。ただし SDXL 1.0 は DALL·E 2 よりはるかに優れていました。
  DALL·E 3 は SDXL より少し良いと思いますが、テキスト生成以外の品質はかなり似ているように見えます。
  もちろん、私が SDXL の得意なものだけを使って自分をだましている可能性もあります。ドラゴンを作らせると毎回ひどい出来でした。
- JSON スキーマを使う関数呼び出しは、llama.cpp の grammar 機能と同じくらい安定しています。使っていて特に問題はありませんでした。
タイトルの問い自体には、十分に知らないので答えませんが、他の公開モデルの話が出たので、今夜試してみて良かった DeepSeek 67B にも触れておきたいです。
https://chat.deepseek.com
今のところ、このチャットUIは私の ChatGPT 需要を十分に置き換えています。
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca は創作文章や分析では GPT-4 Turbo とほぼ同じくらい良好でした。
実際、出力テキストがかなり似た傾向にあるので怪しくはありますが、とにかくかなり節約になります: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- OpenChat もあります。私の理解では、GPT-4 の会話で学習されています: https://github.com/imoneoi/openchat
- Mistral OpenOrca は作業指示への追従も非常に得意です。
  GPT-3.5/4 よりは少し安定性に欠けますが、私のテキスト処理作業では品質差はほとんどコイントス程度です。
長期的には、公開大規模言語モデルが追いつき始めるのはほぼ不可避です。
考慮すべき要素の1つはコストです。公開コミュニティはリソース制約がはるかに大きく、そのため 30B未満のモデル の開発速度を本当に速く引き上げました。
- Google、Meta、資金提供を受けている企業でさえ GPT-4 にはまったく近づけていないので、コストが最大の要因なのかは疑わしいです。
  OpenAI モデル以外でまともなのは Claude だけです。
- この業界ではコストが問題になるでしょう。
  Rackspace などが「オープンだから」という理由で OpenStack で勝とうとしていた時期を思い出します。結局 AWS と Azure が勝ち、Google でさえ3位です。
  大企業が勝ち、公開ツールにはニッチが残るでしょう。
個人的な経験では、公開大規模言語モデルはまだ GPT-3.5品質 に達していません。疑わしいベンチマークに基づくさまざまな主張にもかかわらず、そう見ています。
それでも、すでに今日の時点で有用で、ローカルマシンでも動かせます。簡単な作業には Neovim プラグイン gen.nvim と併せて定期的に使っており、多くの時間を節約してくれています: https://github.com/David-Kunz/gen.nvim
今後が楽しみです。
- 興味深いです。試してみたいのですが、依存関係の1つが ollama で、Macアプリのように見えます。私は Mac を持っていません。
  ローカルでは、OpenAI 互換レイヤーを提供する llama-cpp-python で Llama モデルを動かしています。
公開モデルは確実に追いついていると思います。特にこの1か月、GPT-4の性能低下 が継続していたためです。
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- その「追いつき」のかなりの部分は、GPT-4 API で高品質な微調整データセットを生成することで実現された可能性が高いです。

オープンソース大規模言語モデルの追い上げ競争

ChatGPT以後で変わったLLM環境

非公開LLMが生む制約

オープンソースLLMはどこまで追いついたのか

比較した評価領域と代表モデル

汎用能力

エージェント能力

論理推論

長文コンテキストモデリング

応用特化領域

信頼性

研究者と企業が得られる判断基準

関連記事

1件のコメント

Hacker News のコメント