LLMに Stable Diffusion Moment が来ている

xguru · 2023-03-13T11:40:39+09:00

2022年8月のStable Diffuion(SD)の公開は重要な瞬間であり、これにより爆発的なイノベーションが今なお進行している最近ではControlNetが機能面でMidJourneyとDALL-Eを上回っている SDの公開は生成AIへの新たな関心を生み、11月のChatGPT公開によってその波はさらに大きくなった SDモーメントが大規模言語モデル(LLM)にも来ている今ではGPT-3級の言語モデルを個人のノートPCで実行できる LLaMA GPT-3のようなLLMは、画像生成モデルよりも構築と運用にずっと高いコストがかかる最良のモデルはOpenAIのような企業によって構築され、API経由でアクセスできるが、直接実行可能な形では公開されていないモデル自体も大きく、GPT-3モデルを入手できたとしても商用ハードウェアでは実行不可能(1枚あたり$8000を超えるA100級GPUが複数必要) ここ数年で多くの公開言語モデルが出ているが、その大半は自分で実行するのに適していない FacebookのLLaMAモデルとLLama.cppのおかげで、すべてが変わった LLaMAは完全なオープンではない。モデルにアクセスするには、いくつかの厳しい条件に同意する必要がある誰かがtorrentでダウンロード可能な非公式PRを上げたことで、ダウンロードが可能になった llama.cpp LLaMAが個人用ノートPCで動かないなら、それほど良いものではないブルガリアのGeorgi Gerganovは以前、OpenAIの音声認識モデルWhisperをC++へ移植したWhisper.cppを作った彼はLLaMAにも同じ作業を行った 4-bit量子化(モデルサイズを縮小して低速なハードウェアでも動作させる技術)を使い、MacBookでも実行できることを目標にした 7Bモデルを4GBに、13Bモデルを8GB以下にまでモデルサイズ自体も縮小した MacBookで非常によく動作する FacebookがGPT-3と競争可能だと主張する13BモデルをノートPCで実行できるようになったノートPCで生成されるテキストを見ていると、世界が再び変わるという感覚を覚える GPT-3級のモデルを自分の持つ機材で動かすには何年も待たなければならないと思っていたが、私は間違っていた。"未来はすでにここにある" これが最悪の状況だろうか？ SFのようなシナリオを懸念しているわけではない。ノートPCで動くLLMが「世界を支配するAGI」になるわけでもないしかし、この技術が好ましくない用途に使われる方法はいくつもあるスパム生成、自動化されたロマンス詐欺、荒らしやヘイトスピーチ、フェイクニュースや偽情報、自動化された過激化この瞬間までは、OpenAIのような企業が人々のこうしたモデルとの関わり方を制御するなどの薄い防御膜が存在していたしかし今では各自のハードウェアで実行できるため、そのような制御機能そのものが消えてしまうどうすれば良い目的に使えるだろうか？これは社会に大きな影響を与えると思う。私の優先順位は、この影響を前向きな方向へ導くことだ生成AIは有害だったり時間の無駄だと思う冷笑的な見方に陥りやすい私は個人的に毎日生成AIツールを使っている。実質的な生産性向上をもたらしたし、より重要なのは、自分が取り組むプロジェクトへの野心を広げてくれたことだ先週はChatGPTを使って、新しいプロジェクトに必要なAppleScriptを1時間で学んだ私はこの技術の前向きな活用方法を引き続き探求し、共有していくつもりだ次に見るべきこと Facebookがライセンス条件を緩和しない限り、LLaMAはこうしたモデルがコンシューマ向けハードウェアで動作することを示すPoCで終わってしまうだろう今や人々の間では、自分のデバイスでChatGPTのような機能を提供する完全にオープンな言語モデルをリリースする競争が始まっている

(simonwillison.net)

37 ポイント投稿者 xguru 2023-03-13 | 3件のコメント | WhatsAppで共有

2022年8月のStable Diffuion(SD)の公開は重要な瞬間であり、これにより爆発的なイノベーションが今なお進行している
最近ではControlNetが機能面でMidJourneyとDALL-Eを上回っている
SDの公開は生成AIへの新たな関心を生み、11月のChatGPT公開によってその波はさらに大きくなった
SDモーメントが大規模言語モデル(LLM)にも来ている
今ではGPT-3級の言語モデルを個人のノートPCで実行できる

LLaMA

GPT-3のようなLLMは、画像生成モデルよりも構築と運用にずっと高いコストがかかる
最良のモデルはOpenAIのような企業によって構築され、API経由でアクセスできるが、直接実行可能な形では公開されていない
モデル自体も大きく、GPT-3モデルを入手できたとしても商用ハードウェアでは実行不可能(1枚あたり$8000を超えるA100級GPUが複数必要)
ここ数年で多くの公開言語モデルが出ているが、その大半は自分で実行するのに適していない
FacebookのLLaMAモデルとLLama.cppのおかげで、すべてが変わった
LLaMAは完全なオープンではない。モデルにアクセスするには、いくつかの厳しい条件に同意する必要がある
誰かがtorrentでダウンロード可能な非公式PRを上げたことで、ダウンロードが可能になった

llama.cpp

LLaMAが個人用ノートPCで動かないなら、それほど良いものではない
ブルガリアのGeorgi Gerganovは以前、OpenAIの音声認識モデルWhisperをC++へ移植したWhisper.cppを作った
彼はLLaMAにも同じ作業を行った
4-bit量子化(モデルサイズを縮小して低速なハードウェアでも動作させる技術)を使い、MacBookでも実行できることを目標にした
7Bモデルを4GBに、13Bモデルを8GB以下にまでモデルサイズ自体も縮小した
MacBookで非常によく動作する
FacebookがGPT-3と競争可能だと主張する13BモデルをノートPCで実行できるようになった
ノートPCで生成されるテキストを見ていると、世界が再び変わるという感覚を覚える
GPT-3級のモデルを自分の持つ機材で動かすには何年も待たなければならないと思っていたが、私は間違っていた。"未来はすでにここにある"

これが最悪の状況だろうか？

SFのようなシナリオを懸念しているわけではない。ノートPCで動くLLMが「世界を支配するAGI」になるわけでもない
しかし、この技術が好ましくない用途に使われる方法はいくつもある
- スパム生成、自動化されたロマンス詐欺、荒らしやヘイトスピーチ、フェイクニュースや偽情報、自動化された過激化
この瞬間までは、OpenAIのような企業が人々のこうしたモデルとの関わり方を制御するなどの薄い防御膜が存在していた
しかし今では各自のハードウェアで実行できるため、そのような制御機能そのものが消えてしまう

どうすれば良い目的に使えるだろうか？

これは社会に大きな影響を与えると思う。私の優先順位は、この影響を前向きな方向へ導くことだ
生成AIは有害だったり時間の無駄だと思う冷笑的な見方に陥りやすい
私は個人的に毎日生成AIツールを使っている。実質的な生産性向上をもたらしたし、より重要なのは、自分が取り組むプロジェクトへの野心を広げてくれたことだ
先週はChatGPTを使って、新しいプロジェクトに必要なAppleScriptを1時間で学んだ
私はこの技術の前向きな活用方法を引き続き探求し、共有していくつもりだ

次に見るべきこと

Facebookがライセンス条件を緩和しない限り、LLaMAはこうしたモデルがコンシューマ向けハードウェアで動作することを示すPoCで終わってしまうだろう
今や人々の間では、自分のデバイスでChatGPTのような機能を提供する完全にオープンな言語モデルをリリースする競争が始まっている

3件のコメント

ffdd270 2023-03-13

MacBookで動作するという話がありますが、MacBookでのLLAMAの設定方法はこちらを参考にしてください: https://dev.l1x.be/posts/2023/03/12/using-llama-with-m1-mac/

（ほかの方がニュースとして投稿してくださっても大歓迎です 'smile' b）

dkmin 2023-03-15

共有ありがとうございます

xguru 2023-03-13

GeekNewsの常連であるSimon Willisonの文章です。
彼の主張どおり、こうした言語モデルを個人の機器で実行できるようになれば、プロジェクトに対する野心／実装範囲が広がると思います。
私もGeekNewsにChatGPT関連の機能を付けてみようとしても、APIコストのためにもう一度考え込んでしまうんですよね。
かなり実用的なレベルのLLMを個人の機器で動かせるようになったので、より多様な応用範囲が生まれるのではと期待しています。

今日配信したGeekNews Weeklyにも書きましたが、
技術トレンドが継続して語られるためには、その技術基盤の実際のビジネスが、どれだけユーザーの役に立つ水準で作られ、リリースされるかが重要ですからね。