2024年にLLMについて学んだこと

(simonwillison.net)

22 ポイント投稿者 GN⁺ 2025-01-01 | 1件のコメント | WhatsAppで共有

Simon Willisonによる、2024年のLLMに関する全体的な変化の要約

GPT-4の限界を完全に超えた
一部のGPT-4級モデルが私のノートPCで動作する
LLMの価格が暴落、競争と効率化が生んだ変化
マルチモーダルなビジョンの普及、音声と動画が新たに登場
音声とライブカメラモード、現実になったSF
プロンプトベースのアプリ生成、すでに日常化した技術
最高クラスのモデルへの無料アクセス、数か月で終了
「エージェント」、いまだ現実化していない概念
評価（Evals）の重要性
Apple Intelligenceは期待外れだが、MLXライブラリは優秀
推論スケーリング「Reasoning」モデルの台頭
現在最高のLLMは、中国で600万ドル未満で学習されたのか？
環境への影響の改善
環境への影響、さらに悪化
2024年、「Slop」の年
合成学習データの驚くべき効果
LLMの利用がより難しくなった2024年
知識の偏った分布
LLMに対する、より良い批判が必要

# GPT-4の限界を完全に超えた

2023年の状況: GPT-4は最高の言語モデルと評価され、他のAI研究所はこれを超えられていなかった。OpenAIが持つ技術的秘密に注目が集まっていた。
2024年の変化: 18の組織がGPT-4を上回るモデルを発表。現在、Chatbot ArenaのリーダーボードにはGPT-4-0314（2023年3月公開）を超える70のモデルが登録されている。
主要モデルと技術的進歩
- Google Gemini 1.5 Pro: 2024年2月公開
  - GPT-4級の出力と新機能を提供
  - 100万（後に200万）トークンの入力コンテキスト長をサポート
  - 動画入力機能を導入
  - 長文入力の処理により、コーディング問題の解決や書籍全体の分析が可能
  - Google I/O 2024基調講演で重要な発表として扱われた
- Anthropic Claude 3シリーズ:
  - Claude 3 Opus: 2024年3月公開、高い性能で注目を集めた
  - Claude 3.5 Sonnet: 6月公開、10月22日にアップグレード版を発表
  - アップグレード後もバージョン番号は3.5のままで、ファンの間ではClaude 3.6と呼ばれている
コンテキスト長の拡張
- 2023年: ほとんどのモデルは4,096〜8,192トークンをサポート。Claude 2.1は20万トークンで例外的だった
- 2024年: 主要モデルが10万トークン以上をサポートし、Google Geminiシリーズは最大200万トークンをサポート
- 長い入力データを処理してさまざまな問題を解決できる
- 書籍全体の分析や、サンプルコードに基づく問題解決に有利
GPT-4を超えたモデルと組織
- Chatbot Arenaリーダーボード基準でGPT-4-0314より高性能なモデルを保有する組織:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI など18組織
- リーダーボードでGPT-4-0314は現在70位圏に位置

# 一部のGPT-4級モデルが私のノートPCで動作する

使用機材: 2023年発売の64GB RAM搭載M2 MacBook Pro。約2年前の機材で、2023年3月に初めてLLMを動かしたのと同じノートPC。
性能の変化: 当初はGPT-3級モデルをかろうじて動かせる程度だったが、今ではGPT-4級モデルも実行可能。
- Qwen2.5-Coder-32B: 2024年11月、Apache 2.0ライセンスのコーディング特化モデル。
- Meta Llama 3.3 70B: 2024年12月に公開されたGPT-4級モデル。
重要性: GPT-4級モデルが、4万ドル超のGPUを搭載したデータセンターのサーバーではなく、ノートPCでも動作するのは驚くべきこと。
- 64GB RAMをほぼ使い切るため、他の作業は難しい。
- モデル効率の向上によってこの実行が可能になった。過去1年間の最適化の成果と考えられる。
- それでも、効率性はさらに改善の余地が大きいと期待される。
Meta Llama 3.2モデル: GPT-4級ではないが、1Bと3Bサイズのモデルは小型にもかかわらず優れた性能を発揮。
- Llama 3.2 3B: 無料のMLC Chat iOSアプリで実行可能。
- 2GB未満のサイズでiPhone上で動作し、毎秒20トークンの生成速度。
- 例: 「データジャーナリストが地元の陶芸家と恋に落ちるNetflixのクリスマス映画のあらすじ」と依頼すると、基本的だが適切な回答を生成。
  - タイトル: 「Love in the Clay」
  - あらすじ: 主人公Jessicaが故郷Willow Creekに戻り、地域の歴史とジェントリフィケーションの影響を調査しながら物語が展開する。
- 出力内容は平凡だが、iPhoneでもこうした作業が可能だという点が興味深い。

# LLMの価格が暴落、競争と効率化が生んだ変化

2023年末の価格: OpenAIの主要モデルの価格は次のとおりだった。
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
2024年の価格変化:
- OpenAI o1: $30/mTokで最も高価なモデル
- GPT-4o: $2.50/mTok（GPT-4比で12分の1の価格）
- GPT-4o Mini: $0.15/mTok（GPT-3.5比で約7分の1の価格で、しかもより高性能）
- Anthropic Claude 3 Haiku: $0.25/mTok（3月公開、Anthropicで最も安価なモデル）
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok（GPT-3.5 Turbo比で27分の1の価格）
価格下落の要因:
- 競争の激化: 多数のモデル提供者が市場に参入し、価格競争が激化。
- 効率性の向上: モデルの学習と推論プロセスの最適化により、エネルギー消費が減少。
  - 個々のプロンプト実行におけるエネルギーコストへの懸念も低下。
効率性と環境コスト:
- エネルギー効率の向上で環境面の懸念は軽減。
- しかし、データセンター建設の環境への影響は依然として問題。
実際の活用コスト計算:
- Google Gemini 1.5 Flash 8Bを使って個人の写真ライブラリ（68,000枚）の説明を生成するコストを計算。
  - 写真1枚あたり260 input tokens、100 output tokensが必要。
  - 合計17,680,000 input tokens * $0.0375/million = $0.66
  - 合計6,800,000 output tokens * $0.15/million = $1.02
  - 総コスト: $1.68で68,000枚の写真を処理可能。
説明の例:
- 写真: California Academy of Sciencesで、2匹の蝶が赤いトレーで餌を食べている。
- 生成された説明:
  - 赤いトレーの上で2匹の蝶が果物を食べている写真。
  - 蝶の色や模様まで詳細に描写。
- コスト: 約0.0024セント、400分の1セント未満。
2024年の最大の変化の一つ:
- 価格下落とエネルギーコスト低下により、LLMの有用性が最大化されつつある。

# マルチモーダルなビジョンの普及、音声と動画が新たに登場

2024年の主要トレンド: マルチモーダルLLM（テキストに加えて画像、音声、動画など多様な入力を処理）が一般化。
- 2023年の事例:
  - OpenAI GPT-4 Vision: 2023年11月のDevDayでリリース。
  - Google Gemini 1.0: 2023年12月7日に発表。
- 2024年の主要リリース:
  - Anthropic Claude 3シリーズ: 3月にリリース。
  - Google Gemini 1.5 Pro: 4月にリリース（画像、音声、動画処理をサポート）。
  - Qwen2-VL: 9月にリリース。
  - Mistral Pixtral 12B: 9月にリリース。
  - Meta Llama 3.2: 9月にリリース（11Bおよび90Bのビジョンモデル）。
  - OpenAIの音声入出力機能: 10月に追加。
  - Hugging Face SmolVLM: 11月にリリース。
  - Amazon Novaの画像および動画モデル: 12月にリリース。
ツールとマルチモーダル対応:
- 2024年10月、個人的に使っているLLM CLIツールをマルチモーダルモデル対応にアップグレード。
- 画像や音声、動画といった添付ファイルを処理できるプラグインを追加。
マルチモーダルモデルの重要性:
- LLMの改善が鈍化したという批判は、マルチモーダルモデルの進歩を見落とした意見に見える。
- 画像、音声、動画を活用したプロンプト実行は、新たな活用可能性を開く興味深い進展。

# 音声とライブカメラモード、現実になったSF

初期の音声モードの登場:
- 2023年9月、ChatGPTモバイルアプリに音声会話機能が追加。
- Whisper（Speech-to-Text）とtts-1（Text-to-Speech）モデルを活用していたが、モデル自体は実際にはテキストのみを処理。
GPT-4o音声モード:
- 2024年5月13日に発表された新しい音声モードで、GPT-4oモデルは真のマルチモーダルとして音声入力と自然な音声出力をサポート。
- デモではScarlett Johanssonに似た声を使用したが、論争の後、その音声は商用製品には含まれなかった。
- 音声モードのリリース遅延で混乱が生じたが、8〜9月にChatGPT Advanced Voiceモードとして段階的に提供された。
  - 使用体験: 散歩中に音声モードで会話し、コンテンツの質が大きく向上した。
  - OpenAI Audio APIを活用した実験で、さまざまな音声機能を確認。
音声モードの特徴:
- Advanced Voiceモードでは多様なアクセントを表現可能。
- 例: カリフォルニアブラウンペリカンの太いロシア訛りでスペイン語を話すよう依頼。
他社のマルチモーダル音声モデル:
- Google Gemini: 音声入力をサポートし、ChatGPTに似た音声会話が可能。
- Amazon Nova: 音声モードを事前発表（2025年第1四半期にリリース予定）。
- Google NotebookLM（2024年9月リリース）: 入力内容をもとに、2人の「ポッドキャスト司会者」の会話を生成。カスタム命令も可能。
ライブ動画モードの登場:
- 2024年12月、ChatGPT音声モードにカメラフィード共有機能が追加。
- リアルタイムでカメラフィードについて会話可能。
- Google Geminiも同時期に同様の機能をプレビュー提供。
APIのアクセス性:
- OpenAIとGoogleはいずれも、これらの機能向けのAPIを提供。
- OpenAIは12月にWebRTC APIを発表し、音声ベースのWebアプリ開発を簡素化。

# プロンプトベースのアプリ生成、すでに日常化した技術

2023年のGPT-4の可能性:
- GPT-4を活用して、HTML、CSS、JavaScriptによる完全なインタラクティブアプリを生成可能。
- Reactのようなツールも、追加のビルドメカニズムを通じて統合可能。
2024年のClaude Artifacts導入:
- AnthropicのClaude 3.5 Sonnet発表の中盤で紹介された新機能。
- ユーザーはClaudeインターフェース内でそのまま実行できるオンデマンドアプリを生成可能。
- 例: Claudeで生成したURL抽出ツール。
  - URLを入力すると、抽出されたリストをすぐに表示。
- Claude Artifactsで1週間のうちに14個の小さなツールを作った経験を共有。
競合各社の類似機能導入:
- GitHub Spark: 2024年10月発表。
- Mistral Chat Canvas: 2024年11月に追加。
- Val TownのSteve Krause: Cerebrasモデルを使い、毎秒2,000トークンの処理速度でリアルタイムのアプリ修正を実現。
- Chatbot Arenaチーム: 12月に、2つのモデルで同じアプリを生成して投票する新しいリーダーボードを導入。
自分自身のプロジェクト:
- Datasetteプロジェクトで、プロンプトを使ってカスタムウィジェットやデータ可視化を生成し、反復作業を可能にする開発を進めている。
- uvを活用し、単一のPythonプログラムを書く類似パターンも実装。
2025年の展望:
- ブラウザのサンドボックス問題が解決されれば、さまざまな製品にこの機能が標準搭載される可能性が高い。

# 最高性能モデルへの無料アクセス、数か月で終了

2024年初期の無料提供:
- GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro――当時最高だった3つのモデルが、ほとんどのユーザーに無料で提供された。
- OpenAIは2024年5月にGPT-4oを無料公開。
- Claude 3.5 Sonnetは6月のリリースと同時に無料利用が可能だった。
- それ以前、無料ユーザーがアクセスできるのは主にGPT-3.5級のモデルだったが、この期間には高性能LLMの真の実力を体験する機会が提供された。
無料アクセスの終了:
- OpenAIがChatGPT Proをリリースし、無料アクセスは終了。
- ChatGPT Proは月額200ドルのサブスクリプション料金を要求し、最も強力なモデルであるo1 Proにアクセスできる。
今後の見通し:
- o1シリーズの主な特徴は、より多くの計算リソースを使ってより良い結果を提供すること。
- このようなコスト構造のため、最高性能モデルへの無料アクセスの時代が再び訪れる可能性は低い。

# 「エージェント」、いまだ現実化していない概念

用語の曖昧さ:
- 「エージェント」という用語には単一で明確な定義がなく、ユーザーごとに意味が異なる。
- 一般的には次の2つのカテゴリに分かれる。
  - ユーザーの代わりに仕事をこなす旅行代理店モデルのようなエージェント。
  - ツールにアクセスし、反復作業を行いながら問題を解決するLLMベースのエージェント。
- 「自律性（autonomy）」という用語もしばしば使われるが、明確な定義がないまま混乱を増している。
概念上の限界:
- 「エージェント」は依然として「まもなく登場する」もののように見える概念にとどまっている。
- 211個の定義を収集し（Twitterで調査）、Gemini-exp-1206モデルで要約したものの、依然として明確な合意には至らなかった。
有用性への懐疑:
- エージェントの実用性は、LLMの「だまされやすさ（gullibility）」に起因する問題によって制限される。
- 真実と虚構を区別できなければ、旅行代理店、デジタルアシスタント、調査ツールなどは意味のある判断を下しにくい。
- 例: Google検索が、架空のファンフィクションWikiから「Encanto 2」という存在しない映画を誤って要約した事例。
プロンプトインジェクション（prompt injection）:
- だまされやすさに起因する問題で、2022年9月から議論されてきたが、2024年になっても大きな進展はない。
結論:
- エージェントに関する大衆的なアイデアは、事実上AGI（汎用人工知能）そのものに依存しているように見える。
- 信頼性を確保したモデルの開発は、依然として非常に困難な課題として残っている。

# 評価（Evals）の重要性

評価が中核技術として台頭:
- 2024年、LLMベースのシステムでは、優れた自動評価（Evals）を書くことが最も重要なスキルとして浮上した。
- 強力な評価ツールを備えていれば、新しいモデルをすばやく導入でき、より良い反復作業と信頼できる機能開発が可能になる。
Anthropicのアプローチ:
- Amanda Askell: 良いシステムプロンプトの秘訣はテスト駆動開発にある。
  - "システムプロンプトを書いてからテストを探すのではなく、テストを書き、それを通過できるシステムプロンプトを見つけること。"
- Claudeの開発では、このアプローチが重要な役割を果たした。
Vercelの事例:
- Malte Ubl: 当初はプロンプトを保護するために、複雑な前処理と後処理の方式を使っていた。
  - その後、プロンプトの単純さと評価、モデル、UXのほうがより重要だと気づき、方針転換した。
  - "評価のないプロンプトは、説明書のない壊れた機械のようなものだ。"
個人的な探求:
- 効果的な評価を実装する最適なパターンを見つけるために研究を進めている。
- 現時点では評価の重要性は強調されているものの、具体的な実装方法について優れたガイドは不足している。
- 個人的には "自転車に乗るSVGペリカン" ベンチマークを使ってきたが、これは適切な評価ツールの代替にはならない。

# Apple Intelligenceは期待外れだが、MLXライブラリは優れている

MacでのML利用体験の改善:
- 64GB RAMを搭載したMacは、CPUとGPUがメモリを共有できるため、理論上はモデル実行に適している。
- しかし、NVIDIA CUDAを優先するモデルやライブラリのせいで、Macユーザーには多くの制約があった。
MLXライブラリの革新:
- AppleのMLX（Apple Silicon向け配列フレームワーク）により、Mac上で優れた性能でさまざまなMLX互換モデルを実行できる。
- mlx-lm Python: MLX互換モデルをサポートし、性能も優秀。
- Hugging Faceのmlx-community: 必要な形式に変換された1,000以上のモデルを提供。
- Prince Canumaのmlx-vlmプロジェクト: Apple Silicon上でビジョンLLMを実行可能にする。
  - 最近ではQwenのQvQ実行にも使われた。
Apple Intelligenceへの失望:
- 2024年6月の発表時には、ユーザープライバシーを重視したLLM応用に焦点を当てている点で期待を集めた。
- 実際にリリースされた機能は弱く、最先端LLMの能力と比べて物足りない。
  - 例:
    - ニュース見出しを誤って要約する通知要約。
    - 有用性の低い文章作成支援ツール。
  - ただし、Genmojiは少し面白い機能と評価された。
Macユーザーの変化した見方:
- MLXのようなツールのおかげで、Macプラットフォームを選ぶことへの満足度は大きく高まった。
- 特にApple SiliconでのLLM実行環境が改善された。

# 推論スケーリング "Reasoning" モデルの台頭

新しいLLM形態の登場:
- 2024年第4四半期に、OpenAIのo1モデル（o1-preview、o1-mini）が9月12日に初めて発表された。
- モデルが問題を "考え" ながら解くよう設計された chain-of-thought 手法をさらに発展させた形だ。
o1モデルの特徴:
- "Reasoning tokens" を使って問題を推論し、この過程はユーザーが直接見ることはできないが、ChatGPT UIでは要約された形で確認できる。
- 学習時の計算能力増大だけでなく、推論時により多くの計算を使うことで性能向上が可能になる。
モデルの拡張可能性:
- より難しい問題を処理するために、推論時点で追加の計算資源を使う。
- これは既存のLLMモデルアーキテクチャを拡張する新しい方法だ。
後続モデルo3:
- 2024年12月20日に発表され、ARC-AGIベンチマークで印象的な結果を記録した。
- $1,000,000 を超える計算コストがかかった可能性がある。
- 2025年1月にリリース予定。極めて高い計算コストのため、実運用は限定的になりそうだ。
その他の主要モデル発表:
- Google: 12月19日、gemini-2.0-flash-thinking-exp を公開。
- Alibaba: 11月28日、QwQモデル（Apache 2.0ライセンス）を発表し、ローカル実行が可能。
  - 12月24日にはビジョン推論モデルQvQを発表し、こちらもローカルで動作する。
- DeepSeek: 11月20日、DeepSeek-R1-Lite-Previewモデルをチャットインターフェースとして提供。
関連研究と予想:
- AnthropicとMetaはまだ公式モデルを発表していないが、類似の推論スケーリングモデルを開発中である可能性が高い。
- Metaは12月に "Training Large Language Models to Reason in a Continuous Latent Space" という関連論文を発表した。
- 追加情報として、Arvind NarayananとSayash Kapoorによる Is AI progress slowing down? を推奨する。

# 現在最高のLLMは、中国で600万ドル未満で訓練されたのか？

主要ニュース:
- 2024年のクリスマスに、DeepSeek v3がHugging Faceで公開された（READMEファイルなしで掲載され、翌日にドキュメントと論文が追加された）。
- 685Bパラメータの大規模モデルで、MetaのLlama 3.1 405Bよりはるかに大きい。
- 公開ライセンスで提供されるモデルの中で最大規模。
性能:
- Claude 3.5 Sonnetと同等のベンチマーク性能。
- Chatbot Arenaでは7位で、Gemini 2.0およびOpenAI 4o/o1モデルのすぐ後ろにつけた。
- 公開ライセンスモデルの中では最高順位。
訓練コスト:
- DeepSeek v3: 2,788,000 H800 GPU時間で約 $5,576,000。
- Meta Llama 3.1 405B: 30,840,000 GPU時間で、DeepSeek v3の11倍のコストを使ったが、ベンチマーク性能はやや低い。
中国のGPU輸出規制の影響:
- 米国のGPU輸出規制が、訓練最適化を大きく促したように見える。
- DeepSeek v3のコスト効率の高い訓練は、こうした最適化の結果と評価されている。

# 環境への影響は改善

効率向上によるエネルギー消費の低下:
- モデル効率が大幅に向上したことで、プロンプト実行時のエネルギー使用量と環境への影響はここ数年で急減した。
- OpenAIはGPT-3時代と比べてプロンプトコストを100分の1に下げた。
- Google GeminiやAmazon Novaのような低コストモデル提供者も、損失なくプロンプト運用が可能だ。
個々のユーザーの観点:
- ほとんどのプロンプト実行によるエネルギー消費は、実際にはごくわずかな水準だ。
- 車で短距離を運転したり、YouTube動画を視聴したりするよりも環境への影響が小さい可能性がある。
訓練コストの低下:
- DeepSeek v3の600万ドル未満という訓練コストは、訓練コストが今後も下がり続ける可能性を示している。
- より少ない資源で効率的な訓練が可能になっている。
非効率なモデルとの比較:
- Llama 3の最大モデルの訓練コストは、ニューヨークからロンドンまで満席の商業便数便分のエネルギーコストに相当する。
- しかし、いったん訓練が完了すれば追加コストなしで何百万人も利用できるため、長期的には効率的だ。

# 環境への影響はさらに悪化

大規模データセンター建設競争:
- Google、Meta、Microsoft、Amazonなどの主要企業が、将来のモデル需要を満たすために数十億ドルを投じてデータセンターを建設中。
- こうしたインフラ拡張は、電力網と環境に大きな影響を及ぼす。
- 新たな原子力発電所の建設も議論されているが、実現には数十年かかる可能性がある。
インフラ必要性をめぐる論争:
- DeepSeek v3の600万ドルの学習コストとLLM価格の下落は、こうした拡張が必ずしも必要ではない可能性を示唆している。
- しかし、「インフラを構築しなかったことが後になって誤った判断だったと判明する」リスクを引き受ける経営者はほとんどいない。
歴史的類似性:
- 1800年代に世界中で鉄道網が整備された時期の事例と比較できる。
- 莫大な投資と環境への影響を伴い、多くの路線が重複して無駄な結果を招いた。
- その結果、複数の金融危機を引き起こした:
  - 1873年恐慌、1893年恐慌、1901年恐慌、英国の鉄道狂時代（Railway Mania）。
- インフラは残ったが、大規模な倒産と環境被害も伴った。
現在への教訓:
- データセンター競争は有用なインフラを残す可能性がある一方で、不要な拡張と環境被害を招くリスクもある。

# 2024年、「Slop」の年

「Slop」の定義:
- AIが生成した望まれず、レビューもされていないコンテンツを指す用語として定着した。
- 「スパム」が望まれないメールを意味するようになったのと同様に、「slop」も辞書に載るほど広く使われるようになった。
用語の起源:
- @deepfatesのツイートから始まった議論:
  - 「今まさに『slop』が1つの用語として定着しつつある。」
- 2024年5月、この概念を拡張し、「依頼されておらず、レビューもされていないAI生成コンテンツ」と定義した。
メディアの反応:
- NY TimesとGuardianでの「slop」に関するインタビュー引用:
  - 「現代のAIについて簡潔に言い表せる用語が必要だ。『そのメールは無視して、スパムだから』と『その記事は無視して、slopだから』は、どちらも有用な教訓だ。」
slopの重要性:
- 生成AIの誤った使い方を簡潔に表現するのに役立つ。
- AIが効率的かつ責任ある形で使われるのを助ける。
2024年の文化的影響:
- 「Slop」はオックスフォードの今年の言葉候補に挙がったが、「brain rot」に敗れて選ばれなかった。

# 合成学習データの驚くべき効果

「モデル崩壊」の概念:
- 2023年5月の論文 The Curse of Recursion で初めて言及され、2024年7月に Nature でさらに注目を集めた。
- 主張: AI生成コンテンツがインターネットにあふれると、モデルが自らの出力を繰り返し学習して性能が低下するというもの。
- 現実: そのような崩壊は起きておらず、代わりに合成データを活用したモデル学習がますます一般的になっている。
合成データの利点:
- Phi-4 technical report で説明されている:
  - 合成データは有機的データの代替物ではなく、次のような直接的な利点をもたらす:
    - 構造化され段階的な学習:
      - 有機的データはトークン間の関係が複雑で間接的なため、学習が難しい。
      - 一方、合成データは言語モデルが以前のトークンに基づいて生成するため、推論パターンをより学びやすい。
    - 学習プロセスがより体系的で予測可能になる。
大きなモデルが小さなモデルを助ける事例:
- 大規模モデルがより小さなモデル向けに合成データを生成している:
  - DeepSeek v3: DeepSeek-R1が生成した「推論」データを使用。
  - Meta Llama 3.3 70B: 2,500万件を超える合成例でファインチューニング。
データ設計の重要性:
- LLM学習においてデータ設計が最も重要な要素として浮上している。
- 以前のようにインターネット全体のデータを無差別にかき集めて学習させる手法は、もはや使われていない。

# LLMの利用がより難しくなった2024年

LLMは複雑なツール:
- 表向きは簡単に見えるが、実際には深い理解と経験を必要とする「パワーユーザー向けツール」だ。
- 「チェーンソーのように複雑な道具が、包丁のように見えるよう偽装されている」という比喩で説明される。
2024年に問題が悪化:
- モデルはより強力になったが、依然として従来の限界や制約を抱えている。
- 多様なシステムが導入され、それぞれ異なるツール（Python、JavaScript、Web検索、画像生成など）をサポートする。
- ユーザーは各ツールの可能性と限界を理解してこそ、効果的に使える。
システム間の複雑さの増大:
- 例: ChatGPTでは2通りの方法でPythonを実行できる。
- 外部APIと通信するClaude Artifactを作るには、CSPおよびCORS HTTPヘッダーについて理解している必要がある。
- OpenAIのo1は限られた機能で動作する一方、GPT-4oはWeb検索とコードインタープリターをサポートする。
  - 同じChatGPT UI上で、この2つのモデルの機能差を理解しなければならない。
ユーザー体験の限界:
- LLMの基本的なチャットUIは、初心者をLinuxターミナルに放り込むのと同じようなユーザー体験を提供している。
- 多くのユーザーが、LLMの動作原理や可能性について誤ったメンタルモデルを形成している。
  - 例: ChatGPTのスクリーンショットを議論の証拠として使う非合理的な事例が増えている。
二重の問題:
- 誤用: LLMの不完全さにもかかわらず、それを万能ツールだと誤解するユーザー。
- 忌避: よく理解している人でさえ、LLMの欠陥ゆえに利用を完全にあきらめてしまう。
- LLMを効果的に活用するには、不完全でありながら強力な技術と協働する能力が不可欠だ。
教育コンテンツの必要性:
- ユーザー教育は重要だが、現状では不足している。
- AI関連の誇張されたTwitterスレッドに頼るのではなく、より信頼できる教育資料の整備が必要だ。

# 知識の偏在

知られていることと知られていないこと:
- ほとんどの人はChatGPTを知っているが、Claudeについて聞いたことがある人はごくわずかだ。
- この分野を積極的に追っている人々と、残りの99%との間には非常に大きな知識格差がある。
変化の速さ:
- 技術変化のスピードが知識格差をさらに深めている。
- ここ1か月でライブインターフェースが導入された:
  - 携帯電話のカメラで何かを指し示しながら、音声で会話できる。
  - サンタクロース役を演じさせる機能を選ぶこともできる。
- 自称テクノロジー愛好家でさえ、こうした機能を試していないことが多い。
社会的影響と必要性:
- こうした技術が現在と未来の社会に及ぼす影響を考えると、知識格差の大きさは健全ではない。
- これを改善するために、さらに多くの努力が必要だ。

# LLMに対する、よりよい批判が必要だ

技術への反感:
- Mastodon、Bluesky、Lobste.rs、Hacker News など一部のコミュニティでは、「LLMは有用だ」という意見だけでも議論が起きる。
- 技術に反感を抱く理由:
  - 環境への影響。
  - 学習データの倫理的問題。
  - 信頼性の不足。
  - 否定的な活用事例。
  - 仕事に及ぼす潜在的な影響。
批判の必要性:
- LLMは批判されて当然であり、問題を議論し、解決策を見つけ、責任ある利用方法を教育することが重要。
- ポジティブな活用がネガティブな影響を上回るよう助けることが目標。
懐疑的な視点の価値:
- 過剰な誇大宣伝(hype)はこの2年間で問題を悪化させてきた:
  - 誤情報と誇張された期待感が蔓延している。
  - 誤った判断が頻繁に下されている。
- 批判的思考は、この技術を正しく理解し活用するために不可欠。
意思決定者との対話:
- ツールのよい活用事例を認めつつ、直感に反する落とし穴を避ける方法を説明しなければならない。
- よい活用事例が存在しないと主張するのは、技術の潜在的価値を見落とすことになる。
正しいメッセージの伝達:
- 「環境を破壊し、いつも嘘をつく剽窃マシン」という断片的な批判は、問題の解決に役立たない。
- LLMの真の価値を発見し実現するには、直感に反するガイドと教育が必要。
責任ある役割:
- この技術を理解している人には、他の人々が正しく活用できるよう支援する責任がある。

1件のコメント

GN⁺ 2025-01-01

Hacker Newsの意見

多くの人はChatGPT 4を使ってLLMsは役に立たないと考えがちだが、Claude Sonnet 3.5は依然として有用でありうる
- LLMsの有用性は、ユーザーのコミュニケーション能力に大きく依存する
- 正確な質問と背景説明によって、LLMsの性能を最大化できる
- 退屈な作業をすばやく処理するのに役立つ
「エージェント」という用語には明確な意味がなく、混乱を招いている
- 「Agentic」という流行語は不快感を与えることがある
LLMの価格下落に対する懸念がある
- Geminiの無料ティアは依然として魅力的だが、信頼しにくい
- 2025年上半期に価格が再び上昇する可能性を懸念している
「エージェント」という概念は、いまだ明確に定義されていない
- 真の「エージェント」は自律性を含むべきだと考えている
LLMsの利用が難しくなったという主張には同意しない
- 選択肢は増えたが、使うこと自体が難しくなったわけではない
- 初心者にも依然として同じ指針が示されている
何が「良い」のかを判断しにくくなった
- ベンチマークの操作が増えて混乱している
- 個人的にテストフレームワークを構築しようとしている
LLMsの欠陥のために利用をやめた人たちがいる
- LLMsを最大限活用するには、不安定だが強力な技術とどう付き合うかを学ばなければならない
一部のGPT-4モデルはノートPCでも実行可能だ
- これは大規模なデータセンターが必須ではないことを意味する
- OpenAIの価値は過大評価されていた可能性がある
Appleの64GB DRAM利用が特別な理由を理解できない
- データセンターがRAMの製造能力の大半を占めているにもかかわらず、AppleがどうDRAMを調達しているのか気になっている
Google GeminiとAmazon Novaのコスト構造について混乱がある
- エネルギーコストを下回る価格で提供しているという主張と、そうではないという主張がある
LLMsは日常的な作業には有用ではないという意見がある
- 新しいLLMモデルは過大評価された改善にすぎないという主張
この業界のモラルと卓越性の基準が低いことを知った
「推論」を潜在空間／ニューラル空間に押し込んでいる現在の状態について疑問がある
- モデルが自分自身と対話することは最終出力との関連が薄く、非効率的だ

2024年にLLMについて学んだこと

# GPT-4の限界を完全に超えた

# 一部のGPT-4級モデルが私のノートPCで動作する

# LLMの価格が暴落、競争と効率化が生んだ変化

# マルチモーダルなビジョンの普及、音声と動画が新たに登場

# 音声とライブカメラモード、現実になったSF

# プロンプトベースのアプリ生成、すでに日常化した技術

# 最高性能モデルへの無料アクセス、数か月で終了

# 「エージェント」、いまだ現実化していない概念

# 評価（Evals）の重要性

# Apple Intelligenceは期待外れだが、MLXライブラリは優れている

# 推論スケーリング "Reasoning" モデルの台頭

# 現在最高のLLMは、中国で600万ドル未満で訓練されたのか？

# 環境への影響は改善

# 環境への影響はさらに悪化

# 2024年、「Slop」の年

# 合成学習データの驚くべき効果

# LLMの利用がより難しくなった2024年

# 知識の偏在

# LLMに対する、よりよい批判が必要だ

関連記事

1件のコメント

Hacker Newsの意見