Caveman - 原始人調で Claude/Codex のトークンを節約する

(github.com/JuliusBrussee)

30 ポイント投稿者 GN⁺ 24 일 전 | 2件のコメント | WhatsAppで共有

原始人調で応答するよう強制し、平均で65〜75%の出力トークンを削減するスキル
Lite・Full・Ultra の3段階で圧縮の強さを調整し、技術的な正確さを保ったまま短く効率的な回答を生成
実際のベンチマークでは、React・PostgreSQL・Git 関連の説明がいずれもトークン使用量半分以下に減少
応答速度が約3倍向上し、読みやすさの改善、コスト削減の効果を同時に提供
Claude Code と Codexで簡単なコマンドによりインストール可能で、セッション全体を通して継続利用できる

Caveman 概要

Claude Code および Codex 向けのプラグインで、LLM の応答を「原始人調（caveman-speak）」に変換し、トークン使用量を約75%削減
技術的な正確さを保ちながら不要な語を取り除き、短く効率的な回答を生成
インストールは1行コマンドで可能で、すべてのセッションで継続利用できる
削減対象は出力トークンのみ — 思考・推論トークンには影響なし
削除対象:
- あいさつ・前置き: "Sure, I'd be happy to help"（8トークンの無駄）
- 理由説明の書き出し: "The reason this is happening is because"（7トークン）
- 推奨表現: "I would recommend that you consider"（7トークン）
- 冗長な導入: "Sure, let me take a look at that for you"（10トークン）
維持対象: コードブロック、技術用語（polymorphism など）、エラーメッセージ、git のコミット・PR メッセージ

Before / After 例

同じ技術的説明を短い文に圧縮して表現
- React コンポーネントの再レンダリング原因の説明: 69トークン → 19トークン
- 認証ミドルウェアのバグ説明: 75%以上のトークン削減
Lite / Full / Ultra の3段階で圧縮強度を調整可能
- Lite (/caveman lite): 不要な表現を削除し、文法は維持 — 専門的だが無駄がない
- Full (/caveman full): 標準の caveman モード — 冠詞を省略し、短文・断片中心
- Ultra (/caveman ultra): 最大圧縮 — 電報体ですべてを短縮

ベンチマーク

Claude API による実際のトークン使用量比較では平均65%削減
削減幅: 22%〜87%
- React 再レンダリングバグの説明: 1,180 → 159トークン（87%削減）
- PostgreSQL 接続プール設定: 2,347 → 380トークン（84%削減）
- Docker マルチステージビルド: 1,042 → 290トークン（72%削減）
- git rebase vs merge の説明: 702 → 292トークン（58%削減）
- コールバック → async/await リファクタリング: 387 → 301トークン（22%削減、最小効果）
出力トークンのみ減少し、思考・推論トークンはそのまま維持
主な利点は読みやすさの向上と応答速度の向上であり、コスト削減は副次的な効果

科学的根拠

2026年3月の論文 "Brevity Constraints Reverse Performance Hierarchies in Language Models": 大規模モデルに簡潔な応答を強制した場合、特定のベンチマークで正確性が26ポイント向上し、性能順位の逆転も確認
"Verbose not always better. Sometimes less word = more correct"
- 冗長な応答よりも短い応答のほうが正確な場合がある

インストール方法

1行インストール: npx skills add JuliusBrussee/caveman
Claude Code プラグイン: claude plugin marketplace add JuliusBrussee/caveman
Codex: リポジトリをクローンした後、/plugins メニューで Caveman を検索・インストール
トリガー: /caveman, "talk like caveman", "caveman mode", "less tokens please"
解除: "stop caveman" または "normal mode"
1回インストールすれば、その後はセッション全体に適用

使い方

トリガーコマンド: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”
終了コマンド: “stop caveman”, “normal mode”

強度調整

Level	Trigger	特徴
Lite	`/caveman lite`	文法を維持し、不要な語を削除
Full	`/caveman full`	標準モード、冠詞・冗長表現を削除
Ultra	`/caveman ultra`	最大圧縮、略語中心の表現

設定はセッション終了まで維持
MIT ライセンス / Python 100% / Claude Code & Codex プラグイン対応

2件のコメント

joyfui 24 일 전

ここでスパルタ式の話し方を…？笑

GN⁺ 24 일 전

Hacker Newsの意見

投稿者です。何人かがこのリポジトリの主張よりももっと強い主張を反論しています。実際、これはジョークとして作ったもので、研究レベルのコメントではありません。
このスキルは隠れた reasoning token を減らそうとするものではなく、出力テキストの無駄を減らすことに焦点を当てています。コード自体には影響しません。
Anthropic のモデルは RL で十分にチューニングされているので、意図的に性能を大きく落とすのは難しいと思います。
README に書いた「~75%」という数値は予備テストの結果なので、もっと慎重に表現すべきでした。現在は正式なベンチマークを準備中です。
このスキルは無料ではなく、ロード時に context を一部消費します。したがって本当の評価では、input/output token、遅延、品質をすべて含めるべきです。
簡潔なプロンプトが応答の長さを減らしつつ品質を維持できるという研究もあります（論文リンク）。
結論として、面白いアイデアではあるものの誇張した解釈が多く、正式な評価までは README をもっと正確に書くべきです。
- 妥当に聞こえます。オンライン議論はもともとこういう流れになりがちです。それでもこのスレッドは平均よりは良いほうですが、ときどきがっかりします。
- ベンチマークが欲しいなら adam-s/testing-claude-agent を参考にするのをおすすめします。
- 要するに「これはジョーク。私に怒らないで。でも少しは効くかも？」ということですね。
- 私も似たような会話を LLM としたことがありますが、短い質問には短く、丁寧な依頼には情報量の多い回答をする傾向があると説明していました。結局、質問の仕方が回答スタイルに影響します。
  （それと、なぜこういう関連コメントがずっとダウンボートされるのか理解できません）
- 「Anthropic のモデルはコーディング向けに最適化されているので性能低下を強制できない」という話は少し混乱します。
  「バカっぽく振る舞え」というプロンプトを付ければ、当然性能は落とせます。問題は、特定の出力スタイルが実際にどれほど影響するかです。
私はずっと、LLM が基本の話し方以外で話すよう強制されると推論能力が落ちると思っていました。
モデルの一部のレイヤーは、「何を言うか」または「どう言うか」のどちらかに集中せざるを得ないからです。
協作小説やロールプレイのような実験では、モデルがより多くの事実を考慮しなければならないほど、スタイル維持が難しくなるのを見てきました。
- 逆に、「おしゃべりに話せ」と言うと出力はずっと増えます。性格指示子は実際かなり大きな影響を持ちます。
- 私も同じように考えています。結局、モデルのattention budgetは限られていて、一度にできることには制限があります。
このアイデアは面白いです。でも単純なトークンではなく、豊かなトークンを使う方向も見てみたいです。
たとえば「make good」ではなく「improve idiomatically」のような、より精密な表現を使う感じです。言語は現実を調整するモジュレーターなので、より繊細に使えば結果も良くなる気がします。ベンチマークが楽しみです。
- この「caveman」スタイルは昔の**電報（telegram）**文体を思い出させます。電報略語集のように情報を圧縮した「豊かなトークン」をモデルが学習し、ブラウザでデコードできるでしょうか？電報略語集リンク
- これはまるでRISC vs CISC論争みたいです。単純さが拡張性で勝ったように、LLM も単純で直交的な概念で思考する方向に進化しているのかもしれません。
- 「MILSPEC prose register. Max per-token semantic yield.」みたいなプロンプトを試してみるといい、と提案します。
Claude に caveman っぽく話してみたのですが、理解度が落ちて誤解も多かったです。むしろ説明を増やす必要があり、タイプミスがあると文脈の損失も大きいです。
結局、かえって多くの言葉が必要になる感じです。LLM が自分の前の回答から得る情報も減っているように見えます。
- 一般的なフォーラム（Twitter、Reddit）でも人々は LLM がバカだと不満を言いますが、彼らの書き方を見ると理由が分かります。
- 昔、ChatGPT 初期のころにs-expressionだけで会話してみたことがありますが、モデルも s-expression で返してきました。中身はひどかったですが、括弧は合っていました。今はそうなりません。
- 「なんでたくさん話す？少なく話せば時間節約。海の世界」
- ほとんどの「caveman」口調データは科学的な会話ではないので、モデルがそういう文脈を予測できないのだと思います。
Grug brained developer が AI ツーリングに出会う文章を見ました（grugbrain.dev）。
- 私も Grug を例として、LLM に概念を説明させるときによく使います。
このアイデアは興味深いです。でも私の会社ではトークン消費量で成果を評価します。Claude をわざと冗長にするスキルはありますか？
- ループごとに /tmp に ELI5 スタイルで説明させればいいです。
- 本気ですか、それとも冗談ですか？もしかして Nvidia で働いていますか？
かわいいアイデアですが、実際には入力トークンがボトルネックです。
モデルは大量のファイル、ツール出力、ディレクトリツリーを読みますが、出力は数百行のコードと短い説明だけです。
- 単一ターンならその通りですが、複数ターンで蓄積すると出力最適化には意味があります。
  ちなみに「Cute idea, but」がなくても同じ要点は伝わります（リンク）。
- しかもこのスキルはthinking tokenには影響しません。むしろ caveman 風に変えるには、より多くの内部推論が必要になるかもしれません。
関連研究として ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026) もあります。
面白いですね。出力結果を 2B モデルで展開することもできそうです。
すでに誰かが試したか、あるいは自分で実装しようか考えています。
LLM が人間の言語ではなく非人間言語で会話すれば、効率が上がるかもしれません。
小さなローカルモデルが人間入力を LLM 向け言語に翻訳し、大規模モデルはその言語で思考してから再び翻訳する構成です。
Apple Fundamental Models のような小さいコンテキストウィンドウを持つモデルが、こうした翻訳レイヤーとして使えるかもしれません。
強化学習でこうした言語を自力で発見させることもできそうです。本当に面白いプロジェクトになりそうです。
- 私も似たことを考えたことがあります。専用のLLM 言語を作り、それでモデルを学習させられたらいいのですが、6,000万〜1億ドルは必要そうです。
  完全に新しい言語と学習方式を作らなければならないので。それでも、誰かが VC 投資を集めるなら参加したいです。

Caveman - 原始人調で Claude/Codex のトークンを節約する

Caveman 概要

Before / After 例

ベンチマーク

科学的根拠

インストール方法

使い方

関連記事

2件のコメント

Hacker Newsの意見