Caveman - 原始人調で Claude/Codex のトークンを節約する
(github.com/JuliusBrussee)- 原始人調で応答するよう強制し、平均で65〜75%の出力トークンを削減するスキル
- Lite・Full・Ultra の3段階で圧縮の強さを調整し、技術的な正確さを保ったまま短く効率的な回答を生成
- 実際のベンチマークでは、React・PostgreSQL・Git 関連の説明がいずれもトークン使用量半分以下に減少
- 応答速度が約3倍向上し、読みやすさの改善、コスト削減の効果を同時に提供
- Claude Code と Codexで簡単なコマンドによりインストール可能で、セッション全体を通して継続利用できる
Caveman 概要
- Claude Code および Codex 向けのプラグインで、LLM の応答を「原始人調(caveman-speak)」に変換し、トークン使用量を約75%削減
- 技術的な正確さを保ちながら不要な語を取り除き、短く効率的な回答を生成
- インストールは1行コマンドで可能で、すべてのセッションで継続利用できる
- 削減対象は出力トークンのみ — 思考・推論トークンには影響なし
- 削除対象:
- あいさつ・前置き: "Sure, I'd be happy to help"(8トークンの無駄)
- 理由説明の書き出し: "The reason this is happening is because"(7トークン)
- 推奨表現: "I would recommend that you consider"(7トークン)
- 冗長な導入: "Sure, let me take a look at that for you"(10トークン)
- 維持対象: コードブロック、技術用語(polymorphism など)、エラーメッセージ、git のコミット・PR メッセージ
Before / After 例
- 同じ技術的説明を短い文に圧縮して表現
- React コンポーネントの再レンダリング原因の説明: 69トークン → 19トークン
- 認証ミドルウェアのバグ説明: 75%以上のトークン削減
- Lite / Full / Ultra の3段階で圧縮強度を調整可能
- Lite (
/caveman lite): 不要な表現を削除し、文法は維持 — 専門的だが無駄がない - Full (
/caveman full): 標準の caveman モード — 冠詞を省略し、短文・断片中心 - Ultra (
/caveman ultra): 最大圧縮 — 電報体ですべてを短縮
- Lite (
ベンチマーク
- Claude API による実際のトークン使用量比較では平均65%削減
- 削減幅: 22%〜87%
- React 再レンダリングバグの説明: 1,180 → 159トークン(87%削減)
- PostgreSQL 接続プール設定: 2,347 → 380トークン(84%削減)
- Docker マルチステージビルド: 1,042 → 290トークン(72%削減)
- git rebase vs merge の説明: 702 → 292トークン(58%削減)
- コールバック → async/await リファクタリング: 387 → 301トークン(22%削減、最小効果)
- 出力トークンのみ減少し、思考・推論トークンはそのまま維持
- 主な利点は読みやすさの向上と応答速度の向上であり、コスト削減は副次的な効果
科学的根拠
- 2026年3月の論文 "Brevity Constraints Reverse Performance Hierarchies in Language Models": 大規模モデルに簡潔な応答を強制した場合、特定のベンチマークで正確性が26ポイント向上し、性能順位の逆転も確認
- "Verbose not always better. Sometimes less word = more correct"
- 冗長な応答よりも短い応答のほうが正確な場合がある
インストール方法
- 1行インストール:
npx skills add JuliusBrussee/caveman - Claude Code プラグイン:
claude plugin marketplace add JuliusBrussee/caveman - Codex: リポジトリをクローンした後、
/pluginsメニューで Caveman を検索・インストール - トリガー:
/caveman, "talk like caveman", "caveman mode", "less tokens please" - 解除: "stop caveman" または "normal mode"
- 1回インストールすれば、その後はセッション全体に適用
使い方
-
トリガーコマンド:
/caveman,$caveman, “talk like caveman”, “caveman mode”, “less tokens please” -
終了コマンド: “stop caveman”, “normal mode”
-
強度調整
Level Trigger 特徴 Lite /caveman lite文法を維持し、不要な語を削除 Full /caveman full標準モード、冠詞・冗長表現を削除 Ultra /caveman ultra最大圧縮、略語中心の表現 -
設定はセッション終了まで維持
-
MIT ライセンス / Python 100% / Claude Code & Codex プラグイン対応
2件のコメント
ここでスパルタ式の話し方を…?笑
Hacker Newsの意見
投稿者です。何人かがこのリポジトリの主張よりももっと強い主張を反論しています。実際、これはジョークとして作ったもので、研究レベルのコメントではありません。
このスキルは隠れた reasoning token を減らそうとするものではなく、出力テキストの無駄を減らすことに焦点を当てています。コード自体には影響しません。
Anthropic のモデルは RL で十分にチューニングされているので、意図的に性能を大きく落とすのは難しいと思います。
README に書いた「~75%」という数値は予備テストの結果なので、もっと慎重に表現すべきでした。現在は正式なベンチマークを準備中です。
このスキルは無料ではなく、ロード時に context を一部消費します。したがって本当の評価では、input/output token、遅延、品質をすべて含めるべきです。
簡潔なプロンプトが応答の長さを減らしつつ品質を維持できるという研究もあります(論文リンク)。
結論として、面白いアイデアではあるものの誇張した解釈が多く、正式な評価までは README をもっと正確に書くべきです。
(それと、なぜこういう関連コメントがずっとダウンボートされるのか理解できません)
「バカっぽく振る舞え」というプロンプトを付ければ、当然性能は落とせます。問題は、特定の出力スタイルが実際にどれほど影響するかです。
私はずっと、LLM が基本の話し方以外で話すよう強制されると推論能力が落ちると思っていました。
モデルの一部のレイヤーは、「何を言うか」または「どう言うか」のどちらかに集中せざるを得ないからです。
協作小説やロールプレイのような実験では、モデルがより多くの事実を考慮しなければならないほど、スタイル維持が難しくなるのを見てきました。
このアイデアは面白いです。でも単純なトークンではなく、豊かなトークンを使う方向も見てみたいです。
たとえば「make good」ではなく「improve idiomatically」のような、より精密な表現を使う感じです。言語は現実を調整するモジュレーターなので、より繊細に使えば結果も良くなる気がします。ベンチマークが楽しみです。
Claude に caveman っぽく話してみたのですが、理解度が落ちて誤解も多かったです。むしろ説明を増やす必要があり、タイプミスがあると文脈の損失も大きいです。
結局、かえって多くの言葉が必要になる感じです。LLM が自分の前の回答から得る情報も減っているように見えます。
Grug brained developer が AI ツーリングに出会う文章を見ました(grugbrain.dev)。
このアイデアは興味深いです。でも私の会社ではトークン消費量で成果を評価します。Claude をわざと冗長にするスキルはありますか?
/tmpに ELI5 スタイルで説明させればいいです。かわいいアイデアですが、実際には入力トークンがボトルネックです。
モデルは大量のファイル、ツール出力、ディレクトリツリーを読みますが、出力は数百行のコードと短い説明だけです。
ちなみに「Cute idea, but」がなくても同じ要点は伝わります(リンク)。
関連研究として ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026) もあります。
面白いですね。出力結果を 2B モデルで展開することもできそうです。
すでに誰かが試したか、あるいは自分で実装しようか考えています。
LLM が人間の言語ではなく非人間言語で会話すれば、効率が上がるかもしれません。
小さなローカルモデルが人間入力を LLM 向け言語に翻訳し、大規模モデルはその言語で思考してから再び翻訳する構成です。
Apple Fundamental Models のような小さいコンテキストウィンドウを持つモデルが、こうした翻訳レイヤーとして使えるかもしれません。
強化学習でこうした言語を自力で発見させることもできそうです。本当に面白いプロジェクトになりそうです。
完全に新しい言語と学習方式を作らなければならないので。それでも、誰かが VC 投資を集めるなら参加したいです。