こんにちは。高校生の独立研究として進めた初めての arXiv 論文です。
Paper | Code
中核アイデア:
LLM が簡単な入力と難しい入力に同じ計算を使うのは非効率なため、TTT レイヤーの reconstruction loss をシグナルとして UPDATE/SKIP を決定します。
追加学習なしで、threshold + EMA だけにより Oracle 比 82-89% の性能を達成しました。
JAX/Flax で実装しており、現在は Gemma 3 でスケールアップ検証を進めています。
フィードバック歓迎です!
3件のコメント
高校生なのにすごいですね。保証人の問題はどう解決されたんですか?
先行研究を進めていた海外の博士課程の方々や教授の方々に、コールドメールを一生懸命送って受け取りました!
ああ、まさに問いに対する見事な答えですね