「巨大モデルこそ至上」の常識を覆す:Samsungの小型AIモデル「TRM」が示す効率的な推論の未来

「巨大モデルこそ至上」の常識を覆す:Samsungの小型AIモデル「TRM」が示す効率的な推論の未来

導入文

AI開発の分野では長らく、「モデルは大きければ大きいほど良い」という信念が支配的でした。しかし、Samsung AIの研究者による画期的な論文は、このパラダイムに挑戦しています。わずか700万パラメータという極小サイズの「Tiny Recursive Model (TRM)」が、巨大な推論LLM(大規模言語モデル)を複雑な推論タスクで凌駕するという驚くべき結果を示したのです。この研究は、AIの能力向上において、計算資源の「量」ではなく「質」と「効率」が重要であることを証明し、より持続可能でパラメーター効率の高いAI開発の未来を指し示しています。

要約本文

巨大LLMの限界とTRMの革新的なアプローチ

従来のLLMは、人間のようなテキスト生成能力を持つ一方で、複雑な多段階の推論においては脆さが指摘されていました。トークンごとに回答を生成する性質上、初期段階での小さな誤りが全体の解決を台無しにしてしまうリスクがあったためです。この問題を緩和するために「Chain-of-Thought」のような手法が開発されましたが、これらは計算コストが高く、完璧な論理的実行が求められるパズル的なタスクでは依然として苦戦していました。

SamsungのTRMは、この課題に対し、再帰的な自己修正という革新的なアプローチで挑みました。

| モデルの比較 | TRM (Tiny Recursive Model) | 巨大LLM (例: Gemini 2.5 Pro) |
| :— | :— | :— |
| パラメータ数 | わずか700万(主要LLMの0.01%未満) | 数十億~数兆 |
| 推論アプローチ | 単一の小さなネットワークによる再帰的な自己修正 | 大規模なネットワークによるトークンごとの生成(Chain-of-Thoughtなどで補強) |
| ARC-AGI-2 スコア | 7.8% | 4.9% |
| Sudoku-Extreme スコア | 87.4% | 既存のLLMは苦戦 |

TRMは、質問、初期の回答案、および潜在的な推論特徴を入力として受け取ります。そして、この3つの要素に基づいて内部の推論を洗練させ、その改善された推論を用いて最終的な回答予測を更新します。このプロセスを最大16回繰り返すことで、モデルは非常にパラメーター効率の高い方法で自身の誤りを段階的に修正していきます。

興味深いことに、研究では、わずか2層のネットワークを持つTRMが、4層バージョンよりも遥かに優れた汎化性能を達成することが判明しました。これは、モデルが過学習を防ぐのに役立っていると考えられます。

ベンチマークでの驚異的な性能

TRMの成果は、特に「真の流動的知能」を測定するために設計されたAbstraction and Reasoning Corpus (ARC-AGI)ベンチマークで顕著です。

  • ARC-AGI-2において、TRMは7.8%の精度を達成し、Gemini 2.5 Proの4.9%を上回りました。
  • Sudoku-Extremeデータセットでは、わずか1,000の訓練例で87.4%という高いテスト精度を記録しました。

この研究は、AIの進歩が必ずしも膨大な計算資源と巨大なモデルサイズに依存するわけではないことを示しています。反復的な推論と自己修正が可能なアーキテクチャを設計することで、極めて困難な問題を、ごくわずかな計算資源で解決できる可能性を提示しています。これは、AI開発における「ダビデとゴリアテ」の物語であり、今後のAI研究の方向性に大きな影響を与えるでしょう。

元記事のアンカーリンク

Samsung’s tiny AI model beats giant reasoning LLMs