May 16, 2025

Test-Time Compute ー AIは「速く、そして深く」考える時代へ

Written by
WILL HORYN

人工知能（AI）は驚異的なスピードで進化を続けており、新しいモデルやアプリケーション、研究成果が、ほぼ毎日のように登場しています。こうした中で盛んに議論されているテーマの一つが「スケーリングの法則」、つまり「より大きなモデルに対して大量のデータと思考プロセスリソースを投入することで性能が向上する」という考え方です。そして今、その性能向上が、事前学習に使える豊富なリアルデータが枯渇しつつある中で、頭打ちに近づいているのではないか、という疑問も投げかけられています。

この点については、まだ明確な結論は出ていません（大規模モデルは依然として性能を押し上げ続けており、未使用のリアルデータ不足を補う手段として合成データが重要な役割を果たす可能性もあります）。しかし、はっきりしてきたのは、モデルの性能を高めるためにスケーリングできる軸は、事前学習フェーズだけではないということです。実際、次のブレークスルーをもたらす原動力となるのは、より大きなモデルやより多くの学習データではなく、モデルの訓練が完了した後に、いかに思考プロセスのリソースを活用するかにあるかもしれません。

本記事では、Test-Time Compute（TTC または Inference-Time Computeとも呼ばれる）という概念について掘り下げていきます。これはAIの世界に新たなパラダイムをもたらしており、GoogleのGemini 2.5 Pro、OpenAIのo1、AnthropicのClaude 3.7 Sonnetといった、最近注目されている「推論モデル」を支える基盤となっています。これらのモデルは、推論時に「思考時間（think time）」の層を追加することで、高度な推論能力を実現しています。

TTCとは何か、従来のTraining-Time Compute（学習時の思考プロセス）とどのように異なるのか、なぜ今注目されているのか、スタートアップ企業や業界大手にとってどのような意味を持つのか、そして今後どのように発展していく可能性があるのかについて解説します。また、性能データや実際の事例も取り上げ、DeepSeekのような企業がこの分野でどのようなイノベーションを起こしているのかについても簡単に紹介します。

Test-Time Computeとは？

もし、あなたが何か質問に答えるたびに、少し時間を取って自分の答えを見直したり、必要に応じて修正したり、あるいは複数の解答パターンを検討してから最良の答えを選べるとしたら──。まさにそれが、Test-Time Compute（TTC）によってAIモデルが実現できることなのです。通常、AIモデルは一度の素早い処理で答えを出します（このプロセスはしばしば「本能的な反応」に例えられます）。一方でTTCは、推論フェーズ、つまり、実際にユーザーの質問を処理している最中にモデルに追加の思考プロセスの時間を与えることで、出力をさらに洗練させるのです。

※本稿では「Test-Time Compute（TTC）」を「思考時の推論プロセス」と訳しています。ここでの「Test」とは、単なる評価テストを指すのではなく、「訓練されたAIが、実際に質問や課題に応答する＝実運用フェーズ」を意味します。すなわち、AIが“本番で考える”ために行う処理です。

この「追加の思考時間」は、「システム2」の思考にモデルが取り組んでいると表現されることもあります。これは、ダニエル・カーネマンの著書『ファスト＆スロー』で初めて明確に説明された認知心理学の概念で、素早く直感的な判断（「システム1」の思考）を、遅く慎重な推論が補完するというものです。

TTCを用いることで、AIは複数の候補となる答えを生成し、それらを内部で見直し、さらに深い問題分析に基づいて最終的な出力を調整することができます。たとえば、数学の問題に一発で答えるのではなく、必要な解法ステップをまず書き出し、その後、正確性を確保するための検証メカニズムを用いる、といった動作が可能になります。

研究によると、モデルが追加の推論ステップを行うことで、複雑なタスクにおける性能が大幅に向上することが示されています。具体例としては、OpenAIのオリジナルのo1論文があります。この論文では、モデルに高度な推論能力を持たせるために強化学習（Reinforcement Learning）を用いてチューニングを行い、答えを出す前に「考え」て「見直す」ことを可能にすることで、様々なベンチマークにおいて実質的な性能向上を達成しました。この劇的な性能向上は、Test-Time ComputeがAIを「より大きく」するだけでなく、「より賢く」する可能性を秘めていることを強く示しています。

Test-Time ComputeとTraining-Time Computeの違い

これまでAIの分野では、Training-Time Compute（学習時の思考プロセス）によってモデルをスケールアップすることに大きな重点が置かれてきました。つまり、モデルを訓練するために膨大な量のデータと思考プロセスのリソースを投入するアプローチです。これには数百万ドルもの費用がかかり、GPUを数週間から数か月にわたって使用する必要があることもあります。

大まかに言えば、学習とはエンジンを作る作業であり、推論とはそのエンジンを実際に動かす作業だと考えることができます。訓練が完了したモデルは、その後、推論時には一度きりの素早い処理で予測を提供します。例えるなら、試験前にできる限り多くの情報を詰め込んで勉強し、試験当日にはそれを一気に吐き出すようなイメージです。

一方、Test-Time Compute（TTC）は、この思考プロセスの負荷の一部を推論フェーズ、すなわちモデルが訓練された知識に基づいてクエリ（質問）への応答を生成するプロセスに移します。事前学習された知識と一度きりの処理だけに頼るのではなく、モデルにその場で追加の「思考力」を与え、複雑な問題に取り組めるようにするのです。

これにより、モデルは以下のようなことが可能になります：

思考プロセスの資源を動的に割り当てる：簡単なクエリには即座に答える一方で、難しい問題には追加の推論ステップを踏む（例えば、Chain-of-Thoughtプロンプトのような技法を使う）
難易度に応じて処理を調整する：難解な質問には、まるで人が難しい数学の問題に取り組むときのように、内部処理の時間を長めに取る
フィードバックループを組み込む：複数の候補回答を生成し、その後検証ステップ（外部ツールの利用も含む）を通じて最良の答えを選ぶ

このアプローチには明確なトレードオフが存在します。巨大なモデルの訓練は一般的に一度きりの先行投資（とはいえ高額）ですが、Test-Time Compute（TTC）では継続的な運用コストが発生します。各クエリでより多くの思考プロセスのリソースや処理時間が必要になるため、レイテンシ（処理遅延）が増加し、クラウドコンピューティングの請求額が上がる可能性もあります。しかし、TTCの支持者たちは、難易度の高いタスクにおける飛躍的な性能向上や、より適応性があり文脈を考慮した応答が可能になるといった利点は、こうしたデメリットを上回ると主張しています。

本質的に、Training-Time Computeは「膨大な知識の蓄積」を目的とし、Test-Time Computeは「その知識を必要な場面で賢く活用する」ことを目的としています。このシフトによって、開発者はさらに大規模な訓練に継続的に投資することなく、既存のモデルをより有効に活用できるようになるのです。

なぜ今、Test-Time Computeが重要なのか

AIにおける「大きければ大きいほど良い」という時代は、限界を見せ始めています。モデルのパラメータ数を数千億、あるいは1兆以上にまで拡大しても、このような大規模なトレーニングによる成果は徐々に伸び悩み始めています。学習時に単にデータや思考プロセスの資源を追加するだけでは、かつてのような劇的な性能向上が見られなくなっているという認識が広まりつつあり、多くの人々が、こうしたわずかな性能向上のための投資が本当に正当化されるのか、疑問を抱くようになっています。

トレーニングにおける成果の伸び悩み

AI業界の最近の意見として、トレーニング時の思考プロセスの量を増やすことでこれまで大きな性能向上が得られてきたものの、その改善効果は時間の経過とともに次第に鈍化していく傾向があることが示されています。OpenAIの共同創業者であるイリヤ・サツケバー氏も昨年末、この考えを次のように支持しています。「2010年代はスケーリングの時代だったが、今は再び驚きと発見の時代に戻ってきた。皆が次のブレークスルーを探している。今こそ、何をスケーリングするのかがこれまで以上に重要だ。」

同様に、サム・アルトマン氏も自ら、彼らの最新モデル（GPT-4.5）は「指標を大きく上回るようなものではない」と認めています。正確にいうと、GPT-4.5は推論モデルではないため、Gemini 2.5 Proのようなモデルと直接比較すべきではありませんが、それでも性能はGemini 2.0 Pro Experimentalなど他の同等モデルと比べても劇的に改善されているわけではなく、訓練には高額なコストがかかったとされています。

ここで登場するのがTest-Time Compute（TTC）です。推論時に思考プロセスの資源を投じることで、事前学習による性能向上が行き詰まった後でも、モデルの精度や信頼性を引き続き向上させることが可能になるのです。

リアルタイムの適応力と効率性

今日のスピードの速い世界では、適応力が鍵となります。現代のAIシステムは、新しい情報に対応し、文脈に応じて調整し、リアルタイムで意思決定を行う必要があります。Test-Time Compute（TTC）は、モデルがこのような機敏さを維持する手段を提供します。未知の、あるいは複雑なクエリに直面した際、追加の思考プロセスのリソースを活用することで対応できるのです。この動的なアプローチは、特に仮想アシスタントやAIエージェントなどの自律システムのようなアプリケーションにおいて重要で、こうした分野では、追加の推論に数秒を費やすだけで、性能に大きな差が生まれることがあるからです。

業界からの支持とトレンド

Test-Time Compute（TTC）への移行は、単なる学術的な考えにとどまりません。OpenAI、Anthropic、xAI、Google DeepMind、NVIDIAといった業界のリーダー企業が、この分野に多大な投資を行っています。たとえば、Anthropicの最新モデルであるClaude 3.7 Sonnetは、推論時にユーザーが確認できる形で複数ステップの推論を採用し、精度を高めています。これにより、推論時のプロセスがAIの能力をどのように強化できるかについて、新たな基準を打ち立てました。こうしたモデル開発者の多くは現在、この技術的ブレークスルーに特化した推論モデルのシリーズを持っています（例：GoogleのFlash ThinkingやOpenAIのo-Seriesなど）。

データに基づく成功事例

先に触れた o1 論文に加えて、今年初めに発表された研究では、Test-Time Compute（TTC）を用いて推論時にスケーリングした小規模モデルが、はるかに大規模なモデルを上回ることが示されています。著者らは具体的に、1B（10億）パラメータのモデルが、TTC を利用することで、405B（4050億）パラメータのモデルを特定のベンチマーク（MATH-500 など）で上回ることを実証しました。

別の研究論文では、モデルの出力生成時に「wait」という単語を挿入して思考に簡単な遅延を加えるだけで、モデルが自分の回答を見直し、場合によっては修正することができることが示されています。これにより、32B（320億）パラメータのモデルが、約10倍大きいと推定される o1-preview を、数学コンテストの問題で最大27％上回る性能を発揮しました。

中国のAIスタートアップである DeepSeek は、TTC を活用する強力さを示すもう一つの例を提供しています。彼らは今年初めに R1 モデルをリリースしましたが、これは（OpenAI の o1 と同様に）強化学習技術（Group Relative Policy Optimization や Supervised Fine-Tuning の組み合わせなど）を導入し、事前学習済みのベースモデルを推論能力向上のために調整したものです。報じられている約600万ドル（約9億3,000万円）という表面的なコストは実際には控えめな数字であると広く理解されていますが、それでも注目すべきは、より少ないリソースで OpenAI の o1 モデルに近い性能を達成し、最終的に重要な要素をオープンソース化した点です。

Google が最近発表した Gemini 2.5 Pro 推論モデルも、TTC の有効性を裏付けるものであり、LiveBench や LMArena といった人気の LLM ランキングでトップに立ちました。これらの例は、単にモデルサイズを拡大することから、推論時の戦略を改善することへと焦点が移りつつある、より大きな潮流の一部です。

ビジネスとスタートアップにおける視点

スタートアップにとって、Test-Time Compute（TTC）がもたらす可能性は非常に魅力的です。ゼロから巨大なAIモデルを訓練するには、多額の費用がかかるだけでなく、最先端のハードウェアや膨大なデータといった、新興企業にとって手の届きにくいリソースが必要になります。それに対して、事前学習済みのモデルを活用し、TTCで強化することで、スタートアップは巨額の初期費用をかけずに競争力のある性能を達成できるのです（上述の DeepSeekのように）。

低い初期コストと高い柔軟性

スタートアップは、強力な事前学習済みシステムを活用し、さらにモデルがその場で考えられるようにするスマートな推論アルゴリズムに投資するという方法を採用できます。このアプローチは、ゼロから巨大なモデルを訓練するための莫大な一括費用を避けられるため、より費用対効果に優れています。代わりに、思考プロセスのリソースは動的に割り当てられ、必要なときに、必要な分だけ、特定のクエリに応じて使用されます。

このモデルは、開発の迅速化にもつながります。新しいタイプのクエリに対応する必要が生じたときや、エッジケースでの性能を向上させたいとき、スタートアップは、候補生成の精緻化や検証プロセスの調整といった、推論戦略を更新するだけで済み、全ての再訓練サイクルを行う必要がありません。このアジャイルな手法により、開発サイクルの短縮や市場投入までの時間の短縮が可能になります。

上記の「データに基づく成功事例」セクションを補足すると、企業は、訓練と提供の両方のコストが低い小規模なモデルから始め、TTC を活用することで、より大きな事前学習済みモデルに匹敵する、あるいはそれ以上の性能を達成することができるということです。 Claude 3.5 Sonnet のような「中規模」モデルは訓練に数千万ドルの費用がかかる可能性がありますが、より小さなモデル（例：3B パラメータ）は100万ドル未満で訓練が可能です。さらに、出力トークンのコストも、小規模なモデルの方が少ない思考プロセスのリソースで応答を生成できるため、より安価になります。たとえば、OpenAI の料金ページによると、o3-mini の出力トークンのコストは GPT-4.5 の約34分の1です。

ここで注目すべきは、1トークンあたりのコストが大幅に安いにもかかわらず、o3-mini は GPT-4.5 を上回る性能を発揮していることです。これは、o3-mini が TTC の原則と技術を活用した推論モデルであるためです。ただし注意すべき点として、推論モデルが応答を提供する際には、必要な出力トークンの量が多くなるということがあります。小規模モデルでは訓練の初期コストや1トークンあたりの出力コストは大幅に低くなる一方で、TTC を用いた推論では、従来の事前学習済みモデルに比べて生成されるトークンの数が何倍にも増えるのです。

NVIDIA の CEO ジェンスン・ファン氏は最近の GTC 基調講演（59分20秒あたり）で、1つの例を示しました。それによると、推論モデルは従来型の大規模言語モデル（LLM）と同じ質問に答えるのに、トークン数で20倍、思考プロセスのリソースで150倍を必要とします。ただし注目すべきは、従来型の LLM は誤答していたという点です。ここから重要なポイントが導かれます。最終的なコストは多くの要因によって大きく変動しますが、TTC を活用することで、実質的に優れた性能と、潜在的により良い経済性を引き出す新たな手段が得られるということです。

カスタマーエクスペリエンスと業務効率の向上

AIアプリケーションの導入が成功するかどうかにおいて、ユーザー体験は依然として最重要要素であり、特に基盤モデルの性能がますます拮抗してきている現在、その重要性はかつてないほど高まっています。たとえば、TTC によって強化されたバーチャルアシスタントやチャットボットは、より丁寧で文脈に応じた応答を提供できるようになり、信頼性とユーザーとのやり取りの魅力が向上します。

エンタープライズ環境においても、複雑な意思決定をリアルタイムで推論できるシステムは高く評価されます。たとえば、複数のスケジュール案を生成し、現在の制約条件に基づいて最適な案を選択できるようなAIがそれに該当します。

推論時の思考プロセスの量が増えることで、応答が若干遅くなるケースもありますが、それによって得られる精度と信頼性の向上は、しばしばその代償を上回ります。OpenAI のノアム・ブラウン氏が指摘しているように、「ポーカーの一手を打つのにボットに20秒考えさせただけで、モデルを10万倍にスケールアップし、訓練時間を10万倍に延ばしたのと同等の性能向上が得られた」とされています。

インフラとスケーラビリティの課題

もちろん、課題も存在します。推論時に追加の思考プロセスの処理を行うことで、運用コストの増加は不可避になり、さらに処理の遅延が増えることは、特定のユースケースやアプリケーションにとっては受け入れがたい場合もあります。こうした遅延の増加は、数百万件のクエリを処理する必要があるようなサービスにおいて、インフラ要件を複雑にする要因となります。それは、クエリごとに処理時間が変わるためです。ある研究論文では、すべての推論が等しく設計されているわけではないとし、TTCのスケーリングに伴うコスト増加が、見込まれる性能向上に見合わない場合もあると指摘しています。

NVIDIA のジェンスン・ファン氏は GTC の基調講演において、現在の推論性能を最大化する上での究極的な制約は、FLOPs（1秒あたりの浮動小数点演算数、すなわちCPUやGPUの思考プロセスの性能）、帯域幅、そしてメモリだと述べました。特にメモリ要件は、TTC により出力トークンが指数的に増える（上記のコストに関するセクションでも触れた点）ことで重要性を増します。そして最終的な応答を生成する際、モデルはクエリに対して複数の応答候補を生成・保持し、それをもとに最終的な出力を決定するためです。現在、クラウドサービス事業者やAIインフラ企業は、こうした需要により効率的に対応するために、アダプティブな思考プロセスのスケジューリングや推論専用チップなどのソリューションを開発しています。

スタートアップにとっては、推論パイプラインの設計を慎重に行うことが不可欠です。単に思考プロセスのリソースを増やすだけではなく、それをいかに賢く配分するかが鍵となります。たとえば、クエリごとの難易度を動的に判定し、必要な場合にのみ追加の推論ステップを適用するような技術も登場しています。こうしたアダプティブな手法は、品質と効率のバランスを取ることを目的としています。

Test-Time Compute の未来：ハイブリッドモデルとより賢い推論

今後を見据えると、AI の最も有望なビジョンは、「学習」と「推論」の双方の強みを組み合わせることにあります。つまり、堅牢な学習フェーズ（training-time learning）と、アジャイルな推論フェーズ（test-time reasoning）を融合させることです。将来的には、膨大な事前学習知識を活用するだけでなく、各クエリの要求に応じて動的に処理内容を調整できるようなシステムが想定されます。このようなハイブリッド型モデルは、精度を高く保ちつつ、運用効率も維持できる点で、AI の進化を大きく前進させる可能性を持っています。この事前学習のさらなるスケーリングと、柔軟なTTCを組み合わせていくことが、最適な性能を引き出す鍵となります。

興味深い可能性のひとつに「Test-Time Training」があります。これは、モデルが各推論のたびに学習を続けていくというもので（通常のモデルでは重みが固定され、再学習やファインチューニングが必要です）、クエリを単なる「質問」として扱うのではなく、モデルの理解を深める「学習の機会」として活用するアプローチです。この分野の初期研究では、モデルがその場で自律的にファインチューニングを行い、実世界のデータとのやり取りを通じて、より堅牢かつ柔軟になる可能性が示されています。

ハードウェアの分野も並行して進化しています。NVIDIA をはじめとする企業は、今後急増が見込まれる推論負荷の高いワークロードに対応するため、処理性能を最大化する新たなシステムの開発に取り組んでいます。これは、スループット（処理量）とレイテンシ（応答速度）のトレードオフといった、可変的な思考プロセスのニーズに伴う独自の課題に対応するものです（ジェンスン・ファン氏は GTC 2025 の基調講演の54分ごろにこの話題に触れています）。こうしたハードウェアの進化と、より賢い推論アルゴリズムの組み合わせにより、今後のAIシステムは、高性能かつエネルギー効率に優れたものになっていくと考えられます。

まとめ：もっと「考える」AIへ

AI革命は今、転換点を迎えています。これまで業界は、より大きなモデルを構築し、より巨大なデータセットで訓練することに注力してきました。しかし、そうした手法による成果が頭打ちになりつつある今、産業全体は新たなフロンティアであるTest-Time Compute へと舵を切り始めています。推論時にモデルに「思考時間（深く考える余地）」を与えることで、性能向上、より高度な推論、リアルタイムでの適応といった新たな可能性が開かれようとしています。

この分野での技術革新が続くなかで、明らかになってきたことがあります。それは、AIの未来が単に「より大きな脳をつくる」ことではなく、「より賢く考えられるようにする」ことにある、ということです。堅牢な事前学習と、オンデマンドな推論を組み合わせたハイブリッドモデルこそが、次なる性能のブレークスルーとAIの進化を実現する鍵となるでしょう。

付録：主なポイント

Test-Time Compute（TTC）により、モデルは推論フェーズにおいて必要に応じて動的に思考プロセスのリソースを追加で割り当てることができます。これは、人が難しい問題に直面したときに一度立ち止まって再確認するような動きに似ています。
特にこれ以上のスケーリングが比例した成果をもたらさない可能性がある現在において、TTC は従来の学習時の思考プロセスに偏ったアプローチに対する魅力的な代替手段を提供します。
Gemini 2.5 Pro、o1、Claude 3.7 Sonnet、Grok 3、DeepSeek R1 などのモデルや各種研究が示すように、TTC のモデル性能への効果はもはや明白であり、説得力のあるものです（執筆時点で LiveBench の上位3モデルはいずれも推論型モデルです）。
ビジネスやスタートアップにとって、TTC は初期費用を抑えつつ高い性能を実現し、迅速な反復開発を可能にする手段となります。最先端のAIがより身近なものになる可能性を秘めています。
ハードウェアおよびソフトウェアベンダーの双方が、自社のビジネスや製品戦略においてTTCに軸足を移しつつあります。
TTC の探求はまだ始まったばかりであり、Test-Time Trainingといった新たな概念も、今後の非常に興味深い可能性として注目されています。