AIに求められる理想はシンプルだ。
同じ入力を与えれば、同じ出力が返ってくる。
確率的要素をゼロにすれば、機械は一切ブレずに答えを再現する。
少なくとも理屈の上ではそう考えられてきた。
だが現実には、ChatGPTのような大規模言語モデルに同じ質問を繰り返しても、微妙に違う答えが返ってくることがある。
科学の世界では「再現性」が命であり、この揺らぎは深刻な問題をはらんでいる。
本記事では、この現象の正体と、研究者たちが生み出した解決策、さらにAIが科学そのものを再構築し始めた驚くべき事例までを詳しく解説する。
浮動小数点は「犯人」ではなかった
これまでの定説は「GPUの浮動小数点計算の丸め誤差が原因」というものだった。
たとえば巨大な数と極小の数を足す順序を変えれば、結果の下位桁がずれる。
しかし実際にGPUで同一の大規模行列計算を繰り返すと、毎回まったく同じ答えが得られる。
つまり、同一条件ならGPUは決定論的であり、丸め誤差は主犯ではなかった。
例えるなら――
「大きな金額と小銭を足す家計簿」です。
1,000万円に1円を足してから引くか、引いてから足すかで1円が消えてしまうことがある。
これが丸め誤差のイメージ。
ただし、同じ順番・同じ電卓で何度も計算すれば必ず同じ結果になる。
だから“電卓そのもの”は安定していて、犯人ではなかったのです。
真の原因:バッチ非不変性
AIサーバーは効率を上げるため、複数のユーザーからのリクエストを「バッチ」としてまとめて処理する。
このとき、同じ入力でもバッチの大きさや組み合わせが違えば内部の計算順序が変わる。
結果として、ある日には「ニューヨーク市」と返り、別の日には「クイーンズ区」と返すような細かな揺らぎが生まれる。
サーバー内部では同じバッチなら必ず同じ出力になるため決定論は保たれている。
だがユーザー視点では、外部環境の変動が“非決定論”を生み出すのである。
例えるなら――
「レストランの厨房でまとめ調理する料理」です。
シェフが10皿まとめて作るときと50皿まとめて作るときでは、下ごしらえの順序や調味料の入れるタイミングが微妙に変わる。
その結果、同じ料理でも「今日は塩気が少し強い」「昨日はあっさりしていた」という差が出る。
厨房内では同じロットなら味は揃っているが、お客からすると日によって味が違うように感じる。
これがバッチ非不変性の本質です。
再現性を取り戻すための三つの修正
研究者たちは、モデル内部の主要な計算を「バッチに依存しない形」に書き換えることで、この問題を克服しようとした。
対象は以下の三つだ。
- RMS正規化(RMSNorm)
通常は複数コアに分散して部分計算を合成するが、その順序が揺らぎの原因となる。
常に同じ順序で処理する方式に固定することで、再現性を確保。 - 行列積(MatMul)
一般的なライブラリは入力サイズに応じて最適なアルゴリズムを切り替える。
これが出力の差分を生むため、あえて一つのアルゴリズムに固定。
計算速度は落ちるが安定性が優先される。 - アテンション機構
通常はキャッシュ済みのトークンと新規トークンで異なる処理を行うが、これも結果の揺らぎを招く。
キャッシュの有無にかかわらず同一処理に揃え、さらに1トークンごとの処理幅も固定化した。
例えるなら――
「製造ラインの標準化」です。
RMS正規化は「混ぜる順番を毎回決め打ちにする」こと。
調合を必ずA→B→Cの順で混ぜるようにして、作業員ごとにバラつかないようにする。
行列積は「調理法を一種類に固定する」こと。
普通なら人数に応じてフライパンを変えるが、あえて“必ず同じ鍋”で調理するようにする。
スピードは落ちても味は一定。
アテンション機構は「常連客と新規客を同じ対応フローで扱う」こと。
通常なら常連にはショートカットのサービスをするが、それをやめて誰に対しても同じ順序で手続きを踏む。
こうして、多少の効率は犠牲にしつつも、「毎回同じ味を保証する製造ライン」に作り替えたのです。
驚くべき効果と速度のトレードオフ
検証実験では、同じプロンプトを温度0で1000回繰り返したところ、従来は約80通りの異なる回答が返ってきた。
ところが修正版では1000回すべてが完全一致。
まさに本来あるべき「決定論的AI」が実現した。
速度面では、通常26秒で終わる処理が、完全固定化で55秒、最適化後42秒と遅くはなる。
ただし研究や検証の現場では、再現性の価値は速度低下を上回る。
強化学習における「オンポリシー性」の確保
再現性は学習過程にも直結する。
強化学習では、訓練時と推論時の挙動が一致しないと報酬が発散し、学習が崩壊する。
実験では、決定論化を行わなかった場合、報酬は数百ステップで急激に崩壊。
しかし修正後は安定的に学習が続いた。
再現性は単なる品質保証ではなく、学習そのものを成立させる基盤となる。
二層API構想:ExactとFast
実運用では、完全な決定論を求める場面と高速処理を優先する場面がある。
そこで有力とされるのが二層エンドポイントだ。
- Exact API
決定論的処理。
研究、金融、医療、法務に適用。 - Fast API
従来型の高速処理。
創作やカスタマーサポートなど揺らぎを許容できる用途に。
こうした設計により、“正確さ”と“速さ”を両立できる。
クリエイターにとっての意味
台本やサムネイル制作では、検証やA/Bテストの際に「同条件なら同結果」が重要だ。
再現性が確立すれば、差分が純粋に施策の違いによるものと判断できる。
これにより、AIを使った制作フローがより信頼性の高いものになる。
もう一つの潮流:AIが「実験そのもの」を発明する
再現性を固める動きと同時に、AIは全く逆のベクトル。
人間では思いつかない実験設計を創出する力を示し始めている。
- LIGO(重力波望遠鏡)
カリフォルニア工科大のラナ・アディカリらは、AIに光学部品の組み合わせを探索させた。
その結果、人間にはない非対称的なレイアウトが提示され、量子雑音を抑える新しい仕組みが見出された。
感度を大幅に高め得る設計であり、数十年の研究を超える可能性が示された。 - 量子エンタングルメント交換
1993年にŻukowski、Zeilingerらが理論を提案したが、近年AIがよりシンプルで効率的な設計を導出。
実際に実験が行われ、理論通りに動作することが確認された。 - データからの法則再発見
加速器や宇宙観測データをAIに学習させると、ローレンツ対称性など既存の物理法則を自力で再発見。
さらには暗黒物質の分布をより正確に記述する式を生成するケースも報告されている。
AIは「人間の直観に頼らない発見装置」として、科学の探索方法そのものを変えつつある。
経済・社会への含意
- 再現性=信頼性の通貨
医療や金融では、決定論的AIの導入がリスク管理コストを下げ、資本効率を高める。 - 創発性=新しいリターン源泉
人間が見落とした設計や法則をAIが見つけることで、研究・産業で差別化が可能になる。
両者は矛盾しない。
推論を決定論に固定することで検証サイクルを速め、その上で創発的探索にリソースを振り向ける。
結果として、発見も検証も加速する。
結論:AIを「固定」し、同時に「解き放つ」
AI研究は今、二つの矛盾する流れを抱えている。
- 一つは、温度ゼロで1文字も揺らがない“決定論”の確立。
- もう一つは、人間が想像もしなかった“実験設計の創出”。
この二つをどう配分し、どう組み合わせるかが今後の科学と産業の成否を決めるだろう。
AIは揺らがないことで信頼を獲得し、揺さぶることで未来を切り拓く。
私たち人間に残された問いは明確だ。
AIをどこまで「安全に縛り」、どこまで「自由に解き放つ」のか。
その選択こそが、次の科学革命の扉を開く鍵となる。