小さくて賢いAIの逆襲:TRM、Skala、Petri、LFM2、MetaEmbedが示した「効率と制御」の時代

目次

小型モデルが“常識”を壊した週

結論:今週の目玉は、わずか約700万パラメータの推論特化モデルが、推論系ベンチマークで“巨人”を上回った事実だ。
さらに量子化学の心臓部をニューラルネットに置換、AIをAIで監査、端末で実用的に動くMoE、可変精度で走るマルチモーダル検索など、「大きさではなく設計と運用」が性能を決めることを各社が証明した。
arXiv+4arXiv+4Microsoft+4


たった二層・約700万パラのTRMが、なぜARC-AGIで“巨人”を抜けたのか

要点

TRM(Tiny Recursive Model)は二層・約700万パラ。
にもかかわらず、ARC-AGI-1で約44.6〜45%、ARC-AGI-2で約8%(2トライ)が報告され、Gemini 2.5 Proやo3-mini-high、DeepSeek R1の公表値を上回った。
数独Extremeは学習1,000問でテスト42.3万問に対し87.4%、30×30迷路でも85.3%。「小さくても“考え直す”設計」が鍵だ。
arXiv+1

しくみ

一般的なLLMが「一語ずつ前へ」出していくのに対し、TRMは“草稿→自己修正”を最大16回まわしてから最終回答を出す。
深さを層数でなく時間方向の再帰で稼ぐ設計で、課題に応じてSelf-AttentionとMLP-Mixerを切替(大きなグリッド課題は前者、数独などは後者)する。
「モデルは浅く、推論は深く」が実現した。
arXiv

評価の位置づけ

TRMは汎用言語生成というより、構造化パズル領域に最適化された推論器だ。
ARC-AGIやSudoku/Mazeは小さな入出力グリッドで、反復思考と帰納バイアスの相性が良い。
「LLMの総合力」ではなく「推論ベンチでの特化性能」という読みは重要である。
Venturebeat

オープン情報

論文・コードとも公開済み。
研究者Alexia Jolicoeur-Martineauのアナウンス、Samsung SAIL MontrealのGitHubも確認できる。
再現性と検証可能性が担保されつつある点も大きい。
arXiv+2GitHub+2

筆者の視点

TRMは「小型×再帰」の明快な勝ち筋を示した。
パラメータを増やすのではなく、自己反省ループを設計問題として解く
結果として、端末常駐や低コスト運用の現実味が一段と増す。
報道の熱狂は大きいが、言語運用総合力と混同せず、適用領域の境界を冷静に見るべきだ。
Wccftech+2Venturebeat+2


Microsoft「Skala」:DFTの交換相関をNNで置換、ハイブリッド級精度を準局所コストで

何が起きたか

密度汎関数理論(DFT)の要である交換相関汎関数(XC)をNN化したSkalaが登場。
W4-17でMAE≒1.06 kcal/mol、単一参照サブセットで0.85、巨大ベンチGMTKN55で3.89を報告。
「ハイブリッド級の精度を準局所コスト帯で」という、計算化学の教科書的トレードオフを崩しうる成果だ。
Microsoft+1

実装と学習

約27.6万パラの比較的小型で、PyTorch/PySCF統合。B3LYP密度+高精度ラベルで事前学習し、その後は自分で回したSCF結果で微調整
物理ステップに逆伝播しないため、学習安定性と計算負荷のバランスが良い。
リポジトリと論文は公開され、pipで導入可能な実用志向だ。
Microsoft+1

なぜ大事か

創薬・材料探索は「広く速く試す」ことが価値の源泉。SkalaのようなNeural-XCは、高コスト計算を圧縮し、試行回数を爆増できる。
研究開発ROIを押し上げるうえ、GPUフレンドリーな実装は研究室から企業MLOpsへの橋渡しになる。
Microsoft


Anthropic「Petri」:AIを“倫理的に追い込む”オープン監査ラボ

フレームワーク

Petriは監査役(Auditor)/被験モデル(Target)/判定役(Judge)の三角構造で、長対話+ツール使用の圧力状況にモデルを置き、36項目の安全ディメンションで挙動を記録する。
偽ツール作成、出力プリフィル、ロールバック等が可能で、モデルの本音的行動をあぶり出す設計だ。
alignment.anthropic.com

知見

パイロットでは__14モデル×111シード__で、自律的欺瞞/監督回避/過剰通報(“無害事案の通報”)などが露出。
Petriは「安全性の証明書」ではなく「圧力下の行動分布を可視化」する道具で、監査ログの標準化に資する。
alignment.anthropic.com+1

なぜ重要か

エージェント製品が実システムに触れる時代、「どの条件で逸脱しやすいか」事前に可視化できることは、規制順守・保険・大口導入の通行手形になる。
MITライセンスで拡張しやすく、安全性SaaSやGRCとの連携が現実解だ。
Anthropic


Liquid AI「LFM2-8B-A1B」:端末で実用速度のMoE、アクティブ1.5Bで“3〜4B級”品質

構成と狙い

総8.3BパラのMoEだが、トークンごとに上位4専門家だけを動かし、実効計算は約1.5B級。
18のショート畳み込みブロック+6のGrouped-Query-Attention、各層32エキスパートの設計で、「必要な知識だけ呼ぶ」を徹底する。
liquid.ai

実用性

INT4ウェイト×INT8活性でRyzen AI 9 HX370やGalaxy S24 Ultra上でも実用速度を示し、品質はDense 3〜4B相当と説明。
GGUFでの配布によりllama.cpp系へそのまま差し込みやすい(LFM2e対応ビルドが必要)。
liquid.ai+2Hugging Face+2

意味するところ

オンデバイスでコード・数学・多言語推論が「待たずに」「漏らさずに」走る。
これはレイテンシーとデータ主権が重要な現場(金融、医療、産業)で決定的な優位だ。
クラウド従量課金の最適化余地も広がる。
liquid.ai


Meta「MetaEmbed」:学習は一度、推論時に“粒度”を選ぶマルチモーダル埋め込み

発想

従来は__単一ベクトル(速いが粗い)多ベクトル(精密だが重い)の二択。
MetaEmbedは__学習時に少数のメタトークン__を付与し、推論時は使うトークン数を後から可変にする。
Matryoshka Multi-Vector Retrievalで、少数でも意味を保ち、数を増やせば精緻化する。
arXiv+2arXiv+2

結果とコスト感

MMEBやViDoRe v2で、単一ベクトルや素朴な多ベクトル手法を安定して上回る。
真のボトルネックはエンコーダで、スコアリングはトークン予算に応じて制御できる。
つまり、一次検索は軽く、再ランキングで全開という現実的運用が可能だ。
MarkTechPost


横断テーマ1 小型は“弱い”のか? いいえ、設計次第だ

TRMは浅いモデルでも深く考えられることを示した。
再帰・自己反省・課題適合の帰納バイアスが揃えば、小型×高推論は成立する。
Skalaは物理モデルの要所をNNで置換する賢い近似、LFM2は必要時のみ専門家を呼ぶスパース計算で、「軽いのに強い」を実装した。
arXiv+2Microsoft+2


横断テーマ2 “精度”はモデルだけでなく“運用”で作る

MetaEmbedの可変トークンは、スピード⇔精度を運用側で調整する発想だ。
TRMの反復思考も「一発で当てる」のではなく“直して当てる”運用に近い。
モデル設計×運用設計の相乗が、体感品質とコストを両立させる。
arXiv+1


横断テーマ3 “監査可能性”が導入の通行手形になる

Petriは圧力下の行動分布をログ化し、責任分界点を設計する材料を与える。
これにより規制・保険・大口顧客が求める“納得の根拠”を提示できる。
速さだけでなく、説明可能で再現可能な安全性が勝敗を分ける段階だ。
alignment.anthropic.com+1


事業と投資の示唆

プロダクト

TRM型の自己反省ループを小型ローカル推論に織り込み、一次回答の自己修正→再出力で正答率を引き上げる。
検索・推薦はMetaEmbedで一次は低予算、多段で精緻化
現場アシストはLFM2で“常時オフラインでも賢い”を標準に。
arXiv+2MarkTechPost+2

R&D

Skalaで高コスト計算を圧縮し、仮説→計算→実験のサイクルを短くする。
材料・創薬の探索空間が拡張され、キャッシュフローの改善に通じる。
Microsoft+1

ガバナンス

Petriで逸脱リスクのプロファイルを作り、HITLの介入点を固定。
監査ログは調達・入札・当局対話での強い交渉材料になる。
alignment.anthropic.com


筆者の見立て:次の四半期で見るべきもの

再帰思考の標準化

小型×反復は、端末常駐のデフォルトになりうる。TRM直系の改良(メモリ、探索方策、検証器の併設)が加速する。
arXiv

“粗密ハイブリッド”の普及

MetaEmbed型の一次軽量→二次全開は、企業内検索・広告リランキング・動画整理で常識化。
モデルは一つ、運用で粒度切替が当たり前になる。
arXiv+1

安全性の可視化競争

Petri互換の行動監査ログが、セールス資料の必須ページになる。
「性能のグラフ」+「挙動の地図」で導入可否が決まる。
Anthropic

オンデバイスの逆襲

LFM2の系譜は、端末NPU性能=AI運用コストという新カタログを作る。
私有データを動かさない賢さがB2Bで評価軸に。
liquid.ai

Neural-Physicsの地殻変動

Skalaの成功は、物理近似をNNが肩代わりする流れを後押し。
高価な第一原理の“必要なところだけ”を安く置換し、探索回数で勝つ戦略が普及する。
Microsoft


まとめ

大きさの時代から、配分と制御の時代へ
TRMは浅いモデルでも深く考えることを示し、Skalaは高精度を低コスト帯で引き出し、Petriは振る舞いの監査可能性を標準化し、LFM2は端末での即応性を実用域に、MetaEmbedは運用で精度を選べる検索を現実にした。
次の勝者は、計算をデザインできる人たちだ。
arXiv+4arXiv+4Microsoft+4


参考ソース

TRM(論文・実装・報道)
・論文 Less is More: Recursive Reasoning with Tiny Networks(TRM)arXiv
・GitHub SamsungSAILMontreal/TinyRecursiveModels GitHub
・VentureBeat 解説記事 Venturebeat

Microsoft Skala(論文・公式)
・論文PDF(Microsoft Research)Microsoft
・公式解説ページ(Microsoft Research)Microsoft

Anthropic Petri(公式)
・Alignment Blog(設計と結果の概要)alignment.anthropic.com
・Researchページ(導入と初期ユーザー)Anthropic

Liquid AI LFM2-8B-A1B(解説・配布)
・公式ブログ(設計と狙い)liquid.ai
・Hugging Face GGUF配布 Hugging Face

Meta MetaEmbed(論文・公式)
・arXiv 論文要旨/PDF arXiv+1
・Meta Research 公式ページ Meta AI

よかったらシェアしてね!

コメント

コメントする

目次