米スケールAIは合成データの生成と現実世界のデータの収集を組み合わせ、データラベル付け事業をモデル開発に拡大している=同社サイトより
日本経済新聞社は、スタートアップ企業やそれに投資するベンチャーキャピタルなどの動向を調査・分析する米CBインサイツ(ニューヨーク)と業務提携しています。同社の発行するスタートアップ企業やテクノロジーに関するリポートを日本語に翻訳し、日経電子版に週1回掲載しています。

ロボティクス部門の2025年の資金調達額は407億ドルと前年比74%増え、過去最高を記録した。スタートアップによる調達額全体の9%を占め、部門別の調達額ではAIソフトウエアと並んでトップに立った。

この成長をけん引するのは、事前にプログラムされたルールではなく、データから学習してロボットを現実世界で動かせるようにする「フィジカルAI」だ。

フィジカルAIの開発競争の中心は、ロボットが様々なタスクを学習する基盤モデルの構築だ。ロボットを動かすフィジカルAIモデルはテキストから学習する言語モデルとは違い、現実世界のロボットのデータを必要とする。これが市場支配に向けた早期のチャンスをもたらしている。

フィジカルAIモデルの10のカテゴリーの企業約70社を洗い出し、市場マップにまとめた。各社を4つのグループに分類した。

データ&シミュレーション:合成データ生成、現実世界のロボットのデモンストレーション、ロボットが仮想環境で学習するシミュレーションプラットフォーム

モデルのアプローチ:ロボットが環境を理解し(視覚言語モデル:VLM)、動作を生成し(視覚言語行動=VLAモデル)、その結果を予測する(世界モデル)ことを可能にする中核AIアーキテクチャー

基盤モデル:一般的な操作や推論、自動運転、複数のロボットの連携のために様々なモデルアーキテクチャーを組み合わせた事前学習済みのロボットの知能

オブザーバビリティー(可観測性):展開されたロボットをモニタリングし、現実世界のデータを学習にフィードバックして性能向上につなげるプラットフォーム

フィジカルAIモデルの市場マップ。出所:CBインサイツ

注:主な上場企業とモザイクスコア(スタートアップの健全性と将来性を示すCBインサイツの独自スコア)500点超の未上場企業を対象にした。構成企業が5社未満のカテゴリーは全てを掲載した。企業は複数のカテゴリーに重複して登場する場合がある。マップはこの分野の企業を網羅してはいない。

主なポイント

1.独自の学習データはフィジカルAIの重要な競争優位性で、巨大テックは買収を通じてこれをいち早く確保しようとしている。米エヌビディアは25年3月、合成データを提供する米グレーテル(Gretel)を約3億2000万ドルで買収した。米メタはデータインフラとモデル開発を手掛ける米スケールAI(Scale AI)に148億ドルを出資した。

米オープンAI(OpenAI)は学習データを取得するためにメダル(Medal、オランダ)を買収しようとしたが、メダルはそのデータでモデルを開発するためにゼネラル・イントゥイション(General Intuition、オランダ)を立ち上げた。

独占的な学習データを握っている企業は高性能モデルを開発できるが、競合他社はライセンス契約に基づく利用を余儀なくされる。多様で良質な学習データをいち早く確保できるかどうかが、商用規模に達する企業を決める要因になるだろう。

2.世界モデルによりロボットは自律的に予測し、計画できるようになる。これは大規模言語モデル(LLM)で達成できる能力を上回る。世界モデルへの投資額は24年の14億ドルから25年には過去最高の69億ドルに急増した。この分野の企業の平均モザイクスコアは722点(全ての分野の上位3%に位置)に上る。

だが成功するには、制御された環境からの良質な学習データと、複雑な現実世界のタスクを円滑にこなせるハードウエアメーカーとの緊密な連携が必要だ。

3.複数のロボットの連携はフィジカルAIになお欠けている重要な要素だ。単体のロボット開発では基盤モデルを主導する米国と中国が先行しているが(米企業は17件で170億ドル以上を調達、中国企業は15件で4億1600万ドルを調達)、いずれも個々のロボットの機能にほぼ特化している。

様々なタイプのロボットを連携させるオーケストレーションの開発を手掛ける企業はごくわずかだ。連携の問題をいち早く解決した企業は、自律型ロボット群を様々な産業に拡大させるだろう。

各カテゴリーの概要

データ&シミュレーション

ロボットの学習基盤を提供するカテゴリー。ロボットには膨大な学習データが必要だが、現実世界でのデータ収集には時間もコストもかかる。合成データ、現実世界の実演、ロボットが安全に失敗できるシミュレーションなどの市場が含まれる。

ロボット向け合成学習データ:コストの高い現実世界のデータ収集ではなく、画像やセンサーデータ、3次元(3D)シーンなどの合成データセットを生成するツール

ロボットの実演データプロバイダー:模倣学習用に現実世界のデータ(遠隔データ、動作軌道、動画)を収集する企業

ロボットのシミュレーション基盤:実際に展開する前にロボットを訓練、テスト、検証する仮想環境

フィジカルAIの主なボトルネックは学習データの不足だ。現実世界の学習データはコストが高く、手に入りづらい。このカテゴリーの平均モザイクスコアは約600点(全体の上位半分に位置)で、現在50%の企業が展開段階にある。つまり、フィジカルAI向けデータインフラは研究段階を超え、商用段階に入りつつある。

今や、多くの企業が合成データとシミュレーションを活用しており、エヌビディアがこの市場をリードしている。だが、信頼できるモデルの学習にはやはり現実世界のロボットのデータが不可欠だ。この分野のリーダーはスケールAI(調達総額164億ドル、モザイクスコア上位1%に位置)だ。同社は合成データの生成と現実世界のデータの収集(人間によるロボットの遠隔操作や、実際の環境でのセンサーデータを含む)を組み合わせ、データラベル付け事業をモデル開発に拡大している。

新興プレーヤーは学習データの不足を補う新たなデータ源を探している。例えば、ゼネラル・イントゥイションはロボットに応用できるゲームプレー動画でモデルを学習させるため、1億3400万ドルを調達した。米マイクロワン(micro1)は企業価値5億ドルで3500万ドルを調達し、人間とやり取りする動画から世界最大のロボット学習データセットを構築している。

独自のデータセットやシミュレーション基盤を持たないロボット企業は、こうしたリーダーからライセンス供与を受けなければ、触覚、圧力、物理的な動作など重要なデータで後れをとる恐れがある。

モデルのアプローチ

ロボットに視覚、推論、行動する能力を与え、相互作用するモデル。こうしたモデルを統合することで、ロボットを硬直的なプログラミングに従うのではなく、新しいタスクに適応できるようにする。

視覚言語モデル(VLM)開発企業:視覚による理解と自然言語を組み合わせたマルチモーダルモデル。ロボットの知覚レイヤーとして機能する

視覚言語行動(VLA)モデル開発企業:VLMに基づいて視覚、言語理解、運動制御を組み合わせたAIシステム。指示を物理的行動に直接変換する

世界モデル開発企業:周囲の環境の変化をシミュレーションし、空間関係、物理法則、因果関係を予測するモデル

フィジカルAIはロボティクスを硬直的なプログラミングから、柔軟でタスクに応じたシステムへとシフトさせつつあり、VLAモデルが主なアーキテクチャーとして台頭している。米フィギュアAI(Figure AI)、1Xテクノロジーズ(1X Technologies、ノルウェー)、中国の銀河通用機器人(Galbot)など主なヒューマノイド(ヒト型ロボット)企業が独自のVLAモデルを構築する一方、エヌビディアやメタなどの巨大テックはロボットメーカーにライセンス供与するためのモデルを開発している。

世界モデルはこのスタックに予測推論を加えたもので、真の突破口になる可能性がある。米ワールドラボ(World Labs)や米ランウェイ(Runway)などが開発を進めている。即時の入力に反応するVLAとは違い、世界モデルは時間の経過に伴う環境の変化をシミュレーションし、ロボットに結果を予測させ、複数の段階に及ぶ行動を計画させ、エラーから回復できるようにする。

基盤モデル

基盤モデルはデータとアーキテクチャーを組み合わせ、知覚、推論、行動が可能な事前学習済みのロボットの知能にする。汎用型の操作モデルもあれば、特化型モデルもある。開発者は今や一から開発するのではなく、この知能をライセンス利用し、適応させられるようになっている。

ロボット基盤モデル開発企業:様々なロボットの視覚、思考、動きを支える汎用モデル

自動運転基盤モデル開発企業:膨大な運転データセットで学習したモデル。知覚、予測、計画、制御を統合し、ロボットタクシー、トラック輸送、配送で従来の自動運転システムに取って代わりつつある

マルチロボット連携モデル開発企業:タスクの分配、衝突回避、分散型の意思決定を扱うことで、ロボット群を連携させるマルチエージェントのアルゴリズム

基盤モデル市場は依然として非常に活発だ。米巨大テック(マイクロソフト、グーグル、アマゾン・ドット・コム)と中国のテック大手(華為技術=ファーウェイ、百度=バイドゥ)が、中国のディープシーク(DeepSeek)や米フィジカル・インテリジェンス(Physical Intelligence)など注目のスタートアップとしのぎを削っている。

多くの企業は複数のタイプの基盤モデルを開発している。ある分野の学習データが他の分野のモデルの性能を向上させる場合もある。エヌビディアは上記の3つのカテゴリーの基盤モデルを全て手掛ける唯一の企業で、フィジカルAIスタック全体のインフラとして地位を固めている。

倉庫で自律走行ロボットや自律フォークリフトと協働するヒト型ロボットなど、複数のロボットを連携させることが次のフロンティアだ。様々なタイプのロボットを連携させるには、中央制御なしでタスクとリソースを管理し、衝突を回避するオーケストレーション層が必要になる。その開発に取り組んでいるのは米フィールドAI(Field AI)や米イントリンシック(Intrinsic)といった少数のスタートアップだけで、大半は商用展開ではなく研究段階にとどまる。

独自モデルを持つ企業は差異化と垂直統合により高い利益率を実現できる可能性がある。外部AIをライセンス使用する企業は、モデルのコモディティー化による価格低下の恩恵を受けられるが、中核技術ではなく展開の速さと全体的な品質で勝負することになる。

可観測性

可観測性とは、ロボットが実際の稼働環境で動作するとどうなるかを把握し、実験室での開発と現実世界での展開のギャップを埋めることを指す。

ロボティクス可観測性プラットフォーム:開発中や稼働中のロボットをモニタリングし、バグを発見して修正し、最適化する基盤

ロボットが故障したり誤作動したりした場合、技術者はそれを再現して原因を特定し、修正する。現実世界のエッジケースをシミュレーションや学習にフィードバックすることで、モデルは洗練され、性能が高まる。例えば米フォックスグローブ(Foxglove)や米フォーマント(Formant)は性能を追跡し、故障を分析し、展開で得た知見を学習データセット、シミュレーション、モデルにフィードバックする。

強力な可観測性を持つ企業は失敗から学び、モデルを速やかに改善できる。予期せぬ状況を学習の強みに変え、導入可能なシステムとして実験室での試作品とは一線を画す。

鄭重声明:本文の著作権は原作者に帰属します。記事の転載は情報の伝達のみを目的としており、投資の助言を構成するものではありません。もし侵害行為があれば、すぐにご連絡ください。修正または削除いたします。ありがとうございます。