ChatGPT が来てもロボットは動かなかった——テレイグ富岡氏が語る、フィジカル AI「前夜」の8年間

テレイグジスタンス株式会社 富岡仁: 代表取締役 CEO

2024年後半、ロボティクスの世界に衝撃が走った。

米 Physical Intelligence が発表した「π0（パイゼロ）」が、ロボットの動作生成にも大規模言語モデルと同じスケール則が働くことを証明したのだ。

この瞬間を待ち望んでいた起業家がいる。

CEOの富岡仁氏とCTOの佐野元紀氏によって共同創業されたテレイグジスタンスだ。2017年の創業以来、「人が操作したデータはいつか使える」という仮説のもと、コンビニ店舗でロボットを動かし続けてきた。

蓄積した操作データは実に3万時間を超える。

ChatGPT が世界を席巻した2022年末、ロボティクス業界は静かだった。言語モデルの革新がロボットの動作生成に応用できるとは、誰も気づいていなかったからだ。8年間、別の時間軸を歩んできた富岡氏に、フィジカル AI 時代の到来と日本勢の戦い方を聞いた。

ChatGPT が来ても、ロボットは動かなかった

MODEL H の量産試作（プロトタイプ）

テレイグジスタンスの原点は、東京大学の舘暲名誉教授が1980年に提唱した「テレイグジスタンス（遠隔存在）」の概念にある。人間が物理的に離れた場所のロボットを、自分の身体のように操作できる技術だ。富岡氏は2017年、この技術の事業化に挑むべく舘教授と佐野氏と会社を設立した。

創業時のコンセプトは明確だった。2012年に登場した画像認識 AI を活用し、工場の外、つまり環境が刻々と変化する現場でロボットを動かすこと。従来の産業用ロボットのように、あらかじめ決められた動作を繰り返すのではなく、認識系 AI とモーションプランニング、そして遠隔操作を組み合わせて実用化を目指した。

ーー創業時、どんな仮説を持っていたのか
富岡：機械学習というものがあるときに、教師データ、つまり正解のデータをロボットに与えて学習させます。ロボットにとっての教師データは人が動かしたデータなので、「これっていつか使えるよね」という仮説はあったんです。ただ、その方法論として基盤モデルが使えるとは、当時は思い至っていませんでした。

最初に開発したのは、上半身だけで48もの関節を持つ人型ロボットだった。しかし、これが「ものすごく大失敗した」と富岡氏は振り返る。

ーー人型ロボットで何がうまくいかなかったのか
富岡：遠隔操作ベースで動くものは作れますが、将来的な自律化を考えるとハードウェアの精度や制御が追いつかないです。例えば、手先位置精度の問題です。手先位置の誤差、行きたいところにどれだけ正確に行けるかが重要なんですが、この誤差が当時の人型ロボットでは大きすぎました。遠隔操作では人の目によるヴィジュアルフィードバックで誤差はいくらでも吸収できますが、AIで自律的に動かすことを考えたら当時のロボットの誤差は許容範囲を超えてました。そこで問題を切り分けて、飲料の陳列という特定の課題に最適化した軸構成がシンプルなロボットを作って実装することにしました。それが TX SCARA や Ghost です。

TAKANAWA GATEWAY CITYのローソンに導入されている「TX GHOST」

2020年、同社はローソンの店舗に遠隔操作ロボット「Model-T」を導入する。2022年にはファミリーマート300店舗への展開を開始した。現在はセブン-イレブン、ファミリーマート、ローソンの大手3社すべてに飲料補充ロボット「TX SCARA」を導入している。

興味深いのは、これらのロボットが完全な自律動作ではないことだ。99%は画像認識系とモーションプランニングで自律的に動くが、残り1%はフィリピンから人間が遠隔操作で介入している。

ーーフィリピンからの遠隔操作とは、具体的に何をしているのか
富岡：例えば、お客さんが飲料を取ろうとして倒れてしまったとき、この変化量が多すぎると、ヴィジョンベースの制御では対応できません。倒れた飲料の姿勢を認識して、Slackでフィリピンのセンターに通知が飛びます。彼らが VR をつけてロボットの視点で東京の店舗を見て、倒れた飲料を立て直します。これを24時間、もう3年間やっています。

この地道なオペレーションには、もう一つの目的があった。人間が操作するたびに、そのデータが蓄積されていく。富岡氏の言う「いつか使える教師データ」だ。

ChatGPT が登場した2022年末も、ロボティクス業界の景色は変わらなかった。GPT 自体は2018年から存在していたが、それがロボットの動作生成に応用できるという考えはそこまで主流ではなかったらしい。

ーー2023年に ChatGPT が大きく話題になったが、富岡氏の事業に影響はあったのか
富岡：実は2018年頃に GPT が出てきたときも、2022年に ChatGPT が出てきたときも、誰も気づいていませんでした。アカデミックで模倣学習という理論は当時から存在していたが、そのHowがようやくわかったのは2024年の後半です。Physical Intelligence が出した「π0」というモデルで、データの量と計算リソースを投入すればスケール則が働きます。大規模言語モデルと同じことがロボットでもできると証明されたのです。

「ロボット版 GPT-1」が証明したこと

世界に衝撃を与えた Physical Intelligence の「π0（パイゼロ）」

2024年10月、Physical Intelligence が発表した「π0（パイゼロ）」は、ロボティクス業界に衝撃を与えた。

ChatGPT に代表される大規模言語モデルは、自然言語で問いかけるとまるで人間のように回答を返してくれる。π0 は、この革新をロボティクスで実現したモデルだ。

従来のロボットは、あらかじめプログラムされた動作を繰り返すか、特定のパターンを認識して決められた反応を返すだけだった。しかし π0 なら、「このカップを棚に置いて」と言えば、ロボットが状況を理解し、適切な動きを自ら考えて実行する。そんな世界が現実味を帯びてきたのだ。

π0 は30億パラメータの Vision-Language-Action（VLA）モデルで、自然言語の指示とカメラ画像を入力すると、ロボットの関節を動かすモーターコマンドを1秒間に50回出力する。技術的な革新は、大規模言語モデルと同じアーキテクチャをロボットの動作生成に適用したことにある。

Google の PaliGemma という視覚言語モデルをベースに、「フローマッチング」と呼ばれる手法で連続的な動作を生成できるよう拡張した。学習に使われたのは、7種類のロボットプラットフォームで68種類のタスクを実行した1万時間超のデータ。

洗濯物をたたむことや、テーブルの片付け、箱の組み立ては、これまで「人間にしかできない」とされてきた複雑な作業を、π0 は「自律的に」こなす入口にまでやってきた。

共同創業者の Karol Hausman 氏は π0 を「ロボット版 GPT-1」と表現した。GPT-1 が登場した2018年、誰もその後の ChatGPT を予測できなかった。同じことがロボティクスでも起きようとしている。

2025年2月には π0 のコードと学習済みモデルをオープンソースとして公開。その後も π0.5、π0.6 と進化を続けている。ロボットが自律的に動く世界は、もはや研究室の中だけの話ではない。

テレイグジスタンスにとって、これは8年越しの答え合わせだった。「人が操作したデータはいつか使える」という仮説は正しかった。

Physical Intelligence がやってきた

ーーなぜ彼らはテレイグジスタンスに声をかけたのか
富岡：学習モデルには、事前学習用のデータと、実際のユースケースに使う事後学習用のデータの2種類が必要です。Physical Intelligence が作ったのは事前学習のモデルだけでは完成しない。事後学習のデータ、つまり実際の現場でロボットを動かしたデータがないと、完璧な動作生成はできないんです。

ーー LLM との違いは何か
富岡：言語の場合、データがインターネット上にあるので、データコストが安いです。でもロボットのデータはないので、作らないといけません。もしくは、オペレーションをやっている人たちから取ってこないといけません。事後学習のデータを持っているのは、実際にロボットで市場を取って、お客さんがいる現場でオペレーションしている会社だけなのです。

ここに、大規模言語モデルとロボット AI の決定的な違いがある。言語モデルの学習データは極端に言えばインターネット上に膨大に存在する。しかし、ロボットの動作データは存在しない。誰かが作らなければならないのだ。

テレイグジスタンスは3年間のオペレーションで3万時間超の操作データを蓄積してきた。Physical Intelligence がアプローチしてきたのは、まさにこのデータを求めてのことだった。

ただし、富岡氏は単純にいとデータを提供するつもりはないという。

ーー Physical Intelligence との協業をどう考えているか
富岡：データを渡して彼らのモデルでどこまで動作生成ができるか、現場環境でも機能するか、このあたりを協業という形でともに開発、実装を進めています。一方、大事なのは、学習用のデータをどう安く取って学習させるか、それは自分たちでやります。

では、なぜ Physical Intelligence はテレイグジスタンスと組むのか。富岡氏は興味深い指摘をする。Physical Intelligence は、基盤モデル領域のトップ研究者が集まった組織だ。

しかし、ロボットを実際の現場で継続的に運用し、ハードウェアの挙動やデータ取得の勘所を熟知するチームを作るためにはやはり、それなりの経験と実績が必要になる。AI のアーキテクチャを設計する能力と、実際のロボットを現場で動かす能力は別物だからだ。

Physical Intelligence が持つのは前者、テレイグジスタンスが8年かけて築いたのは後者。ソフトウェアとハードウェア双方への深い理解と、その過程で蓄積された3万時間超の操作データだ。両社が組んだのは、互いに持たないピースを補い合うためだった。

様々なシチュエーションの「ドリンク」が置かれる、テレイグジスタンス本社のテストルーム

Physical Intelligence との提携発表から約8ヶ月。両社の協業は具体的な成果を生み始めている。

3年半にわたり数百店舗以上で24時間稼働させてきた遠隔操作データを Physical Intelligence のモデルに入れて検証した結果、これまで人間の遠隔操作に頼っていた部分が、動作生成できることが確認された。

ーー具体的にどんな成果が出ているのか
富岡：コンビニの棚にあるドリンクがどんな倒れ方をしても、もうゼロショットで初見で直しちゃうんです。それは今までの方法ではできなかったので、今年はこれを全部実装する計画です。

「ゼロショット」とは、特定の状況を事前に学習していなくても、初見で適切な動作を生成できることを指す。従来の認識 AI とモーションプランニングでは、想定外の状況、例えば商品が予期せぬ角度で倒れた場合に対応できなかった。π0 ベースのモデルは、この限界を突破した。

新たな可能性を得た富岡氏は次のステップを語る。

「より複雑な動作への対応だ。」

2025年9月、同社はセブン-イレブン・ジャパンと生成 AI 搭載ヒューマノイドの共同開発を発表した。コンビニのカウンター内業務を担うロボットで、上半身は人と同じような動きができるハードウェア構成だ。2026年上半期には店舗への導入を開始し、実際の環境でデータを取りながらモデルの精度を上げていく計画だという。

課題は、必要なデータ量が誰にもわからないことだ。

富岡氏によれば、一つの「エピソード」に最低数百時間のデータが必要になる可能性がある。言語モデルがインターネット上の膨大なテキストを学習できるのに対し、ロボットの動作データは一つひとつ、人間が実際に操作して作らなければならない。

「やりながら見つけるしかない」と富岡氏は語る。

資本勝負の時代、2017年から始めていてよかった

富岡氏は起業前、三菱商事で海外インフラ投資を手がけ、その後シリコンバレーのグロースキャピタルファンド Geodesic Capital の組成にも携わった。投資家としての経験を持つ富岡氏に、2017年という創業タイミングをどう評価するか聞いた。

ーー投資経験者として、2017年の創業タイミングをどう振り返る
富岡：結果としては、ちょうどいいタイミングだったと思います。ただ、これは狙ってできるものではないです。去年 Physical Intelligence がバーンと出てきて盛り上がって、今から始めようとしている人、特に従来のインターネット・モバイルのようなスタートアップの方法で始めようとしている人は厳しいです。

ーー今から始める人にとって、何が厳しいのか
富岡：Physical Intelligence は2024年にできた会社ですけど、最初のラウンドで Jeff Bezos とかが入って、いきなり数百億円調達しているわけです。今から始める人はそういう勝負をしないと間に合わない。でも日本だと、そういう戦い方ができる資本市場がないのです。

ーーだからグローバルで戦うしかない
富岡：グローバル化せざるを得ないので、国内の資本市場にはこのスケールの勝負ができるチャンスはわずかしかないです。アメリカか、もしくは2017年からやっていてちゃんとオペレーションを回している会社じゃないと、正直スタートアップが夢を見られる世界ではないです。

「従来の方法」とは、シードで数億円、シリーズ A で十数億円といった日本のスタートアップの標準的な資金調達ペースを指す。しかし、フィジカル AI の領域では、そのペースでは間に合わない。実際、Physical Intelligence は先ごろ、7兆円という評価額で2,500億円を調達したと報じられている。ケタ違いの勝負なのだ。

8年前、富岡氏は「人が操作したデータはいつか使える」という仮説を持って起業した。その方法論は見えていなかったが、仮説自体は正しかった。

ChatGPT の喧騒の裏で、テレイグジスタンスはコンビニの店舗でロボットを動かし、24時間体制で操作データを蓄積し続けた。その3万時間超のデータが、フィジカル AI 時代の到来によって、ようやく「使える」ものになろうとしている。

テレイグジスタンスが8年間かけて築いた「データ」こそが、この資本勝負の時代における最大の武器なのかもしれない。

📚 ソース
Physical Intelligence 公式: https://www.pi.website/
π0 公式ブログ: https://www.pi.website/blog/pi0
Bloomberg Series B 報道: https://www.bloomberg.com/news/articles/2025-11-20/robotics-startup-physical-intelligence-valued-at-5-6-billion-in-new-funding
InfoQ 技術解説: https://www.infoq.com/news/2024/12/pi-zero-robot/
The Robot Report: https://www.therobotreport.com/physical-intelligence-raises-600m-advance-robot-foundation-models/