人間レベルの手指操作をロボットに——フィジカルAI企業RLWRLD、累計63億円調達で2026年モデル公開へ

RLWRLD Inc. 李勲: RLWRLD Inc.日本代表

2024年に設立されたフィジカル AI スタートアップのPhysical Intelligence リアルワールド（RLWRLD Inc.）が、シード2ラウンドで約2,600万米ドル（約40億円）の資金調達を実施し、累計調達額が約4,100万米ドル（約63億円）に到達した。

同社は製造・物流・流通などの産業現場で活用できるロボット向け基盤モデル（RFM：Robotics Foundation Model）の開発を手がけ、米国・韓国・日本に拠点を構えている。

同社が開発するのは、ロボットが環境を「見て、理解して、手で作業する」ための VLA（Vision-Language-Action）モデルだ。視覚と言語の理解にロボットの動作を統合した基盤モデルで、産業現場から収集した高精度な4Dマルチモーダルデータを独自システムで学習させる点に特徴がある。

特に自由度15の5本指による人間レベルの手指操作能力（dexterity）の実現を掲げ、従来のグリッパー型ロボットとの差別化を図っている。産業別にファインチューニングして提供する仕組みで、韓国・日本の主要企業と PoC（概念実証）や RX（Robotics Transformation）プロジェクトをすでに進めており、2026年上半期にはロボット基盤モデルの正式公開を予定する。

代表を務める柳重熙（リュウ・ジュンヒ／Junehee Ryu）氏は、コンピュータビジョン企業 Olaworks を創業し Intel への売却を経験した後、ディープテック特化のアクセラレーター FuturePlay を設立。RLWRLD は同氏にとって4社目の起業となる。

資金調達面では、シード1ラウンドで約1,500万米ドル（約23億円）を調達し、Hashed Ventures、Global Brain、KDDI、ANA、島津製作所、三井化学、PKSHA Technology らが出資。今回のシード2ラウンドには Headline Asia、Z Venture Capital のほか、CJ 大韓通運、カカオインベストメント、ロッテベンチャーズなど物流・流通領域の戦略的投資家が新たに参画した。

同社日本代表の李勲（イ・フン／Hoon Lee）氏は、ボストンコンサルティンググループ（BCG）などを経て2025年に就任。フィジカル AI の現状と展望について話を聞いた。

2024年末が転換点、GoogleのRT-2、PIのπ0、NVIDIAのGR00Tが示した可能性

李氏がフィジカル AI の本格的な可能性を確信したのは、2024年末のことだった。Google DeepMind の RT-2、Physical Intelligence の π0、NVIDIA の GR00T といったロボット向けの基盤モデルが次々に登場したことで、「フィジカル AI も本格的に実用化のフェーズに入るのではないか」という期待が強くなったのだ。

李氏：24年頃にGoogle DeepMind の RT-2、Physical Intelligence の π0、NVIDIA の GR00T などのモデルが出てきて、さらに LLM がこれまで示してきたポテンシャルを考えると、「フィジカル AI も本当に現場で使えるようになるんじゃないか」「同じような成長トレンドになる可能性があるんじゃないか」と考えるようになりました。

李氏は LLM の発展パターンとの類似性を指摘する。ChatGPT のユーザー数が爆発的に増加したのは GPT-4o からで、現在は8億〜9億人に達している。この背景には、モデルの学習とファインチューニング、そしてアーキテクチャの進化によって、パラメータ数が数千億単位から兆単位へと拡大したことがある。
つまりモデルのスケールが大きくなり、十分な学習が行われることで推論能力も上がって、さまざまな質問やタスクに答えられるようになってきた。

李氏：LLM や VLM の世界では ChatGPT だけでなく、最近は Anthropic の Claude などのモデルも大きな注目を集めていますよね。最近の Physical AI、つまり VLA（Vision-Language-Action）モデルの流れを見ても、似たようなトレンドが出てきていると感じています。

π0 を開発した Physical Intelligence は、Google や Google DeepMind 出身の研究者などが中心となって設立された企業で、李氏は実世界データの活用に特徴があると分析する。ロボット分野ではシミュレーションデータや合成データも広く使われているが、同社は実世界のロボットデータを大規模に集めて学習させた点が特徴だ。ただし、それだけでは限界もあると見る。

李氏：π0 は VLM をベースにロボットのアクション生成を組み合わせたモデルで、モデル自体が特別に優れているというよりは、実世界データで学習されたロボットモデルが公開されたことのインパクトが大きかったと思います。

独自アーキテクチャと5本指の器用さを実現する技術

フィジカル AI の性能を決める要素について、李氏は明確な見解を持っている。基盤モデルの根底には LLM と同様にディープラーニングがあるが、ロボットの場合は環境認識や行動生成などの要素も組み合わされる。性能を左右する主な要素は大きく4つあるという。

第一にモデルのアーキテクチャ。ロボットは環境を認知・理解しながら、数十ミリ秒単位で推論を行い、行動を計画する。第二が事前学習で、これは「小学生や幼稚園ぐらいの脳みそを作る」段階に相当する。第三がファインチューニングで特定タスクへの適応を図り、最後が実際の推論でロボットが動作する。

RLWRLD の技術的な差別化ポイントは、モデルのアーキテクチャ設計と事前学習にある。同社は高自由度ハンドのロボット向け基盤モデルを高精度に学習させるための独自アーキテクチャを開発しており、さらに事前学習の段階から自社でデータ収集とモデル学習を行っている点が特徴だ。

こうした取り組みにより、既存のオープンソースモデルと比較して、より高いタスク成功率や学習効率が期待される。その結果、自由度15の5本指ハンドによる高度な器用操作に特化したアプローチを実現している。

李氏：弊社には独自のレシピがあり、アーキテクチャから事前学習の段階まで、単なる5本指ではなく高い自由度で器用さを発揮できる5本指向けのデータを学習させています。

既存のロボット基盤モデルはグリッパー前提のデータが多く、高自由度の5本指ハンドで細かな器用さを実現するには追加の学習や設計が必要になるケースも多い。RLWRLD はアーキテクチャ設計から事前学習までを独自に構築することで、高度な器用さの実現を目指している。

汎用性を追求、段階的にスキルを拡大

では、このフィジカル AI、社会実装の鍵はどこにあるのだろうか？
それはやはりロボットの「動き」にあると考えるのが自然だろう。ダンスのようなパフォーマンスはわかりやすい反面、その活動の範囲はエンターテインメントに限られてしまう。
コーディングや自然言語処理が LLM の爆発的拡大を牽引したように、ロボットにも「キラーアプリケーション」となる動きがあるはずだ。

この質問に対し、李氏が回答として挙げたのが「ピックアンドプレイス」だった。
フィジカル AI の業界では「アトミックスキル（atomic skills）」と呼ばれるロボットの基本単位が定義されているのだが、最も重要視されているのがピックアンドプレイス（認知して持ってどこかに置く）動作になる。「コンビニでも、品出しとか陳列はすべてがピックアンドプレイス」と李氏は説明する。

そこから徐々に難易度は上がり、工学的に把持が難しい物体を扱ったり、柔らかい衣類のような変形物体を畳んだりといった、より高度な器用さが求められる作業へと広がっていく。最終的に最も難しいのが道具を使う作業となる。

李氏：ロボット自体が例えばスクリュードライバーとかを持って人間のような作業をする。これは道具を操作する動きと対象物を操作する動きの両方が必要になるため、技術的には一番難しい。弊社は結論から言うと全部目指しています。そしてこれは段階的に目指しています。

データ・アーキテクチャ・推論の3つのボトルネック

世界的にも大きな波となりつつあるフィジカル AI 領域だが、今後の普及にあたり、どこに課題が生まれるのだろうか？
フィジカル AI 実現のボトルネックについて、李氏は3つの要素を挙げる。それがデータ、アーキテクチャ（モデルの大きさ）、そして推論（GPU パワー）だ。
特に課題として挙がりやすいデータについては、量だけでなく質が重要だと強調する。

李氏：みなさんが見落としがちなのは、データが大量に必要なのは合っていますが、質のいいデータが必要だということです。どのデータがいいデータなのかは、正直なところ基盤モデルを開発している人でないとわからない。

アーキテクチャ面では、最新の動画生成の拡散モデル（ビデオアクションモデル）の動向に注目している。従来はロボットの低いレベルの制御（動作箇所）への指示のみを推論していたが、環境認知も含めて、ワールド環境自体を推論することで成功率が向上するという。同社は大学との協業体制を構築し、特に韓国 AI 分野のトップである研究者との連携により、毎週進化する技術進捗を吸収している。

推論面では将来的な課題を予見する。
現在はエッジコンピューティングでワークステーションの GPU と連携して動作しているが、商用化段階では困難になる可能性が高い。ロボット基盤モデルも LLM と同様にパラメータ数が拡大し、推論負荷が増大するためだ。

李氏：Atlas が5万台量産するかもしれないとか、UnitreeもFigure AIや1Xなど各社から量産計画が発表されています。つまりヒューマノイドが大量に供給されて、それを推論で動かすとなると、5G 通信やデータセンターといったインフラが重要になると思っています。

この観点から、適切なインフラを持つ企業との協業の重要性を指摘し、KDDI との連携についても評価していると語っていた。
2026年上半期には同社のロボット基盤モデルが正式公開される予定で、戦略的パートナーとともにグローバル市場での本格展開を加速していく構えだ。