2026年04月23日

【前編】モデルの次は「ロングホライズン・タスク」へ——ELYZA 曽根岡氏が語る、LLM 主戦場の大転換

株式会社ELYZA 曽根岡侑也: 代表取締役 CEO

「大規模言語モデル自体は、2018年10月に Google の BERT から始まった」。ELYZA代表取締役 CEO の曽根岡侑也氏は、LLM の現在地をそう切り出した。

東京大学松尾研究室発の AI ベンチャーとして2018年に創業した ELYZA は、日本語 LLM の研究開発と社会実装を手がけてきた。2024年には KDDI グループとの資本業務提携を経て、同年9月にプロダクト「ELYZA Works」をリリース。国産 LLM プレイヤーとしての存在感を示してきた。

ChatGPT の登場から3年。モデル性能の進化は急速に進んだ一方で、「簡単なタスクではモデルの差がなくなった」と曽根岡氏は言い切る。では、LLM の主戦場はどこに移ったのか。そして ELYZA はその変化にどう向き合おうとしているのかについて、前後編でお届けする。

LLMの次の勝負「ロングホライズン・タスク」とは

2023年から2024年にかけて、LLM 業界では「GPT-4 を超えろ」がキーワードだった。各社がベンチマークのスコアを競い、日本でも日本語特化モデルの開発競争が過熱した。だが2024年後半、その競争の前提が崩れ始める。オープンソースモデルの性能が商用モデルに追いつき、「どのモデルを使っても大差ない」領域が急速に広がったのだ。

——LLM の世界で今、何が起きているのか

曽根岡：テキストの要約やメール文章の作成といったタスクは、Google、OpenAI、Anthropic のフロンティアモデルと、Meta や Alibaba の Qwen のようなオープンモデルとで、もう差分がない状態になっています。2024年半ばから性能が飽和してきていて、簡単なタスクに関しては、もうモデルによる差はないと言っていい。

——では今、何が主戦場になっているのか
曽根岡：一人の人間が5時間、10時間、あるいは1週間かけてやるような重い一連のタスクが、実は今の主戦場になっています。「50% Time Horizon」という指標があって、人間が X 時間かけるタスクを AI が50%の確率で成功できるようになったら、その X をプロットするというものです。GPT-4の時点では5分程度のタスクしかこなせなかった。それが2025年8月にGPT-5で3時間ほどになり、2025年11月に Claude Opus 4.5で5時間弱かかっていた複雑な作業が自動化されつつあります。

METRの論文では、2019年以降この time horizon が約7か月ごとに倍増してきたとされ、AI が肩代わりできるタスクの「時間の長さ」が急速に伸びている。メール1通を書くのと、調査・分析・資料作成を一気通貫でこなすのとでは、求められる能力がまるで違う。後者ができるようになれば、企業にとっての経済的インパクトは桁違いに大きくなる。

この構造変化は ELYZA 自身のアイデンティティにも関わる。同社はかつて「日本語に強い LLM」を旗印に注目を集めたが、オープンモデルが多言語で高水準に達した今、「日本語化」だけでは差別化にならない。

—— ELYZA としてはその変化をどう捉えているのか

曽根岡：もう日本語化するという話ではなくて、難度の高いロングホライズンタスクを LLM でどう解くかという段階に入っています。例えばコールセンターであればオペレーター業務の代替、製造業であれば企画プロセスの設計といった、工程の長いタスクが対象になる。こうした業界特化の取り組みが非常に重要になってきています。

——計算資源の制約もある
曽根岡：電力が足りないと言われている中で、限られたリソースをいかに効率よく活用し、難しいタスクを解いていくか。ここが大きな論点になっています。

2024年以降、世界各地でデータセンターの電力需要が急増し、新規建設の遅延や立地制約が報じられている。「より大きなモデルを作れば勝てる」という力技のアプローチは、持続可能性に疑問符がつき始めた。限られたリソースの中で、どの業務タスクにどれだけの計算資源を割り当てるか。ELYZA は自らの戦い方を再定義する局面に立っている。

コーディングエージェントの成功が示す、2つの条件

ロングホライズン・タスクの自動化が進む中で、最も目覚ましい成果を上げているのがコーディングエージェントだ。Claude Code のようなツールが急速に普及し、ターミナルを触ったことがないビジネスパーソンまでもが関心を寄せている。

だが曽根岡氏は、この現象の本質は「コーディングがすごい」ことではないと指摘する。

——コーディングエージェントへの注目が集まっているが

曽根岡：コーディングで LLM が人間に勝つようになってきたからすごいよね、という話はあるんですけど、別に LLM が勝っている領域ってコーディングだけじゃないんですよ。

セールスマネージャーとか、アナリストとか、編集者も普通に超えている。だけど皆さんの関心がコーディングエージェントに集中しているのは、コーディングならではの特殊な状況があるからだと思います。

——その特殊な状況とは何か
曽根岡：大きく言うと2つあります。1つは、AI が作業する場として完全情報であること。一つのディレクトリの中にすべてのコードが集まっていて、仕事をする上で必要な情報に全部アクセスできる。もう1つは、AI が出した出力に対して自動的に検証ができるということ。この2つが揃っているから、コーディングエージェントはとびきりうまくいっているんです。

コードベースという閉じた世界では、必要な情報がすべて手の届く場所にある。そして書いたコードが正しいかどうかは、テストを走らせれば機械的に判定できる。この「完全情報」と「自動検証」という2つの条件が、コーディングエージェントの成功を支えている。

逆に言えば、この条件を他の業務領域でも整えることができれば、同じことが起こりうる。

——コーディング以外の業務でも同じ構造は作れるのか
曽根岡：セールスマネージャーがやっていることも、考える上で必要な情報を完全情報で渡すことができる環境さえ作れば良いものが作れる。出てきた四半期の営業戦略に対して、ある程度検証・評価ができる枠組みさえ作れば、おそらくコーディングエージェントと同じようなサービスがたくさん出てくる。

それぞれのロングホライズン・タスクで「すごい」と言われる世界になると思います。

—— では今のボトルネックは何か
曽根岡：大企業で本当の業務を自動化するには、いかに完全情報環境を作り、いかに検証できる状況にしていくかが本質です。個社の基幹システムのデータなどを含めて、エージェントレディな環境を作っていくことが、この先絶対にボトルネックになってくると認識しています。

ベストプラクティスはまだ確立されていない。

だが課題の輪郭は明確になりつつある。社内に散在するデータを AI がアクセスできる形に整備し、出力を評価する仕組みを用意する。コーディングの世界で自然に揃っていた2つの条件を、意図的に構築できるかどうか。

それが、ロングホライズン・タスクの自動化を実業務に展開できるかの分水嶺になる。
後編では、この課題に対する ELYZA の回答である「ELYZA Works」の設計思想と、業務に AI を溶け込ませるための具体的な仕組みに迫る。

【前編】モデルの次は「ロングホライズン・タスク」へ——ELYZA 曽根岡氏が語る、LLM 主戦場の大転換

LLMの次の勝負「ロングホライズン・タスク」とは

コーディングエージェントの成功が示す、2つの条件

関連リンク

関連記事

Interviewの記事

Contactお問い合わせ