GPT-5.4がデスクトップ操作で人間を超えた——OSWorld 75%、AIエージェントの「手足」が現実になる日

この記事のポイント

2026年3月5日、OpenAIがGPT-5.4を発表した。1Mトークンのコンテキストウィンドウ、ネイティブのコンピューター操作機能、そしてOSWorldベンチマークで75.0%というスコア。この75%という数字が何を意味するかというと、人間のエキスパートの正答率72.4%を初めて上回ったAIモデル、ということだ。

正直、この種のベンチマーク発表には斜めに構えてきた。実際の業務とかけ離れた合成タスクで人間を上回ったところで、どれほど実用的な意味があるのかと。だがOSWorld-Verifiedは少し毛色が違う。スクリーンショットとキーボード・マウス操作だけを使って、本物のデスクトップ環境でタスクをこなす能力を測るものだ。

OSWorld 75%が意味すること

OSWorldのタスクは抽象的なパズルではない。「このPDFをExcelに変換して特定のセルに値を入れる」「ブラウザで複数ページを操作しながら情報を収集する」といった、実際のデスクトップ業務を模したものだ。

GPT-5.4のスコアは75.0%。前バージョンのGPT-5.2が47.3%だったことを考えると、1世代で28ポイント近い向上は異常なペースだ。人間のエキスパートの72.4%を超えたのも、このモデルが初めてになる。

ここで気になるのは、「75%」の裏側にある25%だ。4回に1回はタスクを完遂できないということでもある。現時点でGPT-5.4の「コンピューター操作」はあくまで補助的な位置づけであり、目を離して任せられる段階にはまだない、というのが実態だろう。

1Mトークンが変えるもの

コンテキストウィンドウの拡張も見逃せない変化だ。API経由では100万トークンまでのインプットが可能になった。

標準のコンテキストウィンドウは272Kトークン。それを超えると入力コストが1MTokあたり$2.50から$5.00に倍増する料金設計になっている。日常的なユースケースでは標準範囲で十分だが、数千ページの法律文書の一括処理や、大規模コードベースの丸ごと解析などでは、この1Mという上限が意味を持ってくる。

率直に言えば、1Mトークンを一度に処理できるコストと実用性のバランスが整うまでには、もう少し時間がかかると見ている。それでも「上限が存在しないに等しい」という体験は、エンタープライズ用途の設計自由度を根本から変える。

ネイティブコンピューター操作という転換点

これまでのAIエージェントにとって、「コンピューターを操作する」という行為は後付けの拡張機能に近かった。ブラウザ自動化ツールを組み合わせたり、APIを経由して間接的にシステムを操作したりという形だ。

GPT-5.4では、コンピューター操作がモデルのネイティブな能力として組み込まれている。スクリーンショットを見て、マウスとキーボードで操作する——人間がPCを使うのと同じ入出力インターフェースを、AIが直接扱えるようになった。

この変化の意味は、「専用APIがなくても、画面上に表示されるものならなんでも操作対象になる」という点だ。SalesforceやJiraのようにAPIが整備されたシステムだけでなく、レガシーな社内システムや、API公開していないWebサービスにも原理的にアクセスできる。AIエージェントの活用範囲が、接続先の対応状況に依存しなくなる転換点として見ることができる。

二つのバリアント：ProとThinking

GPT-5.4にはProとThinkingの2バリアントが存在する。

Proは日常的なタスクへの高速応答を重視したバリアント。Thinkingは複雑な推論が必要な問題に対して処理時間をかけて解く。コーディングや数学、複数ステップの計画を伴うタスクではThinkingが優位とされる。料金体系はProの$2.50/MTok（入力）に対してThinkingはより高い設定になっている。

使い分けの基準は単純で、「スピードが重要か、精度が重要か」だ。チャットや定型業務の自動化ならPro、法律文書のレビューや複雑なコードのデバッグならThinkingという棲み分けが自然になるだろう。

競合との立ち位置

AnthropicのClaude Sonnet 4.6は多くのコーディングベンチマークで依然として競争力を持ち、Google Gemini Ultra 2.0は科学研究領域での強みを伸ばしている。OSWorldという特定のベンチマークでGPT-5.4が首位に立ったとしても、それがすべてのユースケースで「最強」を意味するわけではない。

ただ、コンピューター操作というカテゴリは独特のポジションを持つ。RPA（ロボティック・プロセス・オートメーション）市場と直接競合するからだ。UiPathやAutomation AnywhereといったRPAツールが担ってきた「人間の代わりにPC操作を自動化する」機能を、汎用LLMが代替し始める可能性がある。

「手足を持つAI」の次のフェーズ

AIがテキストを生成するだけでなく、実際にPCを操作できるという変化は、エージェントの概念を大きく広げる。これまで「AIが考える、人間が実行する」だったワークフローが、「AIが考えて実行まで行う」に変わる領域が増えていく。

OSWorld 75%はあくまで通過点だ。次のバージョンで80%を超え、90%に近づいていけば、「AIに任せるかどうか」の判断基準は大きく変わる。AIエージェントが「アドバイスをくれる存在」から「実際に動く存在」に変わるとき、それを受け入れる側の業務設計も変化を迫られる。

コンピューターを操作できるAIは、もはや実験的な技術ではない。問われているのは、それをどう使うかという側の準備だ。

Sources: