思考してから映像をつくる——アリババ「Wan 2.7」が変えるAI動画生成の文法

この記事のポイント

「構図を考えてから撮る」。映像制作では当たり前のことが、AIツールではこれまでほぼ無視されてきた。プロンプトを放り込んで、出てきた映像を見て、気に入らなければまた投げる——そのトライアンドエラーの繰り返しに、現場の映像クリエイターが疲弊していることは想像に難くない。

アリババの研究部門・通義ラボが2026年4月6日に発表した「Wan 2.7」は、その前提を崩しにきたモデルだ。生成前に「考える」ステップを挟む「Thinking Mode」の搭載が、このモデルの最大の特徴である。

Sora撤退後の空白地帯で何が起きているか

Wan 2.7の登場を理解するには、直近の市場文脈を押さえておく必要がある。

OpenAIは2026年3月24日、動画生成AI「Sora」の段階的終了を発表した。4月26日にはアプリが閉鎖され、9月にはAPIも停止される。1日100万ドルの運営コストに対してユーザーが半減し、Disneyとの10億ドル提携も白紙に戻った——かつて業界を震撼させたSoraが、ビジネスの壁を越えられなかった事実は重い。

だが、Soraの失敗は「AI動画生成が不要だ」という結論を意味しない。プロフェッショナル用途でのニーズは確実に存在する。問題はコストと品質管理の難しさだった。その隙間に、RunwayやKling、そして中国勢が積極的に参入している。アリババが今このタイミングでWan 2.7を投入してきたのは、偶然ではないだろう。

「思考してから生成する」とは何を指すのか

Wan 2.7の技術的な核心は、Thinking Modeにある。

従来のAI動画生成モデルは、プロンプトを受け取ったら直接生成処理に入る。カメラアングル、被写体の動き、光源の位置——こうした映像の基本要素をモデルが内部でどう処理しているかは、ほぼブラックボックスだった。

Wan 2.7では、生成前にプロンプトを深く解析し、構図・カメラワーク・動きのロジックを明示的に計画するフェーズを設けた。人間のディレクターが撮影前にショットリストを作るような行為を、モデルが自動でこなす。通義ラボはこのプロセスを「空間論理と時間ダイナミクスの理解」と表現している。

実際にどんな差が出るのか。たとえば「俯瞰ショットから始まり、人物に寄っていく」といった複雑なカメラワークを指示した場合、思考ステップなしのモデルはしばしば途中で挙動が崩れる。Thinking Modeはその崩れを事前に防ぐための仕掛けだ。

もちろん、すべてのユースケースでThinking Modeが必要というわけではない。シンプルな映像であれば通常モードで十分速く生成できる。使い分けができる設計になっている点は、実用的な判断といえる。

4機能を1スイートに収めた設計思想

Wan 2.7がもう一つ際立っているのは、映像制作に必要な機能を単一スイートとして提供している点だ。

テキスト→動画は基本機能として、自然言語のプロンプトから映像を生成する。ここにThinking Modeが乗る。画像→動画では静止画を動かす処理を担い、既存のビジュアルアセットを起点に映像を展開できる。

リファレンス動画機能は、スタイルや動きのパターンを参照元として指定できる仕組みだ。「このMVのカメラワークに近い動きで」という指示が可能になる。広告制作や企業プロモーション映像など、クライアントが具体的なリファレンスを持つ現場では特に重宝する機能だろう。

インテリジェント編集は生成後の調整フェーズをカバーする。生成した映像の一部を修正したり、要素を入れ替えたりする作業を、再生成なしに行える。この機能の成熟度次第では、現場のイテレーションコストを大きく削減できる。

4機能を一つのAPIでまとめて使えるという設計は、ツールの乗り換えコストを嫌う実務の現場に響く判断だ。

1秒あたり0.10ドル——コスト設計の意味

APIの価格設定も注目点だ。Wan 2.7のAPI利用料は1秒あたり0.10ドル。5秒の動画なら0.50ドル、60秒なら6ドルという計算になる。

Soraが直面した「コストが見合わない」という構造的課題を思い起こすと、この価格設定は意識的な打ち手に見える。Soraは月額サブスクリプションモデルでユーザーに提供し、重量級の計算コストとの乖離に苦しんだ。Wan 2.7はAPIの従量課金にしてスケールを確保しつつ、実際に生成された秒数分だけ課金するという直感的な構造を選んだ。

ただし、広告代理店やゲームスタジオが月に数百本の映像を生成するケースを想定すると、コストが相当積み上がることも事実だ。大量生成ユースケースでの採算ラインの検証は、これから各社が行っていくことになる。Together AI経由での提供も始まっており、開発者が試しやすい環境は整いつつある。

中国勢のAI動画戦略が示すもの

Wan 2.7に限らず、Kuaishouが開発した「Kling」、ByteDanceの「MagicVideo」など、中国テック企業のAI動画生成モデルは2025年後半から存在感を増している。

いずれも英語圏のモデルと比較して、コストに対するパフォーマンスで競争力を発揮してきた。アリババのケースでいえば、通義ラボはQwen（言語モデル）でもオープンソース公開を積極的に行い、開発者コミュニティでの採用拡大を図ってきた実績がある。Wan 2.7のAPI展開も、同じ路線上にある。

OpenAIがSoraを畳んでB2Bに専念し始めた今、AI動画生成の「大衆化」フェーズを誰が担うかという競争が始まっている。その担い手の一角を、アリババが本格的に狙いに来たのが今回の発表だ。

Thinking Modeという概念が、他の動画生成モデルにどれだけ波及していくか。映像の「設計」と「生成」を分離するというアプローチは、AI動画が職業的なクリエイターに受け入れられるための一つの回答かもしれない。

Sources: