← 記事一覧に戻る

Microsoft、自社開発AIモデル「MAI-Transcribe-1 / Voice-1 / Image-2」を発表——OpenAI依存からの脱却を鮮明に

この記事のポイント

Microsoftが動いた。2026年4月2日、同社はAzure AI Foundryに3つの独自基盤モデル「MAI-Transcribe-1」「MAI-Voice-1」「MAI-Image-2」を投入すると発表した。音声認識、音声合成、画像生成——いずれもOpenAIが強みを持つ領域だ。

「Copilot+」「Azure OpenAI Service」——近年のMicrosoftのAI戦略はOpenAIのモデルに依拠してきた。それが今、変わりつつある。自社モデルの投入は技術的な選択肢の拡大にとどまらず、OpenAIとの関係の力学を根本から変えうる動きだ。


3モデルの中身

まず、それぞれのモデルが何をするのかを整理しておく。

MAI-Transcribe-1は音声認識(音声→テキスト変換)モデルだ。既存のAzure Fast Transcriptionと比較して処理速度が2.5倍という数値が示されており、価格帯も低く抑えられている。コンタクトセンターの通話録音処理や会議の文字起こしなど、大量処理が求められる法人ユースケースを想定している。

MAI-Voice-1は音声合成(テキスト→音声変換)モデルで、自然な発話のリズムや感情表現を重視した設計だとされる。音声AIエージェント、ナレーション生成、アクセシビリティ機能への展開が見込まれる。

MAI-Image-2は画像生成モデルで、OpenAIのDALL-Eシリーズと直接競合する位置づけになる。Azure上の法人向けワークフローへの統合を主眼に置いており、企業内での素材生成や広告クリエイティブの自動化などを主な用途として想定している。

3つに共通するのは、エンドユーザー向けよりもAzure上で動く法人向けシステムへの組み込みを前提とした設計思想だ。


OpenAIとの「緊張」という背景

このタイミングでMicrosoftが自社モデルを打ち出してきた背景を読むには、両社の関係史を振り返る必要がある。

Microsoftは2019年以降、合計130億ドル超をOpenAIに投資してきた。その見返りとしてAzure経由でのOpenAIモデルの独占提供権を得ており、これがAzure AI Servicesの急成長を牽引してきた。

ところが2025年後半から、両社の利害が噛み合わない場面が増え始めた。OpenAIが非営利法人から営利法人への転換を進める中、Microsoftとの既存契約の条件見直しが発生。OpenAIが独自のクラウドインフラ「StarGate」を整備し、Azure経由以外での展開を拡大すると、MicrosoftのAzureにとってOpenAIは「テナント」から「競合」に近づく存在になりつつある。

正直なところ、Microsoftの立場から見れば、外部パートナーへの依存はリスクだ。OpenAIが方向を変えるたびにMicrosoftのロードマップも影響を受ける。自社モデルへの投資は、その揺らぎへの保険として機能する。


「MAI」ブランドが示すもの

「MAI」はMicrosoft AIの略称とされる。一見地味な命名だが、これはMicrosoftの独自技術ラインとして意識的に立てたブランドだと見るべきだろう。

Microsoftはすでに「Phi」シリーズという小規模言語モデル(SLM)群を展開している。Phi-4などは推論タスクでGPT-4oを上回る性能を示す場面もあり、パラメータ規模の割に高い効率を持つモデルとして注目されている。MAIシリーズはPhiとは別のラインとして、音声・画像などのマルチモーダル領域を担う位置づけになるとみられる。

つまりMicrosoftは今、言語(Phi)、音声(MAI-Transcribe / Voice)、画像(MAI-Image)とモダリティごとに独自モデルを揃え始めている。これは偶発的な産物ではなく、設計された布陣だ。


Azureの「マルチモデル化」戦略

MAIシリーズの発表は、Azureの戦略転換とも読める。

かつてAzure AIといえばOpenAIモデルの配信プラットフォームというイメージが強かった。それが今や、OpenAI、Meta(Llama)、Mistral、Phi、そして今回のMAIと、複数の出所のモデルが並ぶ「マーケットプレイス」へと変貌しつつある。

この構造は顧客にとっては選択肢の増加を意味するが、Microsoftにとっては重要なレバレッジでもある。OpenAIモデルへの依存が下がれば、契約交渉での力関係も変わる。自社モデルが十分な性能を持てば、OpenAIとの価格交渉でMicrosoftが主導権を持てる場面も増えてくる。


速度と価格——法人に刺さる軸

MAI-Transcribe-1の「既存比2.5倍速・低価格」という訴求は、法人顧客に効く。

大企業のコンタクトセンターでは月に数千〜数万時間の音声を処理することも珍しくない。速度が2.5倍になれば、同じインフラで処理できるボリュームが増え、コスト構造が変わる。価格が下がれば、ROI計算が一変する。

OpenAIのWhisperやGPT-4o Audioは質の高さで知られるが、大量バッチ処理の場面では速度と単価がボトルネックになりやすい。MAI-Transcribe-1はその隙間を狙っている。


「依存から自立」へのロードマップ

今回の発表は、一回限りのイベントではない。

Microsoftは2025年から独自モデル開発への投資を静かに積み上げてきた。Phi-3、Phi-4の公開、音声処理の内製化、そして今回のMAIシリーズ——その流れは、OpenAIとの関係がどう変化しても事業を継続できる基盤を作るという意図に沿っている。

もっとも、OpenAIモデルへの依存がゼロになるわけではない。GPT-4oやo3などの最高性能モデルは依然としてOpenAI製であり、Azure OpenAI Serviceの収益貢献も続く。「完全な独立」よりも「依存の薄め方」というのが現実的な描像だろう。

ただ、Microsoftにとって意味のある変化はすでに起きている。自社モデルを持つことで、OpenAIとの交渉テーブルでの選択肢が増えた。それは技術力の証明である以上に、戦略的な保険だ。


Sources: