Google「Lyria 3 Pro」発表——AIが3分間の楽曲を構造的に生成する時代へ

Google DeepMindが音楽生成AI「Lyria 3 Pro」を発表した。従来モデルでは30秒程度が限界だった生成時間を、一気に最大3分間まで引き上げた。しかも単なる長尺化ではない。イントロ、ヴァース、コーラス、ブリッジといった楽曲構造を理解したうえで音楽を組み立てるという。

正直なところ、これは音楽生成AIの「質的な転換点」だと感じる。30秒のループやジングルを作る段階と、3分間の「楽曲」を構造的に生成する段階では、求められる技術レベルがまったく違う。人間の作曲家がやっていることに、AIがようやく近づき始めた。

この記事のポイント

30秒から3分へ——何が変わったのか

Lyria 3 Proの最大の進化は、楽曲の「構造」を理解している点にある。

従来の音楽生成AIは、テキストプロンプトに応じて「それっぽい音楽の断片」を生成していた。30秒程度であれば雰囲気は保てるが、1分、2分と長くなると構成が破綻する。メロディが迷子になり、同じフレーズが延々と繰り返されるか、脈絡なく展開が変わるか、どちらかだった。

Lyria 3 Proは、イントロからヴァース、プレコーラス、コーラス、ブリッジ、アウトロに至る楽曲構造をモデル自体が学習している。プロンプトに「アップテンポなポップソング」と指定すると、イントロで期待感を煽り、ヴァースで物語を進め、コーラスで盛り上がり、ブリッジで変化を加える——という流れを自動的に組み立てる。

個人的にはこの「構造の理解」が最も重要だと考える。音楽のクオリティは音質や音色だけで決まるわけではない。リスナーを3分間飽きさせないためには、展開の緩急とサプライズが不可欠だ。Lyria 3 Proがそこに踏み込んだことは、音楽生成AIの成熟を示している。

提供チャネルと利用条件

Lyria 3 Proは3つのチャネルで提供される。

Geminiアプリでは、GeminiのAdvancedプラン（有料会員向け）から利用可能だ。テキストプロンプトで楽曲を生成し、ダウンロードできる。一般ユーザーが最も手軽にアクセスできるルートだろう。

Vertex AIでは、API経由での利用が可能になる。開発者やサービス提供者が自社のアプリケーションに音楽生成機能を組み込む用途を想定している。BGM自動生成機能を搭載したい動画編集アプリや、パーソナライズされた音楽体験を提供したいフィットネスアプリなど、ビジネスユースケースは広い。

Google Vidsでは、Googleのビデオ制作ツールに統合される形で提供される。プレゼンテーションや社内動画にAI生成のBGMをつけるといった使い方が想定されている。

SynthIDによる電子透かし——責任あるAIの実装

Lyria 3 Proで生成されたすべての楽曲には、Google DeepMindが開発した「SynthID」の電子透かしが埋め込まれる。

SynthIDは音声データの中に人間の耳では知覚できない識別情報を埋め込む技術だ。楽曲を編集したり、フォーマットを変換したり、一部を切り出したりしても、透かしは残る。AI生成コンテンツかどうかを検証するための仕組みであり、Google以外の第三者も検出ツールを利用できるようにする方針だという。

この点は評価すべきだ。音楽生成AIが普及するなかで、「この曲は人間が作ったのか、AIが作ったのか」を判別できることは、著作権管理やコンテンツの信頼性にとって不可欠だ。後述する競合のSunoやUdioが透かし技術でどこまで対応しているかと比較すると、Googleのアプローチはより体系的に見える。

Suno、Udioとの競争——何が違うのか

音楽生成AIの市場はすでに競争が激化している。主要な競合であるSunoとUdioとの比較を整理しておく。

Sunoは2024年から急速にユーザーを獲得し、現在は音楽生成AIの代名詞的な存在だ。歌詞付きの楽曲を簡単に生成できる手軽さが強みで、SNSでのバイラルも追い風になった。ただし、楽曲の構造的な一貫性にはまだ課題がある。長尺の楽曲では展開が単調になりがちだ。

Udioは音質のクオリティで評価が高い。生成される楽曲の「プロっぽさ」ではSunoを上回るとされる。一方で、UIの洗練度やユーザーコミュニティの規模ではSunoに後れを取っている。

Lyria 3 Proの差別化ポイントは3つある。第一に、楽曲構造の理解。第二に、Googleのエコシステムとの統合（Gemini、Vertex AI、Google Vids）。第三に、SynthIDによるトレーサビリティ。特にビジネスユースでは、APIアクセスと電子透かしの組み合わせが大きなアドバンテージになるだろう。

ただし弱みもある。Geminiの有料プランが必要という点で、SunoやUdioのフリーミアムモデルと比べるとカジュアルユーザーへの訴求力は弱い。「とりあえず試してみたい」層はSunoに流れ続けるだろう。

音楽業界への影響——歓迎と警戒の交差

音楽生成AIに対する音楽業界の反応は、一言で言えば「複雑」だ。

歓迎する声もある。映像制作やゲーム開発では、BGMのコストが大幅に下がる。インディーゲーム開発者が1曲あたり数十万円かけてBGMを発注する代わりに、Lyria 3 Proでプロトタイプを作り、必要に応じて人間の作曲家に仕上げを依頼する——というワークフローは現実的だ。

個人的には、音楽生成AIが「作曲家を不要にする」とは思わない。3分間の楽曲を構造的に生成できることと、リスナーの心を動かす音楽を作ることは、まだ別の話だ。しかし、「80点の楽曲を量産する」能力においては、AIはすでに多くのプロフェッショナルの効率を超えつつある。ストックミュージック市場やBGM制作の分野では、不可逆な変化が始まっている。

Googleの音楽AI戦略の位置づけ

Lyria 3 Proの発表を、Googleの全体戦略の中に位置づけてみる。

Googleは2023年のMusicLM、2024年のLyria、Lyria 2と、音楽生成AIを段階的に進化させてきた。Lyria 3 Proはその延長線上にあるが、Vertex AIでのAPI提供という点で、研究プロジェクトから商用プロダクトへの転換を明確にした。

これはGeminiの収益化戦略とも整合する。テキスト生成、画像生成、動画生成に加えて音楽生成を加えることで、Geminiプラットフォームの「マルチモーダル」としての価値が高まる。クリエイターや企業が一つのプラットフォームでテキスト、画像、動画、音楽のすべてを生成できるなら、他のプラットフォームに移る理由は減る。

今後の展望

Lyria 3 Proが3分間の構造的な楽曲生成を実現したことで、次の焦点は2つだ。

一つは「歌声」だ。現時点でのデモは楽器のみの楽曲が中心であり、人間のように自然な歌唱を生成するには、もう一段階の進化が必要だろう。SunoやUdioはすでにボーカル付き楽曲を生成できるが、その品質はまだ発展途上だ。

もう一つは「インタラクティブな制御」だ。プロンプトだけでなく、生成された楽曲の特定のパートを指定して修正したり、楽器の構成を変更したり、テンポやキーを調整したりする機能が求められるようになる。プロの制作現場で使われるためには、DAW（デジタルオーディオワークステーション）との連携も視野に入る。

正直なところ、音楽生成AIはまだ「おもちゃ」と「ツール」の境界線上にある。Lyria 3 Proは、その境界線を「ツール」側にかなり押し進めた。だがプロフェッショナルの日常的なワークフローに組み込まれるまでには、精度、制御性、法的なクリアランスの面でまだ課題が残る。それでも、この進化のスピードを見ていると、その日が来るのはそう遠くないと感じる。

Sources: