AI音楽生成サービス「udio」雑感とノウハウ（音楽リスナー／音楽制作者／動画制作者、それぞれの視点から）

お前その話もう何回目だよという感じですが先月からYoutubeを始めました。

www.youtube.com

で、そのBGMを作ろうと思って音楽生成AIサービスのudioを使ってみたのですが、思いのほか面白くてむしろそっちにハマってしまったので使用感をレビューしたいと思います。
思うところがめちゃくちゃあるので、音楽リスナー／音楽制作者（DTMer）／動画制作者、それぞれの視点に分けて書きます。

先にことわっておくとインスト曲ばっかり作っているので歌モノのことはわかりません。あと操作方法とかの基本的なことは説明しません（といっても触ったらだいたいわかると思う）。sunoとか他サービスとの比較も知らん。課金はしてます。実用性への課金というより面白さ／楽しさへの課金という感じ。

udioで何ができるか

先にざっくり基本機能を説明しておきます。

プロンプトをもとに音楽を作ってくれる
createすると30秒の曲の断片（中間部）ができる。２つ。
できたものが良かったらExtend（拡張）して曲を長くできる。Extendはイントロを追加／前に中間部を追加／後に中間部を追加／アウトロを追加の３種類。
つまり、create→イントロ追加→中間部を追加（好きな長さまで）→アウトロを追加、すると完結した曲ができる。
歌のあるなしが選べる。歌詞は自分で入力するのと自動生成と選べるっぽい。使ってないので日本語が通るかどうかとかは知らない。
曲データはMP3でDL可能。
曲をシェアしたりするSNS要素があるが使ってないので詳細不明

無料版だとこんな感じで、課金すると

生成回数の上限アップ
一発目から2分の曲が作れる
ネガティブプロンプト（こうしないでほしいというプロンプト）が使える
音源のアップロードができる（アップロードした曲のつづきを生成とか）
WAVやSTEM（パート別ファイル）のダウンロードも可能に

等ができます。本格的に使うなら課金するとだいぶ便利になる。

リスナー（音楽好き）としての感想

マジでほんとにめちゃくちゃ夢のあるサービスです。いろんな音楽聴いてると、「こういう曲あったら聴きたいな…」っていうのが出てくるじゃないですか。
例えば6/8拍子でフルートがメロディ吹いてるローファイヒップホップあったら聴きたくないですか？いや聴きたいかどうかは人によると思いますけど、僕はめちゃめちゃ聴きたい。でも探しても見つからないんですよ。

聴けます。udioならね。

プロンプト：hiphop flute waltz instrumental

ラテンっぽいテイストの入ったスピリチュアル・ジャズめっちゃ聴きたくないですか？いや聴きたいかどうかは人によると思いますけど、僕はめちゃめちゃ聴きたい。でも探しても見つからないんですよ。

聴けます。udioならね。

プロンプト：piano, spiritual jazz, latin, chorus

こういう感じで「自分が聴きたいけどない」音楽が簡単に作れます。やばい。すごい夢あります。

さらに、できた曲の「ここが良くないな～」と思ったら修正することもできて、たとえばショーロ（サンバとかボサノバの先祖）の曲を作ってみたんですけど

プロンプト：choro, ensemble, flute, guitar, cavaquinho, pandeiro, brazil

歌はOFFの設定にしてたのに、序盤の方に歌が入っちゃったんですよね。たまにあります。この歌さえなかったらすごく好きなんだけど、ってなったときは

Extendするときにこんな感じでトリミングして使用範囲を選ぶことができるので、

こんな感じで歌なしにすることができます。

ただ、再生成なので、同じ曲からボーカルだけ消した状態にはなりません。トリミングで捨てた部分は違う曲になります（残した部分はそのままです）。
また時間軸でのトリミングしかできないので、曲全体で鳴っているサックスのソロをギターに変えたいとか、打ち込みのドラムを生音に変えたいとか、そういうのは難しいです。一応そういうことができそうな「Remix」（プロンプトと音源をもとに再生成する）という機能があるのですが、うまく使えたことがないです。（Remixの使い方は最後のTipsに）

あとリスナー視点での難点としては音質がそんなに良くなくて、圧縮率の高いMP3みたいな感じで高音がちょっとシャリシャリしてるんですよね。

これの金物系というか、パンデイロ（タンバリンみたいな楽器）やシンバルの音が、ちょっとシャリシャリしてる気がしません？

あとアドリブソロがなんか妙に単調になる傾向もある気がして、

これとかさっきのショーロを作ってる途中にできたんですけど、それっぽくソロ弾いてるんだけど妙に一本調子で面白みがないですよね。
何回もやればいいの出たりするんですけど、試行回数が要る感じです。

……と至らない点を挙げればありますけど、とはいえ夢のあるテクノロジーだと思います。

これまでSpotify等では有限の音楽空間の中から自分が聴きたいものに近い音楽を探して聴いてたわけじゃないですか。「ある」音楽の中から選ぶ必要があった。それがudioなら無限の音楽空間から自分の好みにドンピシャの「ない」音楽をとりだして聴けるわけです。これはすごい。

ただ、これはこの記事で一番言いたいことでもあるんですけど、ここに感じるすごさってSpotifyとか既存の音楽サービスの至らなさの裏返しなのではという気もしています。

僕はフルートの入った6/8拍子のローファイヒップホップが見つからないから生成しましたけど、実は見つけられなかっただけで、誰かプロが作った曲が世の中に既に「ある」んじゃないかと思うんですよね。でもSpotifyって曲の要素で検索できるようになってないから、どれだけがんばっても出会えないんですよ。

僕も決して『AI生成の音楽を聴きたい』というモチベーションで生成してるのでは無くて、ちゃんと人間が作った高音質の音源があればそっちの方が聴きたいんです。

だから今後SpotifyがAI楽曲分析を検索に取り入れたりして「フルートの入った6/8のローファイヒップホップ」を検索できるようになることの方が、リスナー視点としては嬉しいAIの発展かなーと思います。

音楽制作者（DTMer）としての感想

DTMerとか言ってますがそんなにガッツリやってるわけではないのであくまで参考程度にお願いします。

まず考えられるよい点としては、著作権を気にする必要のないサンプリングソースが無限に得られることですよね。
前にHercelotさんと話したときに「昔は他人の曲からのサンプリングってふつうに制作手法としてアリだったけど、いまは昔ほど自由ではないからみんなちゃんとリリースしたい曲にはSplice（サンプリング素材サイト）とか使ってる」というようなことを言っていて（うろ覚えなので違ったらすいません）、へーそういう時代なんだなーと思った覚えがある。

そのサンプリング素材に関しても、自分が使いたいものがパッと生成できるなら探すより速いし、人と絶対かぶらないのも良い。

で、例えばファンクっぽいかっこいいベースが欲しいとするじゃないですか。まずこういう曲を生成します。

で、ダウンロード機能のSTEM形式で、ベースだけDLします。そうするとこんな感じ。

www.youtube.com

んんっ…？思ったより…微妙…！？って感じですね。なんか音（音色）がブワブワしててあんまりかっこよくない。

ちなみにSTEMのDLは

こんな感じでヴォーカル、ベース、ドラム、その他に分けてDLできます。

今回はヴォーカルはないですが他の２つのパートも貼ると

www.youtube.com

ドラム。フレーズとしてかっこよくはあるんだけど、やっぱり音質悪いですよね。

youtu.be

「その他」に入ってるのはこんな感じのウワモノ。ベースやドラムに比べると音質悪くはないけど、まあ良くもないですよね。曲全体でいちどに聴いたときよりも音が良くない感じがする。曲を生成したあとで無理やり分けてるのかな…。
いずれにせよサンプリングして使うぞ！！って感じのクオリティではないですよね。
というわけで、サンプリングソースとしての活用については今後に期待…って感じです。

あともういっこ、これは遊びですけど、自分が作った曲のつづきを勝手に作ってくれます。これがめちゃくちゃ面白いです。

例えばこの曲

www.youtube.com

これは僕が前に作ったやつですけど、この後半部を切り取ってイントロつけてもらったのがこれ。

なんか違う曲になってる！！！
これみなさんは自分が作った曲じゃないのでこの興奮があんまり伝わらないと思うんですけど、めちゃくちゃ面白いです。自作音源持ってる人は絶対やってみてほしい（アップロードは要課金ですが）

で、もっと延長していろいろいじりまくって全然別の曲になったのがこれです

ちょっとごちゃついてる感じもありますが、なんか、やりたいことはわかりますよね。序盤から元の武骨なトラックにオルガン載せて全然違うメロウな印象に聴かせてるのが「そうくるか～」って感じだし、0:54とか1:51とか、元のループの雰囲気キープしつつ全然違う展開してくるのもアツい！

ワンループ入れるだけでこれだけできてくるのはまじですごいです。
これも音質的に正直まだ遊びっていう感じですけど、今後もっと高音質になってきたら、作曲支援ツールみたいな使い方は全然ありだと思う。

遊びと割り切るなら現時点でもめちゃくちゃ面白いです。

動画制作者としての感想

そもそも動画のBGMを作るために使い始めたので、これが現時点で（実用的な意味では）メインの用途です。

最初の動画を見てもらうとわかるんですけど、普通に使えます。そして便利。尺に合わせて必要な長さまで伸ばせるし、音質の悪さもBGM利用なら気にならない。

いま動画のBGMはYoutubeのサウンドライブラリ（フリー音源集）使ってる人が多いと思いますが、選択肢としてはAI生成も全然アリ。というかそのうちYoutubeのサウンドライブラリにも楽曲生成機能が実装されるんじゃないかと思う。

これの使用感ですが、まず音楽に詳しい人が有利ということは言えそう。
ちょっと激しめのギャリっとしたかっこいい音楽を作りたいときに、やっぱり「激しめのギャリっとしたかっこいい音楽」っていうあいまいな指定よりも、glitchとかexperimentalみたいなジャンルで指定できた方が一発で狙ったものが出てくる。

プロンプト：electronica, glitch, polyrhythm, shuffle beat, experimental, flute improvisation

なんかパリっぽい感じ（？）の瀟洒でノリのいいギター音楽欲しいな～っていう時にもmanouche swingという言葉を知ってると一発で出てくる。

プロンプト：Manouche swing, romani folk music, gypsy, guitar, instrumental

だからジャンルだったり楽器や音色の名前、リズムパターンとかの名前とかを知ってると強いのは正直ある。

ただそうやってピンポイントで狙えない場合はプロンプトをChatGPTにきくっていう技はあって、例えばさっきの「ギャリっとしたかっこいい音楽」のudio用プロンプトをChatGPTに考えてもらったら

プロンプト（２曲とも同じ）：A dark and mechanical industrial techno track with distorted bass, harsh synth stabs, and pounding 4-on-the-floor beats. A cyberpunk-inspired soundscape with an underground warehouse vibe. Perfect for intense club scenes, dystopian settings, and high-energy dance floors.

あっ、これで全然いいやんという感じではある。

ちなみに実用シーンで気になるライセンス表示はというと、無料版だと動画の概要欄とかにudioを使っている旨のクレジットを入れないといけないのですが、有料だと入れなくていいそうです。

Tips

最後に流れ上ここまでに登場しなかった知識を箇条書きで書きます。

生成画面の一番下にGeneration QualityっていうのがあってデフォルトはHighなんだけど、Ultraにしても生成時間そこまで変わらないので常時Ultraで使った方がいいと思う（課金が要るかも。どうだったか忘れた）
SNS機能は使ってないと書いたけど、たまにほかの人の曲を見てみるとプロンプトの作り方の参考になるかも。でも音楽の場合はジャンル名でかなり生成物の方向性がきっちり定められるので、画像生成と比べるとプロンプトを工夫する必要性は薄い。
生成した曲は勝手にタイトルがつくんだけど、同じようなタイトルばっかりで絶対ライブラリがぐちゃぐちゃになるので、良いのが生成できたらわからなくなる前にLike押してハートつけるなりタイトル付け直すなりプレイリストに整理するなりした方がいい。
Manual Modeというスイッチがある。普段はプロンプトが入力した通りではなく調整されてAIに渡されているらしくて（さっきChatGPTを介したようなことを実はデフォルトでやってるのかも）、自分が書いたプロンプトをそのまま渡したいときはこれを使う。でも自分が使ってるようなプロンプトだと正直あんまり違いが分からない。指定をよく無視される時は改変を疑ってONにしてみてもいいかも？
全く存在しない音楽を作るのは無理かもしれない（ロマ音楽とエレクトロニカとドローン音楽の融合、みたいな無茶なプロンプトを入れると、指定ジャンルのどれかまたはその周辺ジャンルに寄って他は無視されがち。指定が下手なだけかもしれないけど）
課金で解放される2分曲の生成はクレジットを多く消費するので、30秒でプロンプトを調整して「これでいける！」と思ってから２分曲を生成すると良さそう
30秒でどんどん伸ばしていくより２分で一発出しした方がいい曲ができる気がする（気のせいかも）
「この感じで違うやつがほしい、でも再生成すると同じプロンプトでもだいぶ雰囲気変わってしまって困る…！」ってときはRemix機能を使うとよい。Varianceゲージはデフォルトの真ん中でちょうどいい感じだと思う。

そんな感じかな…

参考になった人はYoutubeチャンネル「ノモルク・レポート」のチャンネル登録と高評価をお願いします。