guild-x

いろんなニュースについて思った事を書きます。

Metaが音楽生成AI「MusicGen」を発表、テキストプロンプトによる音楽生成が可能

2023年06月12日

Metaから新たな音楽生成AIが登場

米Metaは6月9日(現地時間)、新たな音楽生成AI「MusicGen」を発表しました。このAIはMetaのディープラーニングによる音声処理と生成のためのライブラリ「Audiocraft」の一部として、GitHubでオープンソース化されており、商用利用も可能となっています。

音楽生成の仕組み

MusicGenは、テキストプロンプトによって音楽のイメージを入力することで、そのイメージに基づいた音楽を生成することができます。また、オプションとしてmp3形式のメロディデータを追加することも可能です。

独自の音楽生成モデル

MusicGenは、Googleが2017年に発表した深層学習モデル「Transformer」を基盤にした音楽生成モデルです。しかし、Googleが今年1月に発表した「MusicLM」などの類似モデルとは異なり、MusicGenは自己教師型の学習モデルで、セマンティック表現を必要としません。

トレーニングデータ

MusicGenのトレーニングには、1万件の高品質な音楽トラックの内部データセットと、ShutterStockとPond5からの音楽データが使用されています。合計で2万時間分のライセンス音楽が利用されました。

必要な環境

Audiocraftをインストールするためには、少なくとも16GBのメモリを持つGPU、Python 3.9、PyTorch 2.0.0が必要となります。

デモと評価

HuggingFace Spaceで公開されているデモでは、「重厚なドラムとシンセパッドをバックに据えた、80年代のドライブ向けポップソング。テンポは130bpmで」というテキストプロンプトと、バッハのトッカータとフーガの最初のフレーズのmp3を入力すると、約2分でそれに似た音楽が生成されます。また、論文によれば、3サイズ(3億、15億、33億)のパラメータのモデルでテストした結果、最も良い評価を得たのは15億パラメータのモデルでした。