现在AI作曲，写出来的歌可以作为短视频的BGM

日期：2023-10-17 14:26:18 / 人气：416

“毋庸置疑，AI的出现让很多行业面临技术革新，音乐圈也不例外。
不仅仅是人声模拟，在音乐创作上，AI也下足了功夫，各种文字生成的音乐模型层出不穷:
比如OpenAI的MuseNet，Google的MusicLM，Meta的MusicGen，还有前不久刚从Stability AI家族出来的Stable Audio等等。

这些只是一些相对来说比较另类的AI音乐模型，其他不知名的都下海了。
生成音乐的AI模型那么多，他们的主旨就是让音乐的外行作曲，只要他会打字，会描述就行。
说到这里，对乐理一知半解的史超真的很兴奋。我不会作曲，但文字描述是我们的擅长领域。
于是，我们决定亲自尝试一下目前市面上几个出圈的AI作曲模型，看看它们能不能从零开始作曲，写出来的曲子好不好。
首先出场的是Stability AI的新作曲AI :Stable Audio。
官方表示，超过80万个音频文件用于训练模型，包括音乐、音效、单乐器演奏等。整个数据集的总时间加起来超过19500小时。
而且仅通过语言描述，AI就能生成长达90秒的音乐。
司盘也是贼，史超去了。官网听了以下例子，包括钢琴和架子鼓，都是纯器乐。
也有不同的流派和风格，比如民族打击乐，嘻哈，重金属。
它甚至可以产生白噪声，就像餐馆里嘈杂的噪音。u1s1听起来挺现实的。
人们在繁忙的餐馆里聊天，差评，45秒。
当然，官方公布肯定是一个很好的示范。到底怎么用，还是得自己去尝试。
所以我们也注册了号，看看我能通过这种模式创作出什么样的音乐。
由于它刚刚发布，史超花了很长时间才进入稳定音频的网页。
进去之后，让它生成一段30秒的低音独奏，112拍，放克一下，有点节奏。
生成过程大约花了一两分钟，史超听了结果，但有点出乎意料。那是在弹低音，音乐风格相当准确，唯一的缺陷就是低音的音色不清晰，像是指法和拍子之间的中间状态。
接下来，难度稍微大一点，乐器稍微复杂一点。让它生成一首朗朗上口的流行舞曲，中间是热带打击乐。要有欢快的节奏，适合在沙滩上听。
这一次，稳定音频犯了一点小错误。虽然节奏挺欢快的，也适合在沙滩上跳，但是这30s里我听不出提示里的热带打击乐。
让它生成一段摇滚乐，几分钟就搞定了。虽然听起来还是不太清楚，但是摇滚乐、电吉他、架子鼓还是能听出来的。
总体体验，在音乐代，Stable Audio的表现真的没什么问题，偶尔也会有一些意想不到的表现。
至少对于一些想在短视频中插入背景音乐的创作者来说，这是完全够用的。
而这一次，稳定音频也在时长上做了一点努力。普通版可以在45秒内产生音频。如果想更久，可以升级一个PRO版本，可以连续产生90秒。
接下来，第二位参赛者:Meta AI的MusicGen，它基于Transformer架构，依靠音频预测生成的一段音频。
现在MusicGen只放出了Demo，可以在huggingface上体验一波。
比如生成一段嘻哈音乐，听起来很朗朗上口，节奏也相当干净。
与稳定音频不同的是，MusiacGen在生成音乐时，提示词会更加自由，不仅有文字选项，还有一些声音文件。
操作很简单。输入提示词，然后把你要参考的音乐片段直接拖到文件盒里，或者现场录制。当然，音频提示可以留空。
虽然MusiacGen一次只能生成30秒的音频，但如果加上音频提示，生成一段较长的音频也不是不可以，不然会有点麻烦。
每次只要生成30s的音频，前后截取10s的音频作为提示，最后就是一个长音频。
但是在整个体验过程中，有一点真的会让一大波人望而却步，那就是它的生成速度太慢了，三四分钟还不错，而且离谱的是有时候等了几分钟，突然弹出一个弹窗。。。
今年年初，谷歌还发布了音乐大模型MusicLM。在现有的AI作曲者中，Google的功能最多。
除了最基本的生成音乐的词，MusicLM还做了一些其他的招数。
比如故事模式可以让它生成一段1分钟长的音乐:冥想0~15s，醒来16~30s，奔跑31~45s，结束46~60s。
生成的音频听起来确实中规中矩，但还是老毛病，乐器声音不够清晰，段落间转换有点生硬。
还有看图配音乐的功能，给一张拿破仑骑马翻越阿尔卑斯山的经典图片，然后对图片进行描述，MusicLM可以生成30 s的音乐。
这次听起来真的有点戏剧性。
MusicLM也没有向公众公布。想要体验，只能在AI测试厨房上排队，获得内测资格。
OpenAI的MuseNet是三年前在官网发表的。
然而，它近年来没有更新，它仍然基于与GPT-2相同的技术。而且三年过去了，这个AI还没有对外开放。
但是看看吧，官网对MuseNet的介绍和给出的例子，估计上面的模式是存在的。
先不说生成的音乐质量如何，光是时长就已经很高了，最多能生成4分钟的音乐。
与上面提到的模型相比，生成的音乐的质感也是秒/分。史超从官网下载了一个例子，大家可以一起听听。
且不说是艾创作的，我真的会以为是那个音乐大师创作的新曲子，有引子，有高潮，乐器的声音很清晰。经过简单的调整，这将是一个完整的音乐作品。
当然，除了神经网络的贡献外，训练数据集也对这一效果起到了关键作用。
OpenAI已经使用了数十万个MIDI文件来训练MuseNet。下图是数据集的一部分，从肖邦、巴赫、莫扎特到迈克尔杰克逊、披头士、麦当娜，从古典到摇滚、流行，几乎各种音乐都能在里面找到。
不仅在国外，在国内，AI音乐这几年发展也很快。在去年的华为开发者大会上，公布了一个音乐AI :Singer模型。网易云针对音乐人推出网易尹田，作词、作曲、编曲都可以直接由AI解决。
在前不久的2023世界人工智能大会上，腾讯多媒体实验室也展示了自主研发的AI通用作曲框架XMusic。
总的来说，这些AI作曲模型各有千秋，基本都能生成想要的音乐风格。甚至有时候生成的音乐不经过仔细考虑无法被AI识别，在一些短视频中也可以适当使用。“迷惑”过去。
但是，如果要从专业的角度来看，恐怕以上所有的ai都或多或少存在一些不足。最明显的就是上面提到的ai，它们产生的音乐在乐器表现上几乎不清晰。
而且和AI绘画一样，AI音乐也是版权问题的一大重灾区。由于相关法律跟不上AI发展的速度，AI侵权诉讼时有发生。
例如，今年1月，美国唱片业协会向政府提交了侵权报告，提醒他们注意AI音乐的侵权行为。
就连MusicLM的研究人员也亲口承认了侵权的问题，并在论文中写道，存在盗用创作内容的潜在风险。
原因是在测试这个模型的过程中，发现它生成的音乐有1%左右是直接从训练数据集复制过来的。
难怪大部分音乐AI模型根本不试用，或者只是demo或者排队内测。即使是对外开放的稳定音频，也反复强调其数据集是由AudioSparx授权的。
抛开版权问题，目前AI在音乐领域的发展确实令人咋舌，拥抱AI音乐已经成为行业大势所趋。
专门提供轻音乐的AI音乐公司Endel获得了华纳、索尼等音乐巨头的投资，AI音乐创作平台Soundful也获得了环球音乐、迪士尼和微软的投资。
当然，AI音乐的到来是出于商业和技术趋势的考虑。在音乐性和艺术性上，现在的AI还远不及人类创作者，这也是未来AI最优先考虑的。"

作者：蓝狮娱乐

现在AI作曲，写出来的歌可以作为短视频的BGM

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →