音乐ChatGPT 20来了！AI作曲家被踢馆亲测周杰伦爆款大翻车_华体体育在线登录_华体体育在线登录网址页面

音乐ChatGPT 20来了！AI作曲家被踢馆亲测周杰伦爆款大翻车

发布时间：2024-04-12 10:17 | 作者: 华体体育在线登录

200名音乐人联名信抗议的消息刚出，Stability AI的新音乐工具就来了！刚刚发布的Stable Audio 2.0，可以创作长达3分钟的音乐，哼哼几句就能给你创作出一段音乐了！不过广大网友和音乐人试用后表示：有点失望……

200多名音乐人联名签公开信抗议Suno的余音还未消，AI音乐又出新工具了——

Stability AI，也下场卷AI音乐了！看来，核心研发人员的出走，并没有减慢它发布产品的步伐。

仅仅用一条自然语言指令，它就能以44.1 kHz的立体声质量，创作出高质量、结构完整的音乐作品。

而且，每首曲目最长可达3分钟！相比之下，Suno最长可创作2分钟，这方面可是被Stable Audio 2完爆了。

并且，Audo 2.0的音频到音频功能，目前只有Meta的MusicGen能做到，连Suno都做不到。

好消息：模型已经在Stable Audio官网上免费开放使用了，并且很快就能通过Stable Audio API提供服务。

就是价格着实不便宜： Pro版11.99美元/月、Studio版29.99美元/月、顶配Max版则直接来到了89.99美元/月。

比如这位国外小哥，自己b-box再加上Audio 2.0给配上的音乐，直接一个人干出了一个乐队的效果。

这位日本网友，用Audio 2.0创作出了一首「东方地灵殿」风格的歌曲。

Shugo Nozaki在试用后点评道：Audio 2.0跟Suno不同，它似乎保留了简单的提示，并且把歌曲简化了。

因为创作时间长达3分钟，Stable Audio 2.0能让每首作品都拥有清晰的结构，包括引言、主体和结尾部分，还能加入立体声的音效，让作品更加立体生动。

而在下面这段音乐中，由钢琴旋律开始了一段忧郁的乐章，随后的管弦乐乐句，在涌动中把整个乐章推向高潮，最后逐渐回归宁静。

只要给出具体的prompt，就能生成全部符合要求的音乐了，只要脑海里能想象出来，它就能生成。

再比如，这首127 BPM的Tech House，就融合了琶音器，Rhodes电钢琴的与旋律交织出的美妙旋律。并且还包含有切分节奏的打击乐和拟声打击乐，House风格的重鼓，自然的打击乐效果，以及行走贝斯带来的流动感。

以及，这首125 BPM的后摇，不仅有精心录制的鼓组和电贝斯，偶尔还穿插着激昂的和声，整体给人一种宏大且高潮迭起的氛围。

而这首Nu-Disco融合了放克风格的Emotional Pian和浓郁的弦乐四重奏，以及层次丰富的鼓点。此外，G-Funk贝斯和合成器的现代感，完美适合俱乐部氛围。

好玩的是，Audio 2.0也可能生成有人声的歌词，但遗憾的是，我们并不能自己填词，只能它给什么词，我们用什么词。

你脑海里有一段旋律，只要把它哼给Stable Audio 2.0，它就能给你样本直出！

无论是模拟键盘的轻敲声、人群的欢呼声，还是城市街道的背景嗡嗡声，都能为音乐增添新的层次。

另外，如果我们已有了一个某风格的音频样本，想让它变成另一种风格，只要上传到Audio 2，告诉它你想要什么样的，它就自动给你生成了。

无论是音乐的整体风格，还是调整特定部分的基调，Audio 2都能为我们独家定制！

其实，早在2023年9月，公司就已经推出了1.0版本，成为首款商业成功的AI音乐工具。

当时，Stable Audio 1.0就被《时代》杂志评为2023年的最佳发明之一。

不过，最近闹得沸沸扬扬的音乐家抗议Suno的事件，也给音乐版权问题敲响了警钟。

对此，他们也有对应措施：Stable Audio 2.0是专门训练于AudioSparx音乐库的授权数据集上，绝对尊重退出请求，并且表示一定会为创作者提供公平的补偿。

为此，研究者对系统来进行了全面优化，确保它在处理长时间音频时的表现更加出色。

通过一个新型的高效压缩技术，他们将原始的音频数据压缩成了更短的格式，这样就提高了处理效率。

此外，他们还引入了一种先进的「Diffusion Transformer」技术，这种技术比之前的方法更擅长处理连续长音频数据。Stable Diffusion 3中也用到了类似技术。

这两大技术的结合，就让模型能够精准地捕捉音乐中的复杂结构，并且重现出来。

自动编码器可以压缩音频并将其重构回原始状态。它能捕捉并复制关键特征，同时过滤掉不太重要的细节，从而生成更连贯的作品。

Diffusion Transformer（DiT）可以逐步将随机噪声细化为结构化数据，识别复杂的模式和关系。结合自动编码器，它获得了处理更长序列的能力，从输入中创建出更深入、更准确的解释。

跟1.0版本一样，2.0版本也是基于AudioSparx提供的庞大音频库进行训练的。

这个音频库涵盖了超过80万个文件，内容丰富，包括各类音乐、音效以及单独乐器的音轨，并且附有相关的文本描述。

而AudioSparx平台上的所有艺术家，都有机会选择是否让自己的作品参与到Stable Audio的训练过程中。

而且，为维护创作者的版权，Stability AI在上传音频时会与Audible Magic合作，采用他们的先进内容识别技术。

这种技术就能实时地识别和匹配音频内容，有很大效果预防侵权，包含每一位创作者的权益。

也有网友吐槽说，自己并不认为这是什么好音乐。它就仿佛一张AI生成的图片，仔仔细细地观察就会发现很多错误。

在ta看来，优秀的作曲家应该因为创作出没有错误的好音乐而得到报酬，即使他们比AI更贵。

这位名叫Ezra的音乐APP创始人在试用Audio 2.0后，则详细地记录下自己的体验。

他的第一个实验，是为录制的输入捕捉一个简单的节奏，看看能否用Audio 2.0的Drum Solo功能，从提示库中获得更有趣的打击乐概念。

第一次实验的结果令人有些失望。产生的音乐的确有明确的风格和音色转移，但并没有生成他要求的「鼓的独奏」。

他尝试了第二次，提示用的是「鼓和贝斯」，这次，Audio 2.0产生了不同的鼓声，两个输出都具有修改后的捕捉音色。

但他表示，风格转移效果实际上并不好。输出听起来与自己的嗡嗡声相似，但音色略有不同。

不过提示要求吉普赛爵士乐，带有贝斯和鼓。但他得到的是一把原声爵士吉他，并且听起来有像是木琴的东西。没有贝斯或鼓。

这次，旋律的准确率大概在90%，但出现了原始录音中没有的一些奇怪音符。有时它会丢失主线，或早或晚地跳入旋律。

另一方面，Stable Audio确实在简单的i-iv-V7-i进行上进行了创新，并进行了一些惊喜的重新和声。

上一篇：开启具身智能研究新篇章！大象机器人推出智能遥操作机械臂组合myArm MC！ >

下一篇：融一知行工程机械机动翻斗车练习查核模仿器