网站首页 > 互联网资讯 > 正文

谷歌AI练习生写了首歌，网友听完心率都低了

yuneu 互联网资讯 2023-02-24 121 0

杨净衡宇发自凹非寺

量子位 | 公家号 QbitAI

一段话整出一首歌，以至是男女唱（跳）rap的那种。

谷歌最新模子MusicLM一经推出就冷艳四座，很多网友惊呼：那是迄今听到更好的谱曲。

谷歌AI练习生写了首歌，网友听完心率都低了第1张

它能够按照文本生成任何类型的音乐，不论是按照时间、地点、年代等各类因从来调理，仍是给故工作节、世界名画配乐、生成人声rap口哨，统统不在话下。

好比那幅《呐喊》（Scream）

谷歌AI练习生写了首歌，网友听完心率都低了第2张

在一段摘自百科的申明提醒下，它就能生成一段高契合度的音乐。

（蒙克在一次幻觉履历中感触感染到并听到了整个天然界的尖啼声，它的灵感来源于此，描画了一个惊慌失措的生物，既像尸体又让人联想到精子或胎儿，其轮廓与血红色天空的旋涡线条相照应。）

ViT（Vision Transformer）做者在听过一段关键词含“安静舒缓”“长笛和吉他”的生成音乐后，暗示本身实的安静下来。

谷歌AI练习生写了首歌，网友听完心率都低了第3张

也难免有同业暗示，那对我来说比ChatGPT更值得存眷，谷歌几乎处理了音乐生成的问题。

谷歌AI练习生写了首歌，网友听完心率都低了第4张

究竟结果MusicLM背靠280000小时音乐的训练数据库，事实上从现释出的Demo来看，MusicLM的才能还不行如斯。

还能够5分钟即兴创做

能够看到，MusicLM更大的亮点莫过于就是按照丰硕的文字描述来生成音乐，包罗乐器、音乐气概、适用场景、节拍调子、能否包罗人声（哼唱、口哨、合唱）等元素，以此来生成一段30秒的音乐。

即使说的只是那种说不清道不明的气氛，“丢失在太空”、“轻松而悠闲”；又或者是间接用在一些适用场景上，好比“街机游戏配乐”、给绘画配乐等。

谷歌AI练习生写了首歌，网友听完心率都低了第5张

除此之外，MusicLM具备长段音乐创做、故事形式、调理旋律等方面的才能。

在长段音乐方面，它能完成5分钟即兴创做，即使提醒只要一个词。

好比仅在Swing（扭捏）的提醒下，听着实就有种想马上下班去跳舞的激动。（bushi）

而在故事形式中，差别的情标识表记标帜以至能够切确到秒的生成，哪怕情境之间完全没有任何联络……

游戏中播放的歌曲（0到15秒）——河边播放的冥想曲（15到20秒）——火(0:30-0:45)——烟花(0:45-0:60 )

谷歌AI练习生写了首歌，网友听完心率都低了第6张

更让人冷艳到的是，它还有很强的适用性功用。

一方面，它能够将旋律的提醒连系进文本提醒傍边去，如许一来能够更精细地来调整音乐。有点改甲方爸爸需求那味了。

另一方面，它还能按照详细的乐器、地点、门户、年代、以至是音乐家吹奏程度等文原来生成。

谷歌AI练习生写了首歌，网友听完心率都低了第7张

背后生成模子MusicLM

但有一说一，AI生成音乐模子不在少数，谷歌本身此前也推出有类似的模子AudioLM。

此番MusicLM事实有何差别？

谷歌AI练习生写了首歌，网友听完心率都低了第8张

据研究团队介绍，奉献次要有三个方面：

生成模子MusicLM。把办法扩展到其他前提信号，如按照文本提醒合成的旋律，并生成5分钟的demo。发布了首个专门为文本-音乐生成使命评估数据集MusicCaps。

起首，MusicLM恰是基于谷歌三个月前提出AudioLM模子的拓展。

AudioLM不需要转录或标识表记标帜，只需收听音频，AudioLM就能生成和提醒气概相符的连接音乐，包罗钢琴音某人声对话等复杂声音。

而最新的MusicLM，就是操纵了AudioLM的多阶段自回归建模做为生成前提，且以此为根底停止拓展，使其能够通过文本提醒来生成和修改音乐。

它是一个分层的序列到序列（Sequence-to-Sequence）模子，能够通过文本描述，以24kHz的频次生成音乐，并在几分钟内连结那个频次。

谷歌AI练习生写了首歌，网友听完心率都低了第9张

详细而言，研究团队利用了三个模子来用来预训练，包罗自监视音频表征模子SoundStream，它能够以低比特率压缩一般音频，同时连结高重建量量。

还有语义标识表记标帜模子w2vBERT，促进连接生成；音频文本嵌入模子Mulan，它能够将音乐及其对应的文本描述投射到嵌入空间（以消弭在训练时对文本的差别需求），并允许纯音频语料库长进行训练，以此来应对训练数据有限的难题。

谷歌AI练习生写了首歌，网友听完心率都低了第10张

训练过程中，他们从纯音频训练集中提取MuLan音频标识表记标帜、语义标识表记标帜和声学标识表记标帜。

在语义建模阶段，他们用MuLan音频标识表记标帜做为前提来预测语义标识表记标帜。随后在声学建模阶段，又基于MuLan音频标识表记标帜和语义标识表记标帜来预测声学标识表记标帜。

每个阶段都被建模为一个序列-序列使命，均利用零丁解码器Transformer。

在推理过程中，他们利用从文本提醒入彀算出的MuLan文本标识表记标帜做为调理信号，并利用SoundStream解码器将生成的音频标识表记标帜转换成波形。

在280000个小时的训练后，MusicLM最末学会了连结24kHz的频次生成音乐，哪怕用来生成音乐的文本十分绕口。

类似“诱人的爵士歌曲与令人难忘的萨克斯独奏和独奏歌手”或“柏林90年代低音和强烈的电子乐”之类的。

谷歌AI练习生写了首歌，网友听完心率都低了第11张

研究团队还引入了一个高量量音乐数据集MusicCaps来处理使命缺乏评估数据的问题。

MusicCaps由专业人士共建，涵盖5500个音乐-文本对。研究团队公布了那个数据集，便利大伙进一步的研究。

那么一套操做下来，通过定量目标和人工评估，MusicLM在音频量量和文本契合度等方面都优于此前的音乐生成AI。

谷歌AI练习生写了首歌，网友听完心率都低了第12张

不外，谷歌研究团队说了：目前没有对外发布MusicLM的方案。

原因很简单，除了训练过程中不免呈现的样素质量失实，最最关键的还有2点。

一来，虽然MusicLM在手艺上能够生成合唱和声等人声，但是认真听来，生成音乐的歌词，有的还勉勉强强听得出是音乐，有的底子就是无人能听懂的外星方言。

再者，研究团队发现系统生成的音乐中，约有1%间接从训练集的歌曲中复造——那已经足以阻遏对外发布MusicLM了。

此外，还有攻讦者量疑，在受版权庇护的音乐素材上训练AI模子到底合不合理。

谷歌AI练习生写了首歌，网友听完心率都低了第13张

不外团队在论文中介绍了下一步意向，次要存眷歌词生成、改善提醒文本准确性以及进步生成量量。

复杂音乐构造的建模也将成为团队的重点存眷标的目的之一。

音频生成AI

那个研究的背后团队，是谷歌研究院。

配合一做Timo I. Denk，是谷歌瑞士的软件工程师，每天的工做就是操纵ML停止音乐理解。

谷歌AI练习生写了首歌，网友听完心率都低了第14张

在那里多说两句，MusicLM的论文中，研究团队提到，MusicLM在量量和提醒依从性方面都优于以前的系统。

“以前的系统”包罗哪些？

一个是Mubert，已在Github开源API，是一个text-to-music的AI，系列产物有按照既有标签生成音乐的Mubert Render、听歌软件Mubert Play等。

还有Riffusion，它成立在AI绘图的根底上，但将其应用于声音。

换句话说，Riffusion的工做原理是起首构建一个索引的频谱图集合，上面标识表记标帜代表频谱图中捕捉的音乐气概的关键字。

在频谱图主体上训练时，Riffusion就用Stable Diffusion的统一个办法——干涉噪音，来获得与文本提醒婚配的声波图像。

还有针对音乐造做人和音乐家的 AI 音频生成东西Dance Diffusion，OPEnAI推出的可主动生成音乐的ML框架Jukebox……

要咱说，别成天盯着ChatGPT了，AIGC下一个风口万一是音乐生成呢？

参考链接：[1]https://google-research.github.io/seanet/musiclm/examples/[2]https://arxiv.org/pdf/2301.11325.pdf[3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

— 完 —

量子位 QbitAI · 头条号签约

存眷我们，第一时间获知前沿科技动态

本文内容来源于网络，仅做收集整理，不代表本站立场，不对内容真实性、有效性、时效性负责，如有疑问，可联系删除。本文欢迎转载，转载请注明出处。
本文链接：https://www.yuneu.com/news/post/1660.html

yuneu管理员

上一篇

谋眼观市：港美股修整进行时，继续拥抱AI浪潮？

下一篇

专利“先用后付” 创新后劲更足（经济时评）

部分资源有版权属性，如果链接失效，可以在评论区或者公众号留言。公众号：影音探索者。

您需要登录账户后才能发表评论

发表评论取消回复

扫码支持

微信支付

支付宝

返回顶部 暗黑模式