来源:编辑:宋梓侨
图片来源:工具生成。
在生成式AI模型的赛道上,谷歌一路“狂飙”。继文本生成AI模型Wordcraft和视频生成工具Imagen Video之后,Google将生成式AI的应用场景扩展到了音乐圈。
当地时间1月27日,谷歌发布了一种新的AI模型——MusicLM,它可以从文本甚至图像中生成高保真的音乐,也就是说,一段文字、一幅画都可以转化成风格多样的歌曲。
谷歌在相关论文中展示了大量案例,如输入副标题“雷鬼与电子舞曲的结合,带有空狂野非凡的声音,造成迷失在too 空中的体验,音乐旨在唤起一种惊喜和敬畏的感觉,同时适合跳舞”,MusicLM生成了30秒的电子音乐。
另一个例子是世界名画《拿破仑越过阿尔卑斯山的圣·伯纳德山口》。MusicLM制作的音乐庄重典雅,将冬天的凶悍豪迈色彩体现的淋漓尽致。除了写实油画之外,抽象画如舞蹈、尖叫、格尔尼卡、Star 空都可以冠名。
MusicLM甚至有一个音乐串,在故事模式下混合不同风格的歌曲。即使要求生成音乐5分钟,MusicLM也不是问题。
此外,MusicLM还有强大的辅助功能,可以指定具体的乐器、场所、流派、年份、音乐家的演奏水平等。,并调整生成音乐的质量,使一首音乐可以变换成多个版本。
MusicLM并不是第一个生成歌曲的AI模型。类似的产品还有Riffusion,Dance Diffusion等。谷歌也发布了AudioML,最受欢迎的聊天机器人“ChatGPT”的开发者OpenAI推出了Jukebox。
MusicLM有什么独特之处?
它实际上是一个分层的序列到序列模型。据人工智能科学家Keunwoo Choi介绍,MusicLM结合了木兰 AudioLM和木兰 w2b-Bert Soundstream,堪称大师。
其中,AudioLM模型可以看作是MusicLM的前身,它以AudioLM的多阶段自回归建模作为生成条件,可以通过文本描述生成频率为24kHz的音乐,并保持这个频率几分钟。
相比较而言,MusicLM的训练数据更多。研究团队引入了第一个专门为text-music生成的任务评价数据MusicCaps,以解决任务缺乏评价数据的问题。MusicCaps由专业人士共同打造,涵盖5500个音乐-文字对。
基于此,Google用28万小时的音乐数据集训练了MusicLM。
谷歌的实验表明,MusicLM在音频质量和符合文本描述方面优于之前的模型。
但MusicLM也有所有生成性AI的共同风险——技术不完善、物质侵权、道德争议等等。
对于技术问题,比如要求制作人声,技术上可行,但是效果不好,歌词凌乱不清。MusicLM也会“偷懒”——大约1%的音乐直接从训练集中的歌曲生成。
另外,AI系统生成的音乐是原创作品吗?可以受版权保护吗?能和“人造音乐”抗衡吗?相关争议一直没有共识。
以上是Google没有发布MusicLM的原因。“我们承认该模式存在窃取创意内容的潜在风险,我们强调未来需要做更多工作来应对这些与音乐生成相关的风险。”谷歌发表的论文写道。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com