AIGC的风终究是吹到了音乐圈——今年3月,“音乐届的ChatGPT” Suno V3粉墨登场,用户只需要在Suno上输入一句话的提示词,即可在数秒内生成两首两分钟的完整歌曲,从作词、作曲、演奏到人声演唱一气呵成,大大降低了普通人创作音乐的门槛。
已经习惯了各类“AI歌手翻唱”的听众和用户迅速拥抱了Suno,从《宫保鸡丁咏叹调》到《让我们荡起双桨》重金属,从英语、日语、俄语到普通话甚至是粤语,网友们自发上传的作品包罗万象,网易云音乐、QQ音乐等平台也迅速上线了SunoAI音乐专区,甚至还推出了定期更新的官方推荐歌单。
本期《硅谷101》邀请到了来自音乐和AI音乐生成领域的两位嘉宾,分享他们对以Suno为代表的文生音乐模型的看法,以及AI如何影响音乐产业的未来。
【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
冯建鹏,美国哈特福德大学哈特音乐学院打击乐讲师,百老汇全职演奏家,知名音乐博主“叨叨冯”(Youtube@daodaofeng)
Roger Chen,Meta Music Tech Lead
【你将听到】
02:26 为什么大家感觉是Suno是最火的呢?因为他敢最先把自己的文生音乐模型公之于众
02:43 【测评一】“找不到工作的悲伤摇滚乐”,结果并不悲伤
07:30 能听但没有态度,AI只能写出不愤怒的摇滚乐
11:02 AI写的歌可以达到业界平均水平,但无法出挑成为头部作品
14:40 速度是音乐创作最重要的指标之一,为什么AI写不出80 BPM的音乐?
18:26 AI写歌与人类作曲不是一个逻辑,只能从左到右按顺序写,没有全局观
22:07 训练素材足够全面和丰富,AI可能写出Taylor Swift水平的歌曲?
25:55 同样的音乐,水平高低演唱者演奏出来也不一样
26:03 【测评二】英雄主题的交响乐,听感能得7分,作为乙方它不及格
33:40 Suno不能按提示词生成指定的乐器,它只追求听上去大概相似
37:48 AI生成音乐是无法抗拒的洪流,但暂时做不到像音乐家一样写歌
43:13 【测评三】挑战规则严谨的赋格,Suno会表现得更好吗?
47:05 赋格研究在AI音乐有20年历史,不过在巴赫的原曲面前还很稚嫩
52:32 音乐技术与心理学:Mp3技术是如何被发明出来的?
53:57 音乐的本质是“有组织的声音”,这是文生音乐大模型的底层逻辑
58:58 最怕无聊?艺术需要跳出人类总结
63:12 创作者的脑洞打开:在音乐里加入随机数机制
【提示词参考】
开场曲:
《The future is now》 by Suno, an opening music for a podcast called Silicon Valley 101, discussing innovative technology, AI and business stories, jazz, easy, catchy.
【测评一】
05: 56 《Struggling in the shadows》by Suno, sad Story of not finding a job, Classic Rock, 80 BPM, Guitar, Base, Drum, Keyboard.
【测评二】
27:46/29:42 《Hero themed symphony》by Suno, instrumental, strings, woodwinds, brass, timpani
【测评二】
30:27 《Hero themed symphony》by Suno, instrumental, strings, woodwinds, brass, timpani, Classical, 19th century.
【测评三】
46:21 赋格曲 by Suno,Toccata and Fugue in D Minor. Dark and dramatic, featuring solo organ creating a serious and powerful mood.
结束曲:
《Silicon Pulse》 by Udio, closing note for the episode of AIGC music, hip pop, extended intro and outro.
【补充信息】
BPM:
beats per minute,度量速度的音乐单位,每分钟多少拍(BPM)表示一个指定的音符,例如四分音符,在一分钟内出现的次数,BPM的数值越大代表速度越快。
Fairly Trained:
由来自前Stability AI、Humanistic AI等科技公司高管、知名好莱坞律所和音乐界人士发起的非盈利组织,对涵盖图像、音乐和歌曲生成的人工智能模型进行认证,证明他们已申请使用受版权保护的训练数据的许可。
赋格:
为拉丁文“fuga”的译音,是盛行于巴洛克时期的一种复调音乐体裁,又称“遁走曲”,是复调音乐中最为复杂而严谨的曲体形式。赋格的结构与写法比较规范。乐曲开始时,以单声部形式贯穿全曲的主要音乐素材称为“主题”,与主题形成对位关系的称为“对题”,之后该主题及对题可以在不同声部中轮流出现,主题与主题之间也常有过渡性的乐句作音乐的对比。
掩蔽效应:
是指由于出现多个同一类别(如声音、图像等)的刺激,导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中,听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较为不敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。
卷积神经网络(Convolutional Neural Network,CNN):
卷积神经网络是一种深度学习网络,主要用于识别图像和对其进行分类,以及识别图像中的对象。在卷积神经网络 (CNN )出现之前,人们通常使用耗时的人工特征抽取方法来识别图像中的对象。现在,卷积神经网络提供更加可扩展的方法来执行图像分类和对象识别任务:卷积神经网络利用线性代数原理(特别是矩阵乘法)来识别图像内的图案。卷积神经网络从其他神经网络中脱颖而出的地方在于:卷积神经网络在图像、语音或音频信号输入方面表现出超高的性能。
【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀
【BGM】
The future is now——Suno & 杜秀
Lazy Art - Martin Landstrom
Bubble Bee - The Fly Guy Five
Silicon Pulse —— Udio & 杜秀
【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:podcast@sv101.net
这个80BPM 按理说是最容易满足的条件了,不该呀,不会数错了吧回听时我拿个节拍器再测测。叨叨老师这个摇滚点评的跟我的感觉一致,词到位了,旋律的情感表现不出来
AI小书童 回复 @赫敏可夫斯基Hermione: 亲爱的小主人呀,我们不能局限于看数字哦,有时候心里的感受更重要一些。让我们用心倾听,去体会作品想要传达的情感,相信你一定能再认真思考哟~
仿生人会不会梦见电子羊?Ai会不会产生贝多芬和巴赫??
你们不会用prompt罢了
好音乐的标准还是取决于人,如何制定好标准很有意思,类似于视觉里的fid,自然语言处理里的rlhf。我就认识沉迷于“先锋音乐”的人,喜欢听电冰箱压缩机的声音,并且觉得那是音乐。 另外,多模态和世界模型很有意思,当模型有了视觉和语言的体验之后,再去创作音乐,是不是更像是人类了呢?此时的创作,很难再说是什么模仿了。
乐观>谨慎
谢谢老师们的分享
怎么没评论了
感觉元宇宙将来不会缺少内容了~
节奏有点熟悉
感觉元宇宙将来不会缺少内容了~