文:王智远 | ID:Z201440
我对生成式AI特别感兴趣。
这个领域涵盖文本、图片、声音、视频和3D模型五个方面。我猜你也听说过,甚至用过一些;对我来说,音乐很重要,因为每天差不多有1/12的时间都在听歌。
去年5月,有件事特别火。
有人用AI技术翻唱一首孙燕姿的歌曲,不少人听完后表示,唱的跟本人一样好听,本人还在社交媒体上表达说:拥抱AI,人类比不过AI,做好自己就行。
紧接着一个月内容,市面冒出来上千首用AI技术翻唱的歌,这些歌横跨了几十年的流行音乐。
当时,我还研究一阵。发现这些歌曲用音色替换的技术制作而成,该技术基于so-vits-svc开源项目开发,门槛非常低,你要感兴趣,也能学会。
但后来,由于工作关系加上下半年AIGC技术爆炸式发展,我的兴趣点也就跟着转移了。不过,最近发现,AI音乐技术又有了新的进步。
01
进步在哪呢?
以前用so-vits-svc工具时,要懂一些基础、且专业知识。
像怎么采集音频、编辑波形、把人声伴奏分开,以及音频训练推理技巧等,这些是处理和生成音频文件必要的基础。
如果你要用自己的声音来做歌曲,得先上传几段自己的声音,让系统学习。这个所谓“训练”过程会电脑显卡负荷很大,通常持续好几个小时。
过程中,还会用到一些插件。
比如有8种不同的编码器,每种都适用于不同的情景,有些插件不提供预先训练的模型,你还得自己训练一番;所以,看似简单的步骤对小白来说,也有点复杂。
现在不一样了。
3月22日,位于美国加州旧金山的一家人工智能公司Anthropic,他们开发的音频软件Suno AI进行一次重大升级,几个简短文字,一闪而过的灵感,立马变成一首歌曲。
Suno AI的官网:可以先用谷歌注册一个账号,然后点击右上角的“make a song”按钮,接下来点击“create”,就能进入创作页面了。
目前官网上,有很多用户上传了他们用AI创作的歌曲,可以随便听听,其中不少华人创作的。
●Pic©官网
比如:
有一首是用“中国传统民乐、慢板、空灵、天使之音”几个关键词生成的全新版本《水调歌头》。
还有一首用“歌剧”这个提示词创作的《宫保鸡丁》,歌词,居然是一整套宫保鸡丁的菜谱,简直不要太离谱。
suno有免费模式可以使用,每日赠送50积分,而每次生成都会一起生成2首歌,每首歌小耗5积分,性价比比较高。
也有专业计划和尊贵计划,前者8美金/月;附带2500积分;后者24美金/月,附增10,000 个积分。
来听听我写的歌曲:
如果不是专业选手使用,免费的玩玩还可以,对了,我特别找了下,国内有个网站跟它挺像,功能差不多,还能免费试用,不过,如果要充值,得注意真假。
目前suno ai创作模式有两种:
1.半自动模式
只要提供一些简单的信息,比如,你想要的音乐风格、描述和氛围等关键词,然后点击“创建”,剩下的交给AI来完成,它能把歌词曲调都帮你弄好。
2.自定义模式
这个模式下,你可以详细输入想要的歌词、音乐类型、风格和氛围等,AI会根据这些信息来为你创作歌曲。过程也比较快,基本上几秒钟就能完成。
而且,在创作页面如果开启了Instrumental选项,它还会为你制作一首不含歌词的纯音乐;个人而言,我更喜欢自定义模式。
02
问题来了:很多人说我不会写歌词流派怎么办?
也不用担心,用AI工具生成歌词后再给Suno,这样效果会更好。我总结了一下,一首歌曲的有效提示词包括四个因素,分别是音乐风格、情绪、乐器,以及节奏。
什么是音乐风格呢?
比如,通俗易懂的流行风、强调节奏的摇滚风、即兴演奏爵士风、欧洲传统巴洛克的浪漫古典风。
以及电子风、嘻哈音乐、R&B、乡村音乐、民谣音乐等等。
情绪你应该知道,是欢快、悲伤、浪漫还是激动人心的?乐器方面,你倾向于钢琴、吉他、小提琴还是鼓?至于节奏,有快节奏、慢节奏适中的节奏等等。
举几个例子:
如果你想要一首活力四射的流行电子舞曲,就跟AI说,我想写一首欢快、流行、电子、舞曲、快节奏的歌曲;
假如你想要一首温柔又浪漫的古典钢琴曲,那就告诉AI,你想要一首浪漫、古典、用钢琴弹奏的,而且节奏要慢的曲子。
如果你想听一首让人陷入深思的悲伤爵士萨克斯曲,就用这些关键词:忧郁、爵士、萨克斯风、即兴演奏,节奏保持在中等。
对于那种能让人热血沸腾的摇滚吉他曲,你可以这么说:我想要一首充满激情的摇滚歌,用电吉他弹奏,节奏要快;而如果你希望听到一首暖心的民谣木吉他曲,那就描述成:想听一首温馨的民谣,用木吉他演奏,风格轻柔。
......
你可以自由地混搭各种音乐风格,像电子即兴演奏、钢琴土嗨这样的组合,只有想不到没有做不到,写的越详细,生成的越精准,
你还可以选择直接在Suno上填入这些关键词,或利用AI工具,先生成好,然后把结果复制粘贴进去,这样,也能轻松创作出符合你想法的音乐了。
至于歌词上,目前支持随机生成和自己填写。
随机生成是系统自带,自己填写顾名思义,是写好再给它,我最近这几天一直让AI帮我写词。
想快速形成,就用「角色扮演」。基础prompt是这样:
想象你是个音乐天才,在音乐界深耕了20年。谱曲和写词是你的专业,现在,我希望你能当作曲家,用中文来创作。
我们要的风格是流行而且有治愈感的,就像周杰伦的《稻香》那样,你给我写一段歌词。
当它给完之后,你还可以说:你可以做得更好。歌词要有节奏感,要能感受到情感波动,既美又简洁,避免用那些听起来像口号的词句。
第二个方法也相对简单,即「仿写」。
原创要自己设定情节并总结,然后投喂给AI,让AI按照自己的设定去写;仿写是模仿对标歌曲的内容大纲、写作风格、语言特色等。
你可以说,帮我写一个歌词,类似于李荣浩的《老街》,或者某某的什么歌。对了,也许原歌词所对应的歌曲是流行风,你也可以投喂给Suno,让它生成摇滚风,也不是不可以。
目前多次体验来看,它生成和模仿歌曲还是有区别的。
第三个方法是,先建立一个大致结构框架。
一首完整的歌曲,它由前奏、诗句、副歌、桥段、尾奏五个部分组成,有点像写小说时会有的开场、发展、高潮和结尾四个环节。
划分结构后,按部就班地展开创作。这个过程中,你可以采用各种不同的技巧,比如押韵法。押韵法本身就有很多种形式,包括不限于ABAB、AABB、ABBA、ABCA等模式。
除押韵法以及增加歌词的韵律节奏感外,还可以要求AI多增加一些技巧,以及情感深度在里面,比如,用描述法,或者比喻,反复叠唱,以及具体抽象的结合等。
所以,AI写歌词本身和AI进行其他领域的创作底层相似,唯一区别在于,一旦你理解了一些特定领域专业术语,掌握它的难度就会大大降低。
不过,目前这个平台最多只能生成两分钟的歌曲,你给的词过多,后面也未必能用上,但也不要担心,它提供了一个连续创作功能。
你可以选择一首歌的任何部分,继续创作接下来的部分,然后把它们组合起来,就能突破两分钟的限制,创作出一首完整的歌曲。
03
生成音乐后你可以以下载分享,也可以选择公开。
看起来是不是蛮爽的?
说回Suno这个平台,官方宣称目前不少知名艺术家在用,但主要用户群体依然是没有经验的普通人。的确,最新v3版本在音乐质量、使用提示词上都有明显提升。
而且,这一版本他们还搞了AI音乐水印系统,如此也能保护用户作品不被抄袭,防止别人滥用平台上的音乐去分发,目前我已经看到不少人用AI音乐开始赚钱了。
虽然这听起来不错,但我作为一个深度AI使用者,和深度听歌人士,还是想说几个问题,或几个特性。
一方面,平台简单提示词的确很棒,AI有更多自由度,但同时也意味着我们控制得少了,有时候,我给的提示词AI可能不会完全按照原意去写歌词。
另一方面在功能上,虽然我不是专业音乐人,但觉得AI音乐应该有一些基础、或专业功能,比如像音色克隆、转midi、分轨等。
转midi和分轨技术上比较难,但音色克隆相对容易些,已有的开源模型也在不断进化,稍作调整就能集成进去,这也意味着用户只要上传一段自己的声音,就能定制一首歌,这肯定会吸引不少人付费。
这好比美颜相机的「美颜功能」,你不能总「一键美颜」,还要增加一些大眼睛、瘦脸、磨皮等功能。
我用so-vits-svc时不同,它部分插件看似全英文比较麻烦,但可以训练人声,还可以变换歌曲场景等等,所以,从专业角度来看,Suno更像一锅出的大杂烩。
虽然还不够完美,有点粗糙,但不可否认,这种工业化生产的音乐,已经占据了视频和流媒体平台大部分的流量。
换句话说,就质量而言,现在AI生成的好音乐已经可以媲美一般的音乐创作者了,尽管对于我们不熟悉的音乐流派来说,可能还是听不出太多门道。
目前Suno AI官网没有公开技术文档,我也不清楚模型结构,但可以看出,v3版本在支持中文方面比上一版进步很多,尽管偶尔会有电音;不过,模型迭代是必要的,毕竟遵循AI领域的一个通用规律即:模型越大,效果越好。
04
你听说了吗?
国内昆仑万维推出了「天工AI」搜索后,国外,AI搜索初创公司Perplexity AI一飞冲天。
Perplexity AI的创始人说,他对Suno这家公司很有信心,觉得它有潜力成为下一个AI领域的重磅玩家。
我特意去了解了下这家公司,原来Suno四个创始人之前在剑桥一个叫Kensho Technologies的公司共事的,他们中有两个是业余音乐爱好者。
他们在Kensho的时,主要开发一种AI技术,用来把上市公司的电话会议内容转录下来;后来,他们发现虽然AI在图像和文本生成方面搞出了不少大动作,音频这块却相对冷清。于是,就萌生了自己搞点动静的念头。
尽管有人说他们在炒作,但实不可否认,他们的产品更新快,音质也挺好的;就连Perplexity AI的老板都说,现在他听歌更倾向于用Suno而不是Spotify。
从个人使用角度来说,我自己这一周一直在用,我并不关注它到底是否炒作,或者割韭菜,至少它满足了我的「耳感」,让我愿意去尝试这些新奇的东西。
我觉得,未来个人创作音乐的热潮会跟写作一样,爆发式增长,市场角色已经从单纯的供给方转变为了供需双方互动,这意味着更多人可以参与到创作中来,甚至出现共创的模式。
在国内,音频AI领域也有不少实力派玩家,比如科大讯飞、腾讯音乐娱乐集团、网易云音乐等,它们在AI音乐上的尝试虽然步伐稍显缓慢,但也在稳步前进。
根据Suno的一个创始人所说,高质量音频采样率一般是44kHz或48kHz,意味着每秒要处理48000个数据点,音乐生成面临的一个挑战是,不像文字那样可以离散处理,音频数据处理要复杂得多。
所以,看似文生图模型大爆发,但在音视频这块,类似产品还只是刚刚起步,或者说它们根本不一样,真心希望国内企业能够加快发展步伐,推出更多像Suno这样的创新产品。
总结而言:
好玩,有趣。
音乐界也终将被AI改变命运,只有亲身体验过,你才会惊叹于自己竟能成为一名音乐家。快去试试吧。
————
我开通一个新专栏叫《AI产品操作手册》;如果,你对如何将AI转化为先进生产力感兴趣,欢迎点击下方图片订阅。
里面有理论,有实操,订阅后,内容每天通过微信服务号进行推送,相当于,我带着内容跟你汇报,欢迎找我聊聊你的工作方法,我也乐意,把经验分享出来。
推荐阅读:
1.《越难越要做品宣广告》
2.《这些年,为何总出现营销反噬?》
长按识别下方图片
加入MANDUN星球,同时可加入智远的付费社群
觉得有价值,欢迎点个在看,每个人都应该拥有独立思考的能力,舍满取半,欢迎分享给更多人。
还没有评论,快来发表第一个评论!