砸50亿，刘强东要造游艇了

马斯克，真把方向盘拆下来了

立即打开APP

来源：图虫

孙燕姿的饭碗，也被AI盯上了

2023-05-17

转载

声乐的门槛逐渐被踏平，谁该慌了？

本文转载自：深燃（ID：shenrancaijing），作者：邹帅，编辑：黎明。猎云网已获授权。

孙燕姿可能都没想到，自己的“代表作”会加上一个《漠河舞厅》。

替孙燕姿唱歌的，是AI孙燕姿。最近，一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》，和其他港台歌手“梦幻联动”，还让孙燕姿唱起了更新的歌，《水星记》《漠河舞厅》等等，很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。”

以假乱真，AI孙燕姿的唱功、音色均不在孙燕姿本人之下。这背后的技术原理也很简单，把孙燕姿的声音喂给AI，训练出特定的数据集，再给AI一首其他歌手例如周杰伦的歌让其推理演绎，AI孙燕姿就此诞生。

B站上也出现了AI周杰伦、AI林俊杰、AI邓紫棋，甚至还有AI郭德纲。还有人在打磨已故艺人的AI模型，让AI张国荣、AI邓丽君、AI阿桑重新开嗓。AI几乎完成了歌迷对华语乐坛的全部想象。

用AI训练声音，在行业内也不是稀奇事。A面，有人用AI做音乐小样，拿给歌手做范唱，大大提高效率，歌手陈珊妮也曾经发过自己的AI版音乐作品。B面，声乐的门槛被踏平，五音不全的人也能唱歌，不一定对抗得了职业歌手，但在社交平台小火一把也不是难事。

“有人在合成孙燕姿，代表着孙燕姿的音色被人喜爱，那孙燕姿就不会被取代。”娱乐恶搞之余，蝴蝶已经扇动翅膀，一场新的风暴正在酝酿。

听孙燕姿唱周杰伦的歌，“毫无瑕疵”

在B站搜索“AI孙燕姿”，播放量最靠前的几首是《发如雪》《漠河舞厅》《下雨天》，其中《发如雪》的播放量已经超过120万。这三首歌的原唱分别是周杰伦、柳爽和南拳妈妈，跟孙燕姿本人的曲风、唱法完全不同，组合在一起却出奇地适配。

从歌迷的反应来看，同作为港台歌手，而且都在同一时代走红过，肯定有一定的相似性，能理解孙燕姿可以把周杰伦、南拳妈妈、王力宏等人的歌演绎好。意外的是，柳爽是一位民谣歌手，声线低沉，孙燕姿的曲风也跟民谣大相径庭，然而AI孙燕姿版的《漠河舞厅》，却诠释出了另一种风格。有歌迷表示，《漠河舞厅》更适合孙燕姿，是因为孙燕姿以平调见长，高音不是强项，所以让AI版的孙燕姿来唱这类歌曲会更接近本人。

不久前，孙燕姿在长沙参加音乐节，被粉丝问到此事，她只是笑着表示“我有听过这件事”。拥有AI分身的也不仅是孙燕姿，AI邓紫棋、AI林俊杰、AI陈奕迅，甚至AI郭德纲都有了自己的代表作《外婆的澎湖湾》，AI王心凌也能用甜嗓演绎《好汉歌》，评论区表示“有一种林黛玉倒拔垂杨柳的感觉”。

恶搞之外，网友也发现了这项技术的另一个应用场景。在AI张国荣演唱《好久不见》的作品评论区，有人感叹，“第一遍听的时候真的落泪了，如果哥哥还在该多好。”也有博主正在酝酿阿桑、姚贝娜、邓丽君等已故歌手的“新生命”，歌迷们的态度包容又温和，“谢谢你还记得阿桑，能听到她的声音就很好了。”

一面是猎奇，一面是弥补缺憾，满足想象。在声音领域，AIGC依然擅长让想象力落地，外界对其的兴奋心情，一如看到AI创作出一幅画，写出一个优美段落一样。争议也是相似的，对于AI歌手到底是娱乐，还是正经事，正反双方一直在博弈。

惊叹之外，不乏有孙燕姿的老歌迷觉得AI的演唱“差点意思”。在业内，孙燕姿是公认的天赋型歌手，音色独特，唱功唱法并不是她最大的优势。一位歌迷表示，AI的模仿力几乎可以达到满分，但不能认真听，也不能整首听，因为越听会越觉得陌生，孙燕姿的一些换气习惯，咬字发音，还是存在瑕疵，“像是以前那种明星模仿秀唱出来的。 ”

也有人觉得，AI歌手，是对职业歌手的亵渎。因为目前AI难以处理声乐中的情感表达，当歌手在演绎歌曲，为之动容，留下的情感痕迹被抹掉，只剩下AI精炼的唱法，歌曲也失去了灵魂。

乐观派的想法是，拥抱变化本身是个好事。孙燕姿已经三年没有在内地演出，她也并不是喜欢高调活动的歌手，所以在一些歌迷眼中，让AI孙燕姿来唱她大概率不会公开演出的《漠河舞厅》，也是给孙燕姿本人带来关注度，这个红利不会落到AI头上。还有歌迷说，孙燕姿早期的唱腔更优越，用早期作品训练AI，让其演绎别人的歌，可能比让现在的孙燕姿演绎，要更完美。

职业歌手里也有乐观派。今年3月，歌手陈珊妮发布新歌《教我如何做你的爱人》，一周后她表示这首歌的每一个音，每一个呼吸以及所有和声都是由自己的AI模型呈现的。腾讯音乐3月浪潮榜也为这首歌进行了评分，满分10分，演唱得分8.02，作词人李文贤评价其“以假乱真”。

李文贤同时也说，“当下依旧是音乐创作人教AI在演唱时如何呼吸、吐字，如何唱出人类独有的真实情感。”显然，断言AI孙燕姿能取代孙燕姿本人，依然太过理想化。至少目前的AI技术，还需要大量人为的模型训练，尤其在声乐一环，一首歌要解决呼吸、换气、音域、真假音处理等等问题，过程复杂，做到绝对的精度也有一定困难。更何况，网上能出现AI孙燕姿，前提是歌坛要有孙燕姿。

创造AI孙燕姿不难，完美复制孙燕姿很难

一位做AI孙燕姿翻唱的UP主告诉深燃，技术上没什么特别之处，“这块的门槛已经非常低了。”

实际上，上述AI声音合成的作品做法类似，技术开源，教程都随处可见。盛林早就实验过该技术，他向深燃解释了全部流程，“技术不难，在于步骤多，比较复杂。”

整个流程可以简单分为三步。一、建立数据集，训练AI；二、给出推理范例，也就是最后要模仿的作品；三、手动对齐音轨。

盛林表示，流程中用到的软件都可以在开源网站GitHub找到。“首先需要收集数据，如果要训练AI孙燕姿，那就是把孙燕姿的歌全都下载一遍，然后用UVR5（人声伴奏分离器）处理一下，只留下干音，也就是人声清唱。”

干音部分，也要进行切分。盛林说，去掉伴奏之后，间奏的部分就是静音，所以要用GitHub上面切片的项目，来将孙燕姿每首歌的干音切成一句一句，大概每句3-4秒的音频。“要让AI充分理解孙燕姿的声音，起码要2000个这样的音频。”数据集建立好之后，要放在名为dataset_raw的文件里，“然后它会给出一个代码，把导入的数据集进行预处理，生成完预处理的文件之后，再生成配置文件。”以上，才是完成了训练前的准备工作。

正式的AI训练，需要一天左右，主要使用音声转换项目Sovits。盛林表示，他当时只训练了12小时，效果也不错，而且模型建立起来后一劳永逸，每次只要提供需要推理的文件，AI就能自行工作。假如想推理《发如雪》，也要先把这首歌的伴奏去掉，让训练好的孙燕姿模型覆盖掉周杰伦的原声，最后再用剪辑软件把原伴奏和AI孙燕姿的声音对齐。

即使对计算机一窍不通的外行，也能通过开源技术和网上的教程，创造出AI模型。打造AI孙燕姿并不难，只要有足够的时间，足够精细的数据，足够强的电脑。

谁都能做，但不一定都能做好。陈珊妮也曾表示，在训练AI的过程中，她做了大量的案头工作。网友训练AI歌手的过程也是一样，耗时最长，会产生最多变量的，就是在训练模型上。有做AI翻唱的博主表示，声线不相似不能翻，高低音跨度大不能翻，发音习惯不一样不能翻，“生素材投喂前、加工后的处理都需要一定的Audition知识，还有后期对模型的调参。 ”

选取的干音也有讲究。像孙燕姿这样的老歌手，每段时期的声音条件都不太一样，喂给AI什么时期的歌，AI就会建立什么样的模型，所以对于最后推理歌曲的演绎也不尽相同。

发布AI孙燕姿作品的UP主向南告诉深燃，在他推理的几个作品里，最像的是《世界末日》。“这首歌本来就和孙燕姿的风格接近，高音不多，比较平，我感觉现在Sovits对于高音的处理不太好，也有可能是孙燕姿本来就没唱过太多高音。”

技术上，向南觉得还有很多提升空间。“如果原音频不够清晰，最后生成的作品会有很多卡顿和电音。”这也就解释了为什么AI郭德纲唱的歌听起来像是卡碟，因为只有职业歌手才能有无损CD版音源，但凡有一点杂音，都会影响最后效果。

向南是孙燕姿的歌迷，在他看来，AI并没有模仿到孙燕姿的精髓，“就是音色比较像。”本质上，这项技术就是人声覆盖，声音是孙燕姿的，咬字发音也基本形似，但唱歌时的换气、呼吸、停顿这些都是原歌手的。

接触过该项技术的网友都表示，想让孙燕姿唱周杰伦的歌，只需要导入孙燕姿的歌声就行，至于孙燕姿平时讲话的习惯，英文发音等更为细节的东西，不需要提供。样本单一有限，AI在学习时，也很难把握到全部。

要想做到更精确，必须要大量采集歌手唱过的各种歌曲，比如高音的头声、胸声、强弱混，让AI分析歌手在各个音区的唱法、共鸣习惯等等。做到八成像很简单，做到一模一样很难。

AI能模仿声音了，然后呢？

AIGC的版权归属一直是老问题。以AI生成图像为例，AIGC使用的大模型训练数据可能是版权作品，AIGC生成后归谁所用，如何商业化，“拼凑”出的新作品版权归属于谁也是难题。

音频领域的版权问题依然存在。北京金诚同达律师事务所米新磊律师告诉深燃，用AI模型演绎歌曲，涉及两个权利，“一是音乐作品的著作权，这又涉及词、曲、唱、录四方的权利，包括词曲作者的著作权，和表演者的表演者权，还有录制音乐作品的制作者的权利。二是人格权，自然人对自己的声音享有人格性质的权利，直接参照肖像权保护。”

米新磊表示，AI声音合成的诸多情形都涉及侵权。“AI孙燕姿唱周杰伦的歌，侵犯孙燕姿的声音权，同时侵犯周杰伦对应的音乐作品的版权。如果用AI孙燕姿唱自己写的歌，那就是侵犯孙燕姿的声音权，如果用自己的声音训练AI去唱周杰伦的歌，那也会侵犯音乐作品的著作权。”他补充，没有商业化，不代表不侵权，毕竟没有经过许可使用，就看对方追究与否了。“跟此前影视剪辑二创视频差不多，即使没有牟利，但实际上博主也获得了流量，获得了注意力。”

归根结底，AI孙燕姿、AI邓丽君、AI郭德纲都是在版权问题周围游走的娱乐产物而已。回归这门技术本身，它产生的“蝴蝶效应”绝不简单。

看到无所不能的AI孙燕姿，业内人士和歌迷都想问同一个问题：职业歌手要被取代了吗？

从这项技术本身的原理来看，职业歌手受粉丝基础、市场、版权的保护，很难因为出现了一个克隆的自己，就面临职业危机。再拿AI孙燕姿来说，流传的AI作品，反倒能让更多人认识到孙燕姿音色的独特性。

真正恐慌的，是在社交平台靠翻唱谋生的小博主们，以及不具备词曲创作能力的小歌手。此前一位B站UP主就曾惊叹，用他自己的声音训练AI，唱了一首日语歌，居然都可以以假乱真，网友不禁打趣道“翻唱区的天可能要塌了。”一位自称五音不全的网友也说，自己试了市面上一款软件之后，“竟然沉浸在自己的歌声中。”他解释，该软件类似唱吧，就是通过用户上传的演唱作品训练AI模型，让用户什么都能唱。

一些人的焦虑是场风暴，一些人的机会也是风暴。

音乐行业从业者Kevin告诉深燃，现在行业内已经有公司在用AI生成demo（小样）了，主要用于范唱或简单的作品示例，不涉及商业用途。Kevin说，以前范唱用的是midi，只能给个节奏，歌手没有参考，练唱时间比较长。现在，制作人把曲子写好，让AI唱一遍，歌手听一遍就能了解到基本的起承转合、情绪重点，效率比较高。

声乐的门槛逐渐被踏平，创作人反倒更值钱了。AI很难对抗人类创意，而创意掌握在优秀的词曲创作人手中，即便作品卖不出去，也可以训练自己的AI模型将想法落地。

更大的想象空间在于生成，而非模仿。同样是AIGC，目前市场上的AI生成图像追求的是独特性，AI生成音频则追求的是“更像原声”。行业人士认为，AIGC此前已经广泛应用于虚拟偶像领域，多种声音采样合成，比起以往虚拟偶像和固定的“中之人”的捆绑，要更灵活和安全。

易观分析《AIGC产业研究报告2023——音频生成篇》中也提到，下阶段定制化语音的需求将明显增长，例如个人定制语音可以应用在早教、手机助手等场景，B端应用则体现在客服、营销、数字人等场景中，越来越多的企业将会希望为语音设备、数字人打造符合品牌形象的个性化语音。

“如果AI的时代必将到来，身为创作人该在意的或许不是‘我们是否会被取代’，而是‘我们还可以做些什么’。”陈珊妮在微博留下了自己的观点。

面对AI浪潮，有实际动作的职业歌手不止陈珊妮一个。周杰伦曾表达过自己对AI的态度，“AI虽然能做很多事，但是取代不了我对音乐创作的美感。”5月初，周杰伦和中国移动达成元宇宙领域系列合作，发布超写实数智人“周同学”，元宇宙演唱会也是合作内容之一。

摆在职业歌手面前的不是职业危机，而是更多职业机会。AI可以替代歌手发布更多作品，开拓更多营业场景，经纪公司也能通过AI开发艺人身上更多的IP价值，打造数字形象、AI演唱会等等。模仿唱腔，只是AI为演艺市场做的最微不足道的一件事。

*应受访者要求，文中盛林、向南、Kevin为化名。