数字人之语音克隆：探索AI模仿人类声音的神奇之旅

豆抖大人2025-11-14 12:51:36

挑战用AI做100件事。第12.1期数字人之语音克隆

前段时间这个AI克隆语音的事闹得沸沸扬扬，占用了大量的公共资源，甚至还有人为此受到了处罚。还有最近各种视频号似乎都请来了雷总做讲解员。常刷短视频的人肯定都被雷总捣过乱骂过娘了，这他妈的绝对是捣乱的，是吧？可以见得AI现在真的可以把不同人声音的特点和特征学习到，然后再模仿并重新编制成新的音频。咱们来举两个例子，例子一，以下有两个音频，一个是我本人的声音，一个是AI模仿并复刻的我的视频，你来听一下哪个是真的，哪个是假的？大家好，我是博博同学。大家好，我是博博同学。答案，B例。例子以下有四个音频和4个人的头头，你你来听一下，看看各个音频都属于谁。咱就是说博博同学的的这个视频啊是真不错。以下是鲍勃同学整的这个视频啊，真是雅俗共赏。咱就说报博同学整的这个视频啊，是他妈的真不错。只要鲍勃同学还继续更新视频，我就一定会给他点赞。怎么样？和你心里的预期一样吗？那如果AI能够模仿我和他们的声音，那就也可以模仿你或者你指定人的声音。只要不用在违法犯罪或者伤害他人的用途上，这样的语音质量确实可以帮助很多人来解决需要张嘴说话或者反复张嘴说话的问题。可是AI是如何做到克隆一个人的声音的呢？这里我用一个例子来辅助你理解鹦鹉学舌。这AI语音克隆和鹦鹉学舌其实差不太多，他们都能够学习，然后复刻人类的语言和声音。但是他们也一样，只能模仿却不能理解语言所表达的含义和用途。接下来咱们就一起对照来看看AI和鹦鹉是如何学会用你的声音说话的。第一，鹦鹉一定要大量的听到人类的语言或者录音，例如你好，早安，恭喜发财这样的单词或者句子，才能学会说话，对于AI来说，我们也需要给AI投喂大量的语音数据，这包括目标者说话的录音和相应的文本，和鹦鹉一样，这些数据给的越多，AI就能学得越好。第二，鹦鹉每天听到要学习的声音后，也要在潜意识里去思考和分析这些声音的发音、音调的高低、语速的快慢等等。对于AI来说，AI在得到语音和文本数据后，也会将这些声音转换并推理成数字信号，然后再打标记录这些声音的特征。第三，鹦鹉听到了声音，理解了音色之后，要做的就是尝试发音，不断的模仿并修正，直到自己的发音与每天听到的声音一致为止。对于AI来说，AI在得到声音特征后，也要开始训练，通过神经网络和深度模型来训练自己，不断的调整并迭代，直到训练出与目标相似的声音模型为止。最后当鹦鹉学会了这句东西发财，如果你拿出瓜子或者对他说恭喜发财，鹦鹉就能从自己的嘴里说出恭喜发财了。至于以后一见到人，或者一见到瓜子就说恭喜发财，那就是巴甫洛夫的事儿了。对于AI来说也是到了最后一步，那就是利用训练好的声音模型，把你输入的文本转化成音频并输出就结束了。那咱们知道了大致原理，其实也就知道该怎么做了。这次咱们要使用的语音克隆工具是cosy wise，它是一种可以支持多语言的大型语音生成模型。它同时具备了采集、推理、训练和生成的全部能力，并且面向所有用户开源免费，也可以本地运行。而且还有开发者制作了能够在coffee UI中使用的本地部署版本。今天我将利用cos si wise带你一起快速的克隆出你想要的声音。例如由简入繁，先从文本转语音开始，打开文本转语音工作流，在这里输入你想要生成语音的文本内容例如鲍勃学的视频做的真不错，我一定要给他点赞、关注、收藏，然后在这里选择预训练音色，然后在这里选择一个你想要的声音预设模型，然后直接生成即可，咱们来听一下效果，例如中文男包括同学的视频做的真不错，我一定要给他点赞、关注、收藏中了你报我同学的视频做的真不错，我一定要给他点赞、关注、收藏再试试日语同学的视频做的真不错，我一定要给他点赞、关注、收藏可以cosy wise都完美的阅读了我的目标文字。甚至还带了点外国口音。接着咱们再来训练自己的声音，并实现用自己的声音文本转语音。打开训练声音工作流，在这里上传一段不少于3秒的样本音频。注意你只能使用以下三种格式的音频文件，而且要干净的音频，不要BGM，也尽量不要有环境音。然后在这里输入与样本音频对应的文本内容，在这里输入你想要生成语音的文本内容，在这里选择3秒极速复刻。因为我的声音是男生，我说的话是中文，所以还要在这里选择中文栏，然后点击运行即可。Cos si se se就会根据你的声音来对预测模型进行微调训练，直到和你的声音一致为止并生成音频。补充一点，一开始建议你先用小段的文字来做测试，这样如果你第一次的语音克隆结果你不满意，那你还可以反复训练，直到你听到一个最满意的声音后，在这里记录并固定随机种子数值，然后你就可以放开手脚大段的去文本转语音了。咱们来听一下效果，鲍勃同学的视频做的真不错，我一定要给他点赞、关注、收藏。最后是进阶的工作流，它可以帮你实现跨语种的克隆音色，再加文本转语音。同样在这里上传一段不少于3秒的样本音频，然后在这里输入你要生成语音的外文内容。注意要在外文文本一开头就用尖括号和竖线标注好外语语种，例如英语就是EN然后在这里选择跨语种复刻。接着因为还是要复刻我的声音，所以我就继续选择中文男，接着点击运行即可。咱们来听一下效果。Bobs video is really good, I must give him likes follow and book market. 好了，本期视频就到这里了。相信看完视频的你现在也可以克隆自己的声音了。我会把本期视频涉及到的软件、插件及模型免费分享给大家。但是一定要注意自己的行为，不要把AI语音克隆用到违法犯罪的用途上。顺带说下下期视频，我将会给大家介绍数字人的第二步，如何用音频来驱动图片说话。如果你也喜欢本期视频，记得点赞、关注、收藏。我是博同学，咱们下期再见。
《AI语音克隆攻略：轻松实现声音复刻与文本转语音》

在当今数字化时代，AI语音克隆技术正逐渐走进我们的生活。它不仅能模仿人类声音，还能实现文本转语音，为我们带来了诸多便利。那么，如何利用AI实现语音克隆呢？

首先，了解AI语音克隆的原理至关重要。它与鹦鹉学舌有相似之处，都需要大量的语音数据来学习。对于AI来说，我们要投喂目标者说话的录音和相应文本，数据越多，学习效果越好。

接下来，选择一款合适的语音克隆工具是关键。cosywise就是这样一款强大的工具，它支持多语言，具备采集、推理、训练和生成的全部能力，且开源免费，可本地运行。

使用cosywise进行语音克隆，可从简单的文本转语音开始。打开工作流，输入文本内容，选择预训练音色和声音预设模型，即可生成语音。若想克隆自己的声音，需上传不少于3秒的干净样本音频，输入对应文本，选择相关参数后运行，它会根据你的声音微调训练模型，直至生成满意的音频。

进阶工作流还能实现跨语种的克隆音色与文本转语音。上传样本音频，输入外文内容并标注语种，选择跨语种复刻，即可实现。

总之，AI语音克隆为我们提供了全新的体验。掌握正确的方法，就能轻松利用它实现各种语音需求。但要牢记，合法合规使用是前提，让这项技术更好地服务于我们的生活。
AI语音克隆,数字人,鹦鹉学舌,cosywise,文本转语音
[Q]：AI语音克隆的原理是什么？
[A]：类似鹦鹉学舌，需大量语音数据，包括目标者录音及文本，越多学得越好。
[Q]：本次使用的语音克隆工具是什么？
[A]：cosywise，支持多语言，开源免费可本地运行。
[Q]：如何进行文本转语音？
[A]：打开文本转语音工作流，输入文本，选预训练音色和预设模型生成。
[Q]：怎样用自己的声音实现文本转语音？
[A]：上传不少于3秒干净样本音频，输入对应文本等参数运行微调。
[Q]：进阶工作流能实现什么？
[A]：跨语种克隆音色再加文本转语音。
[Q]：使用语音克隆有什么注意事项？
[A]：不要用于违法犯罪或伤害他人用途。
[Q]：一开始如何测试语音克隆效果？
[A]：先用小段文字测试，不满意可反复训练，满意后记录随机种子数值。
[Q]：语音克隆对音频格式有要求吗？
[A]：只能使用三种特定格式，且要是干净音频，无BGM和尽量无环境音。

豆抖大人2025-11-14 12:51:36