AI 配音 – 详解

休·爱德华兹
2024-08-09

AI 配音 – 详解

AI 配音到底是什么?它将如何影响配音行业?AI 配音(以前称为 TTS,即文本转语音)或人工智能配音是该行业中一个庞大且不断增长的组成部分,对所有配音艺术家、经纪人和买家都有着深远的影响。


本文深入探讨了 AI 配音,解释了需要解释的内容,并揭穿了需要揭穿的神话!


我们将讨论:


  1. 语音人工智能的历史

    1. 连接短语

    2. 音素连接

    3. 算法 IA 和 Tacotron 2 模型


  2. AI 配音现在进展到哪一步了?

  3. 行业中不同类型的 AI VO

  4. 人工智能语音合约

    1. 您目前的 VO 合同

    2. AI VO 自行签约


  5. TTS / AI语音是永恒的吗?!

  6. 如何选择是否从事AI配音工作?

  7. 如何为人工智能配音工作定价

  8. 结论


所以。为了让您快速了解并理解当前的行业,我们首先需要了解之前的情况,以便一切都清楚。所以首先……




人工智能配音的历史

在过去的几十年里,AI 配音经历了几次演变。让我们按时间顺序回顾一下:



连接短语

AI 配音的最初迭代是串联短语。串联意味着将多个事物连接在一起,在这种情况下是语音短语。最明显的例子是在电话系统或火车站从预先录制的材料库中创建的句子:


“到达1 号站台的火车13 号35 号大西部列车,开往斯肯索普,途经温布利球场,停靠普林斯里斯伯勒……” ……等等


这是一种有效但基本的方法,可以根据之前录制的材料创建多个句子。这是否真正意义上的 AI 配音尚有争议,但这种方法是它在现实世界中的首次应用。



音素连接

然后,AI 配音进阶到音素连接。等等,音素到底是什么!?


音素是一个语言学术语,指的是语音中最小的单位,或者用字典中的定义来说:“特定语言中可以区分一个词和另一个词的感知上不同的声音单位


为了以最简单的方式举出这些音素的例子,我们以单词“Cup”为例。Cup 中的音素是 Cup。Bathroom 中的音素是 B-aaah-th-r-oo-m。


音素连接与原始的连接短语采用相同的方法,只是用音素代替短语。


因此,如果您记录 B、Aah、Th、R、OO 和 M,然后将它们粘合在一起,您就会得到...浴室。


显然,这是一个更加复杂的事情,而且这听起来很有可能完全是垃圾,特别是如果你真的单独录制音素——它根本行不通,而且听起来会非常生硬。


因此,音素拼接的最初大师,也就是科技巨头,找到了算法方法来录制大量对话(当然,是由配音艺术家和演员配音,而不是机器),将它们切割成音素,然后将它们重新粘合在一起形成句子。然后,他们会应用巧妙的平滑算法,使最终结果不那么“坎坷”。



海量 AI 配音数据

为了大家的理智,我不会深入讨论DiaphonemesAlephones的语言术语,只想说这些音位连接是在几毫秒内即时和实时创建的。


你在系统中输入“嘿,我想成为一个机器人!”然后在几毫秒内,系统就会向你吐出这段演讲。


但他们究竟是如何做到的呢?


音位拼接系统的真相是,需要记录大量的数据。不仅要涵盖该语言所有可能的不同组成部分,还要有多种不同的版本,以便匹配声调、音高、语速等。


随后,录制好的句子被剪切成小块,以便稍后再粘贴在一起。


因此,如果我们要创建“机器人”这个词,我们需要:


  • “空格到 R” 的声音

  • “R 到 O” 的发音

  • “O 到 B” 的声音

  • “B 到 O” 的声音

  • “O 到 T” 的发音

  • 然后是“T 到空格”的音。


...仅取其中之一,例如,算法可以查看其存储在数据库中的 25 个“R 到 O”的发音,根据其音高或韵律挑选出最合适的发音,选择它,然后移动到下一个,依此类推。


瞧!机器人!


这就是为什么语音录制通常持续 6 个月以上,每周录制 5 天的原因!需要捕捉大量的语音数据,才能获得足够的覆盖范围,使整个过程顺利进行。


数据越多,出错的几率就越小。数据越少,听起来就越不顺畅。



言出必行!

关于音素连接方法以及一般的 AI 配音,最有趣的事情之一是,您将对话传入系统的方式(即,您如何录制它)就是它在另一端听起来的样子。

如果您以非常悲伤的方式发表对话,最后的 AI 画外音听起来也会很悲伤!



播放对话

但尽管五大巨头的文本转语音服务听起来很棒——你们都知道,亚马逊、谷歌、苹果、三星等——但事情并非表面看起来的那样。有时你会听到输出结果并想......“天哪,这太令人印象深刻了!”


但与许多形式的媒体和娱乐一样,其中也存在着一定程度的障眼法。


许多公司实际上将人工智能配音输出与通常录制的或“狂野”的对话混合在一起。


这确实令人印象深刻,因为配音演员太棒了!


为了使系统更加高效,这些公司会缓存请求,以减少处理工作量。如果他们收到“休·格兰特穿多大码的鞋?”的字符串请求,则会对其进行处理和存储,以便下次请求该字符串时,它已经在那里等待传送。


这种将现场直播的台词和AI配音台词混合在一起的形式至今仍然存在,这也是那些担心生计的配音演员不必惊慌失措的 原因之一。稍后会详细介绍。


无论如何,由于需要的数据量巨大,大规模生产音素连接模型的成本高得令人望而却步;大型科技公司可以负担得起,但其他人却负担不起。因此,下一个演变发生了……



算法 AI 画外音和“Tachotron 2”

出于多种原因,主要是成本,但也是机器学习技术的巨大飞跃——哦,请注意,我在这里没有使用人工智能这个术语,因为它实际上不是人工智能,只是机器学习——该行业转向了更算法的模型。


第一个被广泛采用的模型被称为 Tacotron 2 模型,它使用机器学习来分析语音数据,创建一个“模型”,然后使用该模型输出语音文件。


对于那些有兴趣更深入地了解 Tacotron 2 的人来说,请查看Google关于该主题的注释和文档。


Tacotron 2 有其缺陷;它的比特率和位深度相对较低,听起来有点“有损”,并且需要大量的处理时间来构建模型。它的处理速度也相对较慢,这意味着大多数使用它的公司或团队无法“实时”处理,或者至少实时性不足以让客户注意到所需的延迟时间。


但这是一次巨大的飞跃。你不再需要录制 50 万字的对话,现在 5 万字就够了。然后是 4 万字。然后是 2 万字,等等。


不仅如此,谷歌等平台还发布了他们的谷歌云开发平台,让机器学习可以商业化地提供给任何愿意付费的人。


现在,这项技术已可供全世界使用,这引发了人工智能公司想要涉足人工智能配音领域的淘金热。仅从我自己的跟踪记录和三星Now AI 报告来看,2018 年我们统计出大约有 15 家公司从事该领域,到 2020 年中期,这一数字已达到 250 家,现在全球有数千家公司,它们都在以创新的方式开拓新天地。




AI 配音现状

人工智能模型现在已经进化了。有些仍在使用 Tacotron,有些已经进化出自己的系统和算法。有些听起来很棒,有些则很糟糕,中间还有许多迭代。


Replica StudiosVeritone一些公司正积极尝试吸引配音社区,并想出公平的方式为艺术家提供报酬。


一些公司,例如Speechelo,正在积极攻击和反对语音社区,它们受到风险投资的支持,并试图扰乱市场以获取自身利益。


付费求职网站Voice123等一些公司已经开始积极参与,并聘请人工智能配音公司为他们创建模型,作为启动研究过程的测试


但可以说,潘多拉的盒子无法关闭,人工智能配音行业将继续存在。


所以它不会消失。作为配音演员,我们应该有多担心?它会对我们产生什么影响?为了理解这一点,我们首先需要回答几个问题。让我们看看:




行业中不同类型的 AI 配音

本节不是从消费者的角度,而是从我们配音艺术家的角度。我们应该了解几种不同类型的 AI 配音:


  1. 公司AI配音

  2. 合约AI配音

  3. 未来人工智能配音

  4. P2P人工智能配音

  5. 自有模特AI配音

  6. 训练模型作业


从事这种工作的机会非常多(并且还在不断增加),因此它可能有点像雷区,许多 VO 不知道该同意什么,也不知道为什么应该同意。或者不应该。


让我们依次讨论一下这些问题。



公司AI配音

这指的是您受雇于某家公司(例如亚马逊、谷歌、苹果等),担任其自有品牌 TTS/AI 语音的配音。


这里需要考虑一些重要的事情。


优点

  • 您知道它将在何处使用以及为谁使用。

  • 您知道这将在哪些平台上使用

  • 您可以根据公司估计产品的大致保质期

  • 你很可能会获得大量曝光

  • 未来你可能会被要求反复记录更多内容

  • 你可以额外收取独家费用

  • 选角过程庞大且耗时;一旦你被选为最终配音演员,你就有谈判的筹码


缺点

  • 该公司几乎肯定会坚持永久全面收购

  • 你可能无法与直接竞争对手合作

  • 该公司将来可能会出售你的声音,而你可能无法控制


结论

一般来说,如果你要从事人工智能配音工作,这些通常是安全的选择。你知道自己要做什么,语音将用于何处以及你会得到什么报酬——你可以做出合法且明智的选择,是否从事这项工作。



合约AI配音

这和《公司》很相似,因为你知道自己要做什么。表面上,你被雇来做一份合同,并通过对话录音来履行合同,然后这些录音将被制作成语音模型,用于该特定合同。


一个很好的例子就是为游戏创建一个角色模型,该模型很可能只用于该游戏。


另一个例子可能是为一些新的语音到语音技术创建模型,这些技术由Altered AI等公司开发,您可以为另一个演员创建一个语音模型来表演,就像在表演中佩戴“声音”一样。


优点

  • 您知道它将在何处使用以及为谁使用。

  • 您知道这将在哪些平台上使用

  • 您可以根据合同估算产品的大致保质期

  • 你可能会得到很多曝光,而且很可能不受保密协议的约束,所以可以把它用在你的简历上

  • 未来你可能会被要求反复记录更多内容

  • 如果需要,你可以额外收取独家费用

  • 永久全额买断可以协商确定具体合同的期限和限制


缺点

  • 该公司将来可能会出售你的声音,而你可能无法控制


结论

经过适当的谈判和签约,合同很可能是一个非常好的选择,并为业内的配音艺术家带来巨大的机会。随着人工智能配音行业的发展,这些合同将越来越多,越来越可用。

这些应该被视为机遇,也是该领域配音艺术家未来的巨大潜力。



未来人工智能配音

如果您已在 VO 行业工作了一段时间,那么您无疑已经看到过这些演出的出现,并且很可能已经被一些从事这些演出的公司联系过。


流程大致如下。他们与你签约,让你提供配音。然后他们创建一个模型。然后他们找到一个客户来购买这个模型。他们将模型卖给那个客户。


优点

  • 你得到了一些配音工作。

  • 你可能会得到很多曝光


缺点

  • 该公司将来会出售您的声音,而您可能对此无能为力。您无法决定或投票决定将其出售给哪里,无论是出售给信誉良好的公司,还是作为色情网站或性玩偶的声音(我不是开玩笑:这两种情况我们都曾发生过)。

  • 你不知道这将在哪些平台上使用

  • 您无法根据合同估计产品的大致保质期

  • 将来不太可能要求您反复记录更多内容

  • 如果需要,你不能为独家经营权额外收费

  • 绝对需要永久全面买断

  • 你很可能会被排除在许多市场之外。例如,如果你的模型被卖给了英国航空公司,你就不能再为其他航空公司工作了。如果他们还把它卖给了福特,你就不能再为其他汽车公司工作了,等等。

  • 将来您可能会遇到法律问题,例如您被要求为一家公司提供独家代理,但由于您在市场上现有的模式而无法实现。

  • 你只会得到一次报酬,之后就不再支付,即使租赁公司会出售、转售、再转售——你也无法再使用。


结论

如何工作完全由您决定。但是,我们不建议从事未来的 AI 配音工作


对此的警告是,除非您有严密的合同,允许您决定用途、销售地点、获得未来的版税支付等等......就像您现在对自己的声音所做的那样。



P2P人工智能配音

在这个行业中,您参与创建模型,然后主办公司逐行出售对话,或以捆绑或订阅(每月 x 行或无限行)等方式出售。

这些都是普遍使用的,并且逐行使用,就像Murf AI这样的公司做的那样,或者有时以捆绑或订阅的形式,有时在游戏中等等。


优点

  • 你得到了一些配音工作。

  • 你可能会得到很多曝光

  • 有些公司会支付特许权使用费或持续费用或使用费


缺点

  • 公司将来会出售您的声音,而您可能无法控制。您无法决定或投票决定将其出售给哪里,是否将其出售给信誉良好的公司,就像预期模式一样。

  • 你不知道这将在哪些平台上使用

  • 您无法根据合同估计产品的大致保质期

  • 将来不太可能要求您反复记录更多内容

  • 如果需要,你不能为独家经营权额外收费

  • 绝对需要永久全面买断

  • 你很可能会被排除在许多市场之外。

  • 你无法控制所使用的主题;你可能是共和党人,但你的声音却被用来宣传民主党,或用于烟草广告或酒精广告等。

  • 互联网上没有对这种技术的应用范围和使用程度进行监管。

  • 将来您可能会遇到法律问题,例如您被要求为一家公司提供独家代理,但由于您在市场上现有的模式而无法实现。

  • 你只会得到一次报酬,之后就不再支付,即使租赁公司会出售、转售、再转售——你也无法再使用。


结论

我们不建议从事 P2P AI 配音工作。同样,需要注意的是,除非您有严密的合同,允许您决定用途、销售地点、获得未来版税等,就像 Prospective 一样。


不过还有一点要注意,P2P 类型中经常会有角色扮演,如果你扮演的角色听起来不像你的本色,你可能不必担心放弃这个特定角色的版权,因为它可能不会对你未来产生太大影响


结论 – 第 2 部分 – 跟踪和使用

行业这一部分如此困难的主要原因之一是,行业内尚未有标准的、全球性的跟踪或水印方法。但是,我们看到大量风险投资资金被投入到非同质化代币和区块链技术中,这很可能为这个问题提供解决方案。


一旦这个问题得到解决,追踪和使用量就可能成为我们收入的很大一部分,而避开的建议也可能会改变。但目前情况并非如此。



您自己的模型 AI 配音

所以,作为人类,你必须睡觉。但互联网不需要,它是一个 24×7 的全球性产业。


虽然目前这并不常见,但未来有一种思路,即我们作为配音艺术家可以创建自己的模型(可能是由我们合作的公司创建,或者支付服务费用),然后我们自己以常青的方式出售它们,或者在市场上出售。


我们的想法是,你不仅可以继续做自己的 VO 工作,同时还可以让你的模型为你工作。


由于这一举措尚未真正实施,因此目前尚不清楚这种情况的利弊


创建这个模型要花多少钱?你能从中获得多少工作?这值得吗?你对谁购买、用途和地点有多少控制权?


有一点很清楚,那就是你与合作伙伴签订的合同仍然是最重要的,并且与人工智能配音行业任何其他领域的合同一样重要。



训练模型 AI配音

这个有点转移话题,因为它实际上不是一种类型。但目前行业中有很多工作都专注于此,而且它们被广泛误解。所以我想把它包括进来。


创建一个模型时,会有很多组成部分和数据点。确实有实际使用和听到的声音(参见上述工作类型!),但也有其他声音。


其中之一就是韵律模式。随着时间的推移,你的句子的语调和音调会发生变化。你的自然韵律模式与我的不同。我的韵律模式与你母亲的韵律模式不同。你的母亲与我儿子一年级的老师不同,等等。


训练工作就是这样。您的声音被用作训练模型做其他事情的基础——它不会使用您的实际声音来做这件事,而且您的声音也不会在最终结果中被听到


显然,检查与这些工作签订的合同非常重要,以确保他们没有欺骗你,但这些都是合法的工作,不会真正影响你未来的职业、使用、声誉等。但由于这些工作 实际上并没有使用你的声音,所以他们的薪水往往要低得多。



人工智能配音合同

…这就是事情开始变得棘手的地方。我不是律师,但在 AI 语音合同方面有很多经验。不要轻视这一部分,略读它,跳过它,或者以其他方式不吸收这一部分,就像詹姆斯·迈克尔·柯林斯吸收龙虾一样……


GFTB 的Bev Standing最近因滥用她的声音模型而将 Tik Tok 告上法庭,所以一开始就做好这些事情非常重要。



您当前的语音合同

没错!我们甚至还没有谈及 AI 配音合同!


我最近问了参加“One Voice”会议的与会者,他们是否在每项工作中都使用了语音合同。在我的会议中,100 人中只有 3 人举手。这太疯狂了


如果您没有与您的雇主签订合同,那么您将面临很大的风险,更糟糕的是,您将无法在该公司获得未来收入!


请立即查看您的合同以及 Gravy For The Brain 上的合同网络研讨会,以保护自己。


但是,我听到您会问,这与 AI 配音有什么关系?


是这样的。你目前从事的所有工作都与人工智能无关,例如电子学习……你是否签署了一份买断式的永久合同?


或者也许您还记得合同中的某些语言,例如......“在未来的任何已知平台、项目、实例或设备上,无论现在已知还是未知”?


如果您做过其中任何一件事……老实说,我们都做过……该公司现在可以合法地用您过去为他们录制的录音创建一个声音模型,并将其出售给他们想要的任何人,而您对此根本没有任何权利。


本节的寓意!

….再清楚不过了:


去更新您当前的所有条款和条件、合同、模板等,其中包括指定的语言......您所雇用的录音不得用于创建任何类型的人工语音模型,无论是现在还是将来,在任何已知或尚不清楚的平台或设备上......


现在是时候保护自己在职业中所做的一切事情了。



真正的 AI 配音合同!

好的,既然您已经对当前的合同感到害怕,那么让我们来看看当您获得 AI 配音合同或协商合同时您可能需要考虑的事项:


  • 你到底录制了多少对话?

  • 你们有独占期吗?如果有,独占期有多长?独占期结束后会发生什么?

  • 您收取多少费用?

  • 你得到什么用途?

  • 您未来的工作/接送率是多少?

  • 你的录音将用于哪种模型?

  • 他们可以使用你的模型多长时间?

  • 他们可以在哪里使用您的模型?

  • 他们可以在哪些平台上使用您的模型?

  • 他们可以在哪些地区使用您的模型?

  • 您的模型或单个录音或单个台词可以出售吗?它们可以转售吗?您对此有发言权吗?

  • 如果主办公司被出售,会发生什么?你的模型会怎样?你对此有发言权吗?

  • 他们可以在广播媒体(如电视、电影、点播、广播、播客等)上使用您的模型、录音或台词吗?如果可以,您如何获得使用报酬?

  • 你的录音可以用来训练其他模型吗?

  • 你的模型可以由另一个人执行吗(例如语音对语音)?

  • 您的录音/模型可以与其他人的模型或录音合并吗?

  • 您的录音或模型是否可以进行处理,例如,改变音调、使其带有情感等等。

  • 主办公司将如何追踪或给录音或模型加水印?

  • 您的权利具体是什么?合同中授权或签署了哪些内容?

  • 您是与第三方签约,而不是直接与客户签约吗?如果不是,那客户是谁?工作结束后您将如何联系他们?


显然,这是一个很长的清单,但绝不是详尽无遗的。我的建议是咨询熟悉这些问题的经验丰富的法律实体,并成为当地工会的成员,例如EquitySag Aftra,他们都在为您努力处理这些问题。

谷歌和同行的建议也是您的朋友。



TTS / AI语音是永恒的吗?!

人们经常说,如果你签署了永久协议,邪恶公司就会永远拥有你的发言权。从技术上讲,这是真的。但事实如何呢?


事实是,当今的技术和发展速度比人类历史上任何时候都快。


Jon Briggs 和 Susan Bennett 是苹果 Siri 的第一批 TTS 配音员,并在全球闻名(主要是因为他们都参与了 Prospective AI,但并没有得到应有的报酬)——但在不到十年的时间里,他们在 Siri 上的声音就被取代了。


标准在变,方法和方法论在变。声音和时尚也在变。


你现在录制的声音不太可能在 20 年后仍然流传。在考虑是否真的要从事 AI 配音工作时,这一点值得牢记。



如何选择是否从事AI配音工作?

当然,这个问题的答案非常主观。但我希望本文提供的信息能对您有所帮助。


想一想:


  • 工作类型

  • 对你未来的影响(即使不明显)

  • 报酬是否值得


如果十年后你可以回顾现在,你会如何建议自己?(抱歉,我是个星际迷……)


但至关重要的是——与招聘方进行良好的对话。问他们问题。所有的问题。我上面列出的注意事项。


让自己沉浸在这个项目的细节中。


如果客户不愿意公开、诚实地回答所有问题,那么你可能需要感谢他们的时间,然后离开。


如果他们确实正确地回答了您并与您交流,请获取您需要的所有信息,然后做出明智的决定。


好的 AI 配音工作非常棒,对你的职业和发展大有裨益。不好的……就没那么好了。



如何为人工智能配音工作定价

这可能是最难回答的问题。根据我自己的知识以及看到其他工作来来去去的经验,这个范围从几千到几十万不等。


几乎不可能为 AI 配音演出制定一个一致的定价结构,因为从其定义上讲,它们非常不一致。


查看GFTB 利率指南并查找 TTS / AI 以获取更多信息,您会得到更好的想法。


最重要的是要充分了解该项目、其范围、用途和客户,然后与同行讨论适当的补偿水平。


请记住,一旦您真正被选中,您将拥有比您想象的更多的影响力



结论

我希望这篇文章对你有用。这个行业仍处于起步阶段,情况瞬息万变。我鼓励你不要成为 AI 配音工作方面的反对者或预言家,因为……


好的人工智能工作绝对棒极了,并且会提升你的职业生涯!


只是……


糟糕的人工智能演出可能会对你造成很大的伤害!


…必须逐一审视每个案例,以了解其各自的优点、问题和细节。是的,这里的水域经常有鲨鱼出没,但这并不意味着那里没有海豚。



与往常一样,我们将在 Gravy For The Brain 上更新有关这个主题的教育内容,祝您好运!


Hugh Edwards
Gravy For The Brain 首席执行官
(45+ TTS/AI 语音项目的选角导演/配音导演)

阅读27
分享
写评论...