本文介绍了如何为 Duolingo 的角色创建定制的文本到语音(TTS)声音,以增强语言学习体验。通过赋予角色独特的声音,不仅增加了角色的个性,还帮助学习者接触到多样化的语音,提升了他们的听力技能和语言学习的趣味性。

  1. 角色的魅力
    Duolingo 的角色通过插画和动画得到了广泛的关注,这激励团队进一步发展这些角色,使语言学习更加有趣和引人入胜。角色的熟悉感为故事叙述提供了便利,尤其是在初学者的学习中,角色的个性化帮助学习者更好地理解故事情节。

  2. 定制语音的开发
    团队为每个角色开发了独特的 TTS 语音,经过多个月的审查和试音,确保每个角色的声音能够准确传达其个性。不同语言的角色声音在保留角色特质的同时,也考虑了文化适应性。例如,角色 Lin 在日语中显得懒散而直言不讳,而在英语中则显得总是带着笑意。

  3. 技术与教学的结合
    使用机器学习技术,团队创建了先进的 TTS 语音,能够在课程中应用任何句子。录音过程中,团队设计了多种句型和语境,以确保声音的自然性和教学效果。特别是在不同语境下,语音的节奏和语调需进行精确调整,以便为学习者提供可靠的发音示范。

  4. 学习者的体验
    当前,学习者在英语课程中可以听到所有角色的声音,而在学习多种语言时,也能体验到不同语言对角色的多样化演绎。这种多样性不仅增强了学习的趣味性,还帮助学习者在真实语言环境中更灵活地运用所学知识。

让我们的角色发声

我们的角色终于找到了他们的声音!在这篇博客中,我们将分享如何为所有角色创建自定义的文本到语音 (Text-to-Speech, TTS) 声音。

图1: Illustration of the Duolingo characters racing through space. They look excited and determined.

角色让学习更有趣

在美术团队完成角色的绘制和动画制作后,我们发现社交媒体上大家对这些角色反响热烈。这份热情促使我们更加用心打磨这些角色,给他们更多的细节和背景。

我们意识到,这是一个让语言学习更加有趣且充满吸引力的好机会。同时,我们希望借此加强学习者与 Duolingo 之间的联系。通过引人入胜的故事,我们希望学习者能不断回到平台上学习,并且深入了解这些角色。

现在,我们还为每个角色添加了专属的声音。这不仅让角色更具个性,也为学习者提供了更多样的听力体验,这对于语言学习非常有帮助。在现实生活中,大家会遇到各种不同年龄、性别和背景的人,因此,在课程中听到不同的声音类型,有助于提升应对实际语言情境的能力。

那么,我们的角色有哪些?

为了完善这些角色,我们花了数月的时间设计他们的性格、背景故事以及相互关系。同时,我们也创作了一些以这些角色为主的故事,这有助于更好地展现他们的个性。

我们发现,角色的熟悉感有助于讲故事。在故事中,由于篇幅和语言水平的限制(特别是对于初学者),我们需要依赖这些角色鲜明的个性和他们之间的互动,来实现更强的故事叙述效果。比如,不需要每次都解释 Lily 的动机,她那种冷漠的态度已经让学习者对她的行为有了清晰的理解,即使是初级语言水平也能将故事讲得生动有趣。

图2: Lily and Duo have a low-energy chat while walking

寻找角色的声音

为了让角色更加生动,我们为每个角色制作了定制的 TTS 声音。这些声音不仅展现了角色的独特个性,还让语言学习过程更加生动有趣。

当然,为九个角色开发多语言版本的声音并不是一件容易的事。仅仅是为英文角色选角,我们就花了几个月的时间来筛选试音,并讨论哪个演员最符合角色特质。比如,这次 Eddy 的试音是否显得太过学究?Oscar 是否需要更低沉、更有共鸣的声音?以及 Lily 的冷淡风格能否不影响学习体验?

在为英文版角色选角并录音后,我们以这些录音为基础,制作了西班牙语、法语、德语和日语版本。即便有英文录音作为参考,每种语言仍然面临着独特的创意和技术挑战。例如,讽刺在日语中的表达方式与英语不同,那 Lily 的语气是否也需要改变呢?我们与语言学专家、语音学家和创意顾问一起合作,确保每种语言版本都能合适地表现角色的性格。

有些语言版本中的角色声音几乎与英文版相同,而有些则在某些性格特点上有所加强。比如,Lin 在日语中表现得冷静而直接,但在英语中却总是充满趣味。

图3: Lin on stage singing at a microphone while playing guitar

构建他们的声音

在为角色录音后,我们使用机器学习技术来构建最先进的 TTS 声音。这些声音能够用于课程中的任何句子,即使是那些尚未编写的句子!尽管已有许多技术可以用来构建和开发声音,但 Duolingo 的需求有所不同,我们需要它们来帮助学习语言。

我们精心设计了录音的内容,以涵盖课程中可能遇到的各种情境——不同的语音组合、各种句型以及情感表达。这些多样化的录音对于真实再现学习者在课程中遇到的语言场景是非常必要的。我们也尝试突破技术的限制,力求在语调、语速和停顿方面达到最佳效果,使声音尽可能接近真实。

我们的目标是平衡配音演员的表现力和教学的具体需求。配音演员需要通过想象各种场景来赋予台词情感——有时这种“声学味道”会对技术造成挑战,因为 TTS 系统通常是基于中性的语音数据进行训练的。

我们非常重视 TTS 声音在实际课程中的表现。对于学习者来说,TTS 声音需要是发音和语言使用的可靠模范。例如,在英语句子“我读这本书”中,根据上下文“读”的发音会有所不同:在现在时态的课程中,它的发音与在过去时态的课程中是不同的。同样,在处理不同句型的节奏和语调时,我们也遇到了一些挑战。例如,“你想去吗?”的语调与“你想去哪里?”的语调是不同的。我们的 TTS 声音只能和我们提供给系统的语音示例一样好,因此我们的语言专家和工程师合作,为系统提供提示或在必要时进行纠正。

接下来你能听到谁的声音?

现在,学习我们英语课程的学习者可以在课程中听到所有角色的声音!如果你在 Duolingo 上学习多种语言,还能体验这些角色的多种演绎!