Duolingo: 让我们的角色发声

本文介绍了如何为 Duolingo 的角色创建定制的文本到语音(TTS)声音,以增强语言学习体验。通过赋予角色独特的声音,不仅增加了角色的个性,还帮助学习者接触到多样化的语音,提升了他们的听力技能和语言学习的趣味性。 角色的魅力 Duolingo 的角色通过插画和动画得到了广泛的关注,这激励团队进一步发展这些角色,使语言学习更加有趣和引人入胜。角色的熟悉感为故事叙述提供了便利,尤其是在初学者的学习中,角色的个性化帮助学习者更好地理解故事情节。 定制语音的开发 团队为每个角色开发了独特的 TTS 语音,经过多个月的审查和试音,确保每个角色的声音能够准确传达其个性。不同语言的角色声音在保留角色特质的同时,也考虑了文化适应性。例如,角色 Lin 在日语中显得懒散而直言不讳,而在英语中则显得总是带着笑意。 技术与教学的结合 使用机器学习技术,团队创建了先进的 TTS 语音,能够在课程中应用任何句子。录音过程中,团队设计了多种句型和语境,以确保声音的自然性和教学效果。特别是在不同语境下,语音的节奏和语调需进行精确调整,以便为学习者提供可靠的发音示范。 学习者的体验 当前,学习者在英语课程中可以听到所有角色的声音,而在学习多种语言时,也能体验到不同语言对角色的多样化演绎。这种多样性不仅增强了学习的趣味性,还帮助学习者在真实语言环境中更灵活地运用所学知识。 让我们的角色发声 我们的角色终于找到了他们的声音!在这篇博客中,我们将分享如何为所有角色创建自定义的文本到语音 (Text-to-Speech, TTS) 声音。 图1: 角色让学习更有趣 在美术团队完成角色的绘制和动画制作后,我们发现社交媒体上大家对这些角色反响热烈。这份热情促使我们更加用心打磨这些角色,给他们更多的细节和背景。 我们意识到,这是一个让语言学习更加有趣且充满吸引力的好机会。同时,我们希望借此加强学习者与 Duolingo 之间的联系。通过引人入胜的故事,我们希望学习者能不断回到平台上学习,并且深入了解这些角色。 现在,我们还为每个角色添加了专属的声音。这不仅让角色更具个性,也为学习者提供了更多样的听力体验,这对于语言学习非常有帮助。在现实生活中,大家会遇到各种不同年龄、性别和背景的人,因此,在课程中听到不同的声音类型,有助于提升应对实际语言情境的能力。 那么,我们的角色有哪些? 为了完善这些角色,我们花了数月的时间设计他们的性格、背景故事以及相互关系。同时,我们也创作了一些以这些角色为主的故事,这有助于更好地展现他们的个性。 我们发现,角色的熟悉感有助于讲故事。在故事中,由于篇幅和语言水平的限制(特别是对于初学者),我们需要依赖这些角色鲜明的个性和他们之间的互动,来实现更强的故事叙述效果。比如,不需要每次都解释 Lily 的动机,她那种冷漠的态度已经让学习者对她的行为有了清晰的理解,即使是初级语言水平也能将故事讲得生动有趣。 图2: 寻找角色的声音 为了让角色更加生动,我们为每个角色制作了定制的 TTS 声音。这些声音不仅展现了角色的独特个性,还让语言学习过程更加生动有趣。 当然,为九个角色开发多语言版本的声音并不是一件容易的事。仅仅是为英文角色选角,我们就花了几个月的时间来筛选试音,并讨论哪个演员最符合角色特质。比如,这次 Eddy 的试音是否显得太过学究?Oscar 是否需要更低沉、更有共鸣的声音?以及 Lily 的冷淡风格能否不影响学习体验? 在为英文版角色选角并录音后,我们以这些录音为基础,制作了西班牙语、法语、德语和日语版本。即便有英文录音作为参考,每种语言仍然面临着独特的创意和技术挑战。例如,讽刺在日语中的表达方式与英语不同,那 Lily 的语气是否也需要改变呢?我们与语言学专家、语音学家和创意顾问一起合作,确保每种语言版本都能合适地表现角色的性格。 有些语言版本中的角色声音几乎与英文版相同,而有些则在某些性格特点上有所加强。比如,Lin 在日语中表现得冷静而直接,但在英语中却总是充满趣味。 图3: 构建他们的声音 在为角色录音后,我们使用机器学习技术来构建最先进的 TTS 声音。这些声音能够用于课程中的任何句子,即使是那些尚未编写的句子!尽管已有许多技术可以用来构建和开发声音,但 Duolingo 的需求有所不同,我们需要它们来帮助学习语言。 我们精心设计了录音的内容,以涵盖课程中可能遇到的各种情境——不同的语音组合、各种句型以及情感表达。这些多样化的录音对于真实再现学习者在课程中遇到的语言场景是非常必要的。我们也尝试突破技术的限制,力求在语调、语速和停顿方面达到最佳效果,使声音尽可能接近真实。 我们的目标是平衡配音演员的表现力和教学的具体需求。配音演员需要通过想象各种场景来赋予台词情感——有时这种“声学味道”会对技术造成挑战,因为 TTS 系统通常是基于中性的语音数据进行训练的。 我们非常重视 TTS 声音在实际课程中的表现。对于学习者来说,TTS 声音需要是发音和语言使用的可靠模范。例如,在英语句子“我读这本书”中,根据上下文“读”的发音会有所不同:在现在时态的课程中,它的发音与在过去时态的课程中是不同的。同样,在处理不同句型的节奏和语调时,我们也遇到了一些挑战。例如,“你想去吗?”的语调与“你想去哪里?”的语调是不同的。我们的 TTS 声音只能和我们提供给系统的语音示例一样好,因此我们的语言专家和工程师合作,为系统提供提示或在必要时进行纠正。 接下来你能听到谁的声音? 现在,学习我们英语课程的学习者可以在课程中听到所有角色的声音!如果你在 Duolingo 上学习多种语言,还能体验这些角色的多种演绎!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 如何为角色添加动画

Duolingo 在为其世界角色动画赋予生命的过程中,采用了创新的技术手段,以确保角色能够生动地与学习者互动。通过使用 Rive 工具,Duolingo 实现了高效的口型动画制作,提升了用户学习体验,确保了动画的质量和可扩展性。 动画挑战:Duolingo 需要为其超过 40 种语言的 100 多个课程中的角色制作动画,但手动动画口型是不切实际的,因此寻求可扩展的解决方案。 Rive 工具的应用:Rive 是一种基于网络的实时互动动画工具,允许通过状态机(State Machine)编程控制动画状态的切换和混合,从而实现高效的动画制作。 语音技术的整合:为了准确制作口型动画,Duolingo 建立了丰富的语音技术生态系统,使用内部的语音识别和发音模型来获取每个单词和音素的时序信息。 嘴形设计:为确保角色的嘴形动画真实可信,Duolingo 设计了 20 多种嘴形,结合角色的个性和 Duolingo 的美学。 动画集成:完成动画后,通过 Rive 的状态机将动画与音频同步,确保角色能够实时响应用户的操作,例如在点击单词时角色能够发声并动画化。 未来展望:Duolingo 将继续探索新技术,以克服技术挑战,进一步提升学习体验,并在未来的项目中应用这些经验。 Duolingo 如何为角色添加动画 在为每个角色开发了独特的声音后,我们开始思考如何让它们更有活力——不仅仅是现有的闲置行为动画。我们希望确保我们的角色能成为学习者生动有趣的学习伙伴! 首先:动画化这么多的口型动作是一项巨大的工程! 我们教授超过40种语言,涵盖100多个课程,每个课程包含数千个句子和课时,所以要为我们十个世界角色的每个口型动作手动画是不可能的。我们需要一种可扩展的方法来处理每个角色的各种口型,同时保证文件大小足够小,以便在Android、iOS和Web平台上运行。此外,我们还希望确保动画质量不受影响! 我们发现,游戏引擎的替代方案可能是答案——一种能帮助我们用有限的资源生成几乎无限组合的工具。这就是我们了解到Rive的原因! 什么是 Rive? Rive 是一种基于网络的工具,用于制作实时互动动画和设计,类似于游戏引擎。它解决了我们许多问题:文件大小小巧,与Duolingo的应用架构无缝结合,从动画师到工程师的交接过程也很顺利。 但最吸引我们的是Rive的状态机:这是一个可视化的逻辑系统,用于连接动画(即“状态”)。它让我们能够通过编程控制调用的动画状态、调用方式以及如何过渡和融合。状态机的强大系统让这个项目能够在大规模上实现。我们知道Rive是实现口型同步动画的理想工具! Rive 内部展示! 语音技术的魔力 为了制作口型动作,我们需要对语音内容有详细的了解。当我们为文本到语音生成声音时,我们使用的解决方案没有提供发音和时间信息,但我们有一个为语言学习设置的丰富语音技术生态系统。为了生成精准的动画,我们会生成语音,将其通过我们的内部语音识别和发音模型,获取每个单词和音素(语音单位)的时间信息。每个声音都会映射到一个视觉表示或唇形,这是我们基于语言学特征设计的一套系统。 有了这些功能,我们创建了一个系统来生成课程内容所需的所有唇形时间数据。当然,我们还需要确保这些数据的准确性,并将其传递给数百万用户。我们不仅开发了生成内容的工具和流程,还在必要时进行审核和修正。 设计口型世界 在开始动画制作前,我们需要确保准确地表示与特定声音对应的嘴形。 角色唇形图示例 我们需要设计每一个嘴形,保持Duolingo的美学风格。此外,每个角色还需要一套独特的唇形,符合其个性特征。设计过程中最关键的一步是确保唇形在动画中看起来真实可信。 有些角色需要更多的探索,但我们最终为每个角色设计了20多个嘴形! 一旦设计指南确定,我们就可以开始动画制作。我们为每个角色在课程中的常规姿势创建了动画状态,也为角色的嘴部设计了单独的状态。所有动画状态设置完毕后,最后一步就是将这些动画导入Rive的状态机,并与之前标注的嘴部输入结合起来。 状态机如何控制角色动画的图示 状态机如何混合唇形动画的图示。这里显示了4个唇形,但即使有超过20个形状,逻辑也是相同的。这些状态需要与角色动画状态同步运行! 状态机设置完成后,我们将其导出为一个运行时文件,然后交给工程师进行应用程序的集成! 集成过程 当需要展示一个挑战时,我们会获取音频和时间信息,并利用这些时间信息同步触发动画状态机。这将数据传输量降到最低——远低于传输一个小视频——并让我们能够实时响应用户的操作。当你点击一个单词时,角色会说出并动画该单词;如果你在它说完之前完成练习,角色会及时停止说话。我们还可以展示闲置行为,如点头、眨眼和眉毛移动。最后,根据挑战的结果——你是答对还是答错——我们可以进入一个最终状态,展示角色的反应! Duolingo 动画和技术的未来 Duolingo 一直在测试各种功能,这些嘴部运动也不例外。这个项目是一次有趣的实验,旨在使学习体验更加有趣,也是一次使用新软件和技术的机会。看到我们如何克服技术难题,并继续打造或改进其他有趣的功能,真是令人兴奋! 请查看我们在2023年Duocon上的演讲,了解更多关于我们动画制作的方法!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 创造了一个新的角色:创意技术专家,连接设计师和开发人员

Duolingo 最近推出了一种新角色——创意技术专家(creative technologists),旨在弥合设计与工程之间的沟通。这一角色专注于设计优先的方法,要求具备动画优化能力,并能有效与工程师沟通。通过使用 Rive 这一设计工具,创意技术专家能够直接创建应用程序中的互动动画,减少设计与工程之间的反复沟通,从而提升工作效率。 创意技术专家的角色: 该角色结合了设计和工程的技能,能够在设计和最终产品之间缩小差距。 他们的职责包括优化动画资产、编写文档并与工程师沟通设计细节。 Rive 的应用: Rive 是一个用于构建互动运动图形的工具,使得动画师和创意技术专家可以直接创建应用中的动画,而无需复杂的技术规格。 Duolingo 首次使用 Rive 进行奖励动画,并逐步扩展到角色的语音同步等领域。 团队协作与优化: 创意技术专家与动画师和工程师紧密合作,确保动画的设计与实现的有效对接。 他们帮助识别设计约束,优化项目的构建方式,从而减少未来的修改和更新成本。 招聘与技能要求: Duolingo 寻找具备工程和设计背景的人才,特别是有状态机、VFX 和 Unity 等相关经验的人。 理想的候选人应能通过技术测试,并有解决新工具或技术问题的能力。 职业发展与行业趋势: 创意技术专家的角色在行业中逐渐兴起,未来可能会有更多类似的职位出现,以满足设计与工程之间的需求。 Duolingo 计划在即将到来的 Duocon 会议上宣布更多基于 Rive 的项目,展示其在互动学习体验中的应用潜力。 Duolingo 创造了一个新的角色,连接设计师和开发人员 Duolingo 最近引入了一个介于设计和工程之间的新角色。这个角色专注于 设计优先的方式,他们正在寻找能够与动画师一起优化设计并将这些优化传达给工程师的人。他们称之为 Creative Technologist。 Creative Technologist 负责弥合设计师和开发人员之间的鸿沟,也就是我们常说的“交接”。他们既有技术背景又有设计眼光,是左右脑兼备的人才。他们受雇时会特别要求成为 Rive 的专家。 为什么选择 Rive? Rive 是一个可以创建运行时交互动态图形的设计工具。Duolingo 的首位 Creative Technologist Jeff Masters 解释道:“以前,动画师会提供一个模型,并附上技术规范,说明如何用代码实现他们的想法。但现在,Rive 让我们的动画师和 Creative Technologist 可以直接创建应用程序中使用的实际素材,不再需要反复与工程师沟通外观问题。在 Rive 中,设计就是最终产品。” 动画副创意总监 Alex Chopjian 的设计和技术能力让他们的 CEO 希望有更多这样的动画师。他说:“在 Rive 中,设计与最终产品之间的差距非常小。你可以直接在浏览器中看到动画效果,而完全不需要接触代码。”...

July 30, 2024 · 2 min · fisherdaddy

Duolingo的游戏化设计

这篇文章翻译了去年在twitter看到的一个关于Duolingo游戏化设计的帖子。 全球最佳游戏化设计。 Duolingo 的突破性游戏化设计使其成为全球最大的教育应用,拥有 6100 万用户。 以下是为什么 Duolingo 的游戏化设计如此出色以及他们是如何做到的: 1 顶级的入门体验 @duolingo 在逐步吸引用户方面表现出色,在此过程中建立了用户的目标。 他们让用户立即进入 “Duolingo” 体验。 这种类型的“用户投入”最终使产品对用户更有价值。 2 游戏化学习路径 @Duolingo 将其课程分成小块内容,每节课只需 2-3 分钟。 短暂的注意力 + 快速的行动 = 留存。 如此低的入门门槛对于激励如今注意力不集中的受众在应用中取得进展至关重要。 3 每日连胜 **连胜功能可以说是多邻国最强大的黏性机制之一,相当于每天的“打卡”,但是,多邻国用的是“连胜”字样。**有超过 600 万人连续 7 天或更多。 在多邻国看来,如果用户连续玩了10天,他们退出产品的几率就会大大降低,因此,也在一直改进“连胜”功能。 **2022年,在连胜功能上,多邻国有了重大迭代,推出了即连胜保护机制——连胜激冻。**也就是说如果有连胜的用户即将失去他们的连胜,该通知就会提醒他们,并保住连胜的成果。这给用户一种极大的心理安慰,会在接下来的日子更加努力。同时,多邻国还改善了连胜动画和连胜奖励等等,这都有助于完善最初的连胜理念,并显著提高了用户留存率。 4 多人模式 几乎所有社交活动都会产生某种网络效应。@duolingo 的社交任务功能令人叹为观止。 Duolingo 上的多人模式(Social Quest)通过荣誉、成就等使学习变得非常有趣。 5 排行榜和徽章 与 Strava、Fitbit 等类似 - 排行榜在游戏化方面已被证明非常有效。 多邻国的排行榜功能一开始采用的是和家人、朋友竞争,但是效果并不好。后来,多邻国意识到,竞争对手的黏性可能比朋友的黏性更好,因为朋友可能不再是活跃用户。 2022年12月,多邻国上线新的排行榜功能。排行榜除了名词,还有级别划分,一共有10个级别,青铜、银灰、黄金、蓝宝石……排行榜每周日更新排名情况,根据经验,根据更新时自己的排名决定能不能晋级。 排行榜的上线,给用户提供了更强的进步感和奖励感,只有坚持每天学习,长时间学习,才有可能取得晋级。排行榜功能对多邻国的增长指标产生了巨大且即时的影响,据Jorge Mazal统计,排行榜上线后,多邻国用户总体学习时间增加了17%,高度投入的学习者(每周5天每天至少花费1小时的用户)的数量增加了两倍。 6 奖励重大里程碑 @duolingo 设有让人愉悦的时刻,将其用户的奖励提升到一个新的高度。 从连胜到免费宝石,Duolingo 建立了一个出色的游戏化引擎,并在用户达到关键里程碑时奖励他们。 所有这些小时刻都汇集在一起! 7 无脑订阅(Super Duolingo) 随着用户对 Duolingo 的投入,他们很快就会意识到存在限制,但同时也会担心失去他们的“连胜”。 @duolingo 在打包这方面非常聪明。他们不仅仅是赚钱;他们在最大化您最宝贵的资产 ——节省时间。...

February 23, 2024 · 1 min · fisherdaddy