Duolingo如何在其应用的每个部分中使用AI

时间：2020-08-22 20:52:39来源：互联网

在大流行期间，语言学习激增。Duolingo是游戏化语言学习的代名词，今年3月是增长最快的时期，全球新用户增长101%。从那些仅仅拥有更多时间的人到试图在大流行学年保持跟进的学生，该应用程序是一个巨大的福音。所有这些额外的数据都不会浪费-因为Duolingo早就投资了AI，随着应用程序的增长超过2019年12月报告的3000万每月活跃用户，该应用程序一直在不断完善。

“人们不知道的一件事是，即使Duolingo非常游戏化，而且看起来很可爱，我们实际上记录了您所做的一切，以试图基本掌握您所知道的模型，” Duolingo首席执行官Luis von Ahn告诉VentureBeat。我们与von Ahn谈了Duolingo使用AI的所有方式，然后跟进了公司的研究总监Burr Settles，他于2013年加入(Duolingo成立于2012年)。“我们聘请了这个名叫Burr的人，他拥有博士学位。冯·安恩(von Ahn)在描述公司首次涉足AI时说道。“他进来，当时的想法是'设法弄清楚如何使用AI来改善Duolingo。'”

我们已经深入研究了Duolingo如何使用AI来人性化虚拟语言课程并推动其英语水平测试。这是对应用程序本身各个方面的仔细研究，包括故事，智能提示，播客，报告甚至通知背后的AI。

所有这些加在一起，带来了卓越的语言学习经验，Duolingo说。确实，该公司今天发布了一份报告，声称其用户在阅读和听力测试方面的表现与参加四个学期大学课程(半小时)的学生一样。

间隔重复

在您使用它时，Duolingo会根据您所知道的和不知道的内容来构建极其详细的配置文件。

冯·安(von Ahn)说：“我们每个单词都知道。”“我们有一个完整的空间重复系统。我们知道您看到过这个单词多少次了，我们知道您要花多长时间才能忘记这个单词。”

间隔重复系统是该公司于2013年进行的第一个AI项目。该模型能够预测您何时忘记了某件事，因为您很少或最近才看到它。时至今日，Duolingo用它来帮助您选择将要参加练习的挑战。

Settles说：“这仍在生产中。”“这个项目实际上已经有大约七年没有真正涉及到，并且在最后一个季度中，我们实际上正在恢复这一状态，最后回过头来改进并利用我们学到的一些东西进行改进。同样在2013年，我们建立了计算机自适应放置测试。首次注册课程时，大约需要五分钟，它将使您进入该课程的所属位置。我们也在对此进行一些积极的改进。第二个项目是Duolingo英语测试的灵感。VentureBeat最近在这方面做了相当深入的事情，但这就是AI端到端。”

在每节课中，Duolingo会根据应用程序认为您需要练习的单词和概念来决定为您提供哪些练习。您所服务的具体练习各不相同，因此每个练习的总结局对每个人而言都是不同的。

“我们可能会列出20个要教您的单词。所有人都一样。”冯·安(von Ahn)解释说。“但是有了这些话，我们对如何向您教他们有一定的自由度。例如，我们可能会给您一个句子“我爱这把椅子”来教您一个“椅子”一词，或者我们可能会给您一个句子“我坐在这把椅子上”。我们会根据我们认为对您更好的选择，选择教给谁一词的主席。

如果您正在为过去时而挣扎，而Duolingo在各个时态中针对您的水平进行了一系列练习，那么它将在您正在上的课程中选择过去时，以确保您练习得更多。

鸟脑

这一切都归功于亲切地称为Birdbrain的机器学习实现。

冯·安(von Ahn)说：“一般来说，对于每次锻炼，我们都非常了解该锻炼对您有多困难。”“对于每个句子，在我们将其提供给您之前，我们都有可能使您正确理解该句子，正确执行该句子。它没有给我们任何关于您知道什么和您不知道什么的解释，它只是说：“ Emil，因为这个男人坐在椅子上的一句话，有93%的机会使事情变得正确。”

此外，Birdbrain根据句子对您的难易程度来调整课程中的难度。冯·安恩说：“我们使用它来校准难度。”“如果您把所有事情都做对了，我们会说'让我们给您一些东西，我们认为您只有70%的几率来了解自己是否做对了。'如果您发现很多错误，实际上我们会开始为您提供更简单的功能。”

将Birdbrain视为最终的个性化学习系统。

Settles解释说：“这是一个庞大的系统，每天晚上都要从前一天的10亿堂课中进行训练。”作为做出这些预测的副产品，它可以模拟挑战的难度以及用户的熟练程度。因此，我们现在已经在称为会话生成器的系统中提供了此微服务-该系统可以在您上课或练习时专门为您构建课程。它会说：“好的，我可以提出200项挑战。我将只使用其中的14个，但是这里大约200个，可能合适。Birdbrain会回来说：“好吧，在这200个中，这是其中每一个的概率威胁。然后会话生成器可以使用它来帮助选择将要面临的挑战。

完成约一百次练习或仅完成五到六节课程后，Duolingo可以开始为您提供定制的AI生成的课程或课程内的建议。该系统是相当新的-Duolingo于2019年10月才开始开发它，并于3月推出了使用它的产品功能。

Settles说：“多个团队使用这项服务来微调他们拥有的体验。”“因此，随着时间的推移，使用Birdbrain进行个性化设置的会话比例一直在上升。”

上个月，Birdbrain对Duolingo的会议进行了6-8%的个性化设置。如今，随着公司团队不断寻找新的使用方式，这一数字已达到12%。

怪

为了让Birdbrain的个性化真正有用，Duolingo需要知道您为什么某些练习失败了。

Settles说：“当挑战是非时，Birdbrain实际上并不知道为什么挑战对错。”“如果发生了误导，或者是名词形容词协议，或者您只是键入了色拉一词，就Birdbrain而言，这并没有区别。”

Duolingo使用每一次练习所了解的所有信息，并尽可能详细地标记这些内容(词性，句子结构，时态等)，以便可以找出应归咎的地方。这些标签曾经是手动完成的，但现在已经不复存在了。

冯·安恩说：“我们现在自动完成很多工作–每次锻炼都带有标签。”“然后，每当您发现错误时，我们就会使用称为Blame的算法，我们会尝试归咎于您弄错了原因。因此，当您输入错误时，我们会尝试找出“哦，是因为您不知道该词，还是因为您知道该词，但您不知道如何输入它过去式。'然后我们对您经常出错的事情有了一个很好的主意。”

当您正确进行练习时，没有单独的算法，但是Duolingo也会对此进行跟踪。

“如果是的话，我们会给您信誉。我们说：“好吧，他只是做了一个包含这些词和这些概念的练习，并且正确无误，因此我们对这个人知道这些概念的信心增强了。”但是，如果您弄错了，这将变得更加困难，因为布拉姆(Blame)试图找出哪个概念是造成错误的原因。有时我们做不到，因为您输入的答案太离谱了，谁知道呢?但是人们输入的大多数错误，通常就像掉了一两件事。我们会尝试找出您不知道的概念。你不知道这个词吗?您是否不知道该词的性别?您不知道如何与过去时相结合吗?您不知道形容词出现在名词之前吗?

怪罪可能会导致您弄错原因的多种原因。当然，您犯的错误越多，破译就越困难。冯·安(von Ahn)说：“在某种程度上，这只是一种放弃。”

如果您知道将要挑战一个错误，但是您识别出一个单词，则仅翻译该单词会比用gobbledygook做出响应更好。“对于我们的模型肯定会更好。我们的模型会对您有更好的意见。”

相反，如果您把整个事情都做对了，Duolingo并不一定认为您了解其中的所有概念，也许您只是猜对了。“那是完全正确的。”冯·安恩证实。“这全都是概率。现在我们有了一点信心，您知道“香蕉”这个词。

主动学习

仅仅翻译单个单词不足以用一种新语言进行有效的交流。句子的构建和理解同样重要。去年，该公司开始致力于一项名为Smart Tips的功能。对于您犯的一些错误，Duolingo会尝试找出根本原因，以便为您提供及时的提示。例如，如果Duolingo注意到您输入正确的单词但顺序不正确，则它会在吐出您的输入不正确后立即为您提供正确的语法提示。

看起来很简单，对吧?事实证明，智能技巧不仅是简单的机器学习。

“这需要一些重大的创造力，”塞特尔斯说。“每个挑战和每个响应都通过一个漂亮的教科书自然语言处理流程来进行。这是句子，这些都是名词。这个名词是男性的，它是复数形式，并且是该动词的主题。所有这些东西都是漂亮的教科书。但是，然后弄清楚这个人犯了这个特定的错误-他们弄错了单词order或他们弄错了名词和形容词约定的性别。这些是人类在教科书，自然语言处理管道之上制定的规则。”

Settles博士学位处于积极学习中，他写了一本书关于机器学习算法的问题。他们不仅会被动地消耗数据并学习预测某些东西，还会发展一个假设或多个假设，并通过向人类预言家提问来试图找出哪种假设是正确的。

Settles说：“我们在这里所做的是，我们为正确的答案运行一个NLP，并在错误的答案上运行NLP管道。”“我们着眼于两者之间的区别，并尝试对错误之处进行一堆解释。我们知道这是错误的。但是，这有什么问题呢?然后每天总共进行数百万次练习。然后向像这样的人提出建议，“嘿，这是我认为在许多这些挑战中都出了问题的地方。”然后，它将提出一些规则，它们可以单击规则，然后查看该规则涵盖的正确答案和错误答案的示例。他们与AI合作，以制定正确的规则。

正是AI与人员之间的这种来回关系导致了常见语法错误模式的规则。该过程需要汇总有关Duolingo用户每天都会犯的错误的所有数据。然后，Duolingo的工作人员会决定什么是规则以及是否应将其作为提示发布。随后进行一些编译和优化，以确保当您犯相应的错误时，新提示会在您的手机上快速显示。然后，随着新类型的错误和规则的发布，这种情况再次发生。

土匪

Duolingo甚至使用AI来提高其通知的有效性。该应用每天都会向您发送一条通知，提醒您进行练习。

冯·安恩说：“我们使用AI来确定何时将它们发送给您以及告诉您什么。”“我们培训了整个系统，试图根据您自己的活动确定何时发送通知的最佳时间。我们知道您在Duolingo上的活动，然后在过去的一天中，您过去一直都在使用Duolingo进行观察，然后我们选择一个时间来最好地向您发送提醒以及该提醒中要说的内容。就回国人数而言，我们取得了可观的成就。”

在Duolingo实施其新颖的强盗算法后，该公司在下载该应用后一天到一周内，新用户保留率提高了2%。

这看起来似乎不多，但是如果您认为唯一的输入数据是在使用该应用程序时，则有很大的增加。几天后，Duolingo可以优化何时向您发送通知。甚至一天的数据都是有用的。

冯·安恩说：“实际上还不错。”“这真有趣。如果我们只有一天的时间来提供有关您的信息，您知道系统的作用吗?它会在第二天的同一时间向您发送通知。事实证明那确实不错。过了几天，我们会越来越好。大概使用一周后，我们对您何时使用Duolingo有了一个很好的了解。有时它可能在一周中的一天中有所不同，因此我们注意到，对于某些人来说，它在周末所做的工作与在工作日中有所不同。该系统几乎只使用您的数据进行了培训，但它变得非常好，非常快。”

与大多数总是有大量改进潜力的AI实现不同，这感觉像是一个已解决的问题。冯·安恩说：“我不知道这是否是一个解决的问题，但是我们对那里的情况感到非常满意，很难想象我们可以做得更好。”“也许我们可以做得更好一些，但是做得很好。”

逻辑回归

每当您提交挑战答案时，Duolingo都说错了，您可以选择单击报告按钮。如果您认为自己做对了，可以提出上诉。

Settles说：“我们每个星期大约得到五十万到一百万，其中90%是垃圾。”“他们不是偶然的轻拍，就是人民错了，但他们认为他们是对的。但是其中约有10%是课程中的错误。或不一定是bug，而是可以接受的东西。也许它们不是最流利或惯用的方式，但是它们是正确的，因此我们应该修改课程内容以包括这些内容。但这对于课程内容维护者和开发者来说是真正的大海捞针。”

为了应对这一挑战，该团队使用逻辑回归算法构建了机器学习系统，该算法将浮现有用的报告。

Settles说：“有一段时间，我们只是按照报告的确切数量来对报告进行排序。”“这有所帮助。但是在此过程中，我们收集了很多培训数据;好吧，这实际上是正确的，这是不正确的。因此，我们能够训练机器学习模型来预测哪些报告可能会被我们的贡献者接受。我们以多种语言使用了这种方法，因此现在有了一个界面，该界面可以对所有报告进行基本排序，以便他们可以首先找到最重要的报告。”

重要的是，Duolingo不仅要对报告进行排名，而且还要不丢弃不那么有用的报告-毕竟，没有一种算法是完美的。另外，无论优先级如何，团队仍有太多报告无法通过。

Settles说：“至少最顶层的那些更有可能被接受，而我们应该做出真正的改变。”“当他们看着它们时，有些像是'是的，很明显。'语言是如此富有表现力。说出完全相同的事情的方法有很多，即使您真的在认真思考，也不一定涵盖所有基础。”

结果不言自明。

Settles指出：“过去，当我们推出一项全新的课程时，从Beta版毕业大约需要六个月左右的时间。”“从Beta版毕业的标准之一是，每届会议的报告数量少于一定数量。创建此工具后，我们推出了前两门课程，我认为是拉丁语和苏格兰盖尔语。那些人在五个星期内从Beta版毕业。它极大地减少了我们在收到这些报告时可以多快地对其进行处理。”

CEFR检查器

去年的一个季度中，Duolingo使用了无监督机器学习来构建一种工具，用于确定语言学习者对任何文本的难度。该团队使用了欧洲共同参考框架(CEFR)，该框架具有六个级别的等级：A1和A2(初学者)，B1和B2(中级)以及C1和C2(高级)。

该工具不仅可以对文本的语言级别进行分类，还可以判断单个单词和结构的级别。公开版本只有英文和西班牙文，您可以尝试使用(CEFR Checker)，但内部的Duolingo也可以使用西班牙文，法文，葡萄牙文，德文和意大利文。

Settles解释说：“我们的语言和课程专家在开发课程时，会将词汇组织到不同的级别。”“我们的基础是数十年的研究，这些研究已经针对词汇表进行了。我们将其用作训练数据。但是创建这些词汇表的大部分工作都是纯英语的，因为学习英语是一个价值数十亿美元的产业，而学习葡萄牙语则不是那么多。”

这种局限性意味着团队必须依靠其语言学博士团队的课堂教学经验来开发许多课程内容。这些语言学家汇总了大约7,000个英语单词，并根据CEFR对其进行了标记。然后AI团队开始在互联网上使用大量的文本来训练模型，这样它可以通过单词嵌入和迁移学习来学习英语中一千万个单词的难度。

Settles说：“我们发明了一些多语言自然语言处理迁移学习的方法。”“我们本质上是在进行多语言多任务传输学习，我们主要使用英语提供数据，但是即使我们正在自举，我们也能够训练一个能够以西班牙语，法语，德语，意大利语和葡萄牙语做出准确预测的系统来自英语。它确实会犯一些错误。这些语言的课程专家可以纠正明显的错误，然后我们对该模型进行重新训练，直到变得更加准确为止。”

Duolingo有一个“故事”选项卡，其中包含用于测试您的阅读理解力的简短故事。故事小组使用CEFR Checker来测试他们编写的难度级别是否合适。

冯·安恩说：“我们说，'好吧，在这种特定的语言水平上，我们还需要10个故事。”“然后让作家来编写它们，然后检查它们是否处于该语言级别。如果不是，我们将它们退还给作者，然后说：“嘿，这仍然太难了，您应该简化一下。”

Duolingo还记录播客，因此您可以继续在应用程序外部学习。播客团队同样使用CEFR Checker来确保他们在开始录制之前编写的脚本对于给定情节而言具有适当的难度。该公司的其他团队也正在使用CEFR Checker，并提出功能请求，以使Settles希望返回并对其进行改进。

在上方，您可以查看CEFR Checker对本文的分析。

接下来是什么?

我向二人组问的最重要的问题是Duolingo用户最难解决的一件事：我应该按什么顺序上课?

冯·安恩说：“我们已经探索了这一点，我们可能应该继续探索它。”“这是我们知道的很多人都在挣扎的事情-这样做的最佳顺序是什么?我们已经考虑了很多，是的，这是我们过去使用AI的目的，但是我认为我们做过的任何事情都没有我们目前拥有的更好。让人们探索。”

Duolingo根据您过去完成的课程解锁更难的课程，但这是您获得的唯一指导。人工智能可以帮助您选择接下来要学习的内容吗?

Settles说：“大概是在某个时候，因为我们现在有了开始进行这项工作的工具，”“因此，将路线图放在积压的事情中。”