当前位置: 首页 >> 基本常识
人气推荐
微软发布开源 Icecaps 工具包,通过多任务学习实现多角色会话 AI
  
  来源: www.chengzipu.cn 点击:1891

我想昨天分享的原始DeepTech Deep Technology

北京时间8月30日,微软研究院宣布推出微软Icecaps,这是一个用于神经网络智能对话引擎的开源工具包。据报道,该工具包旨在使研究人员和开发人员可以在其聊天机器人产品中注入不同的角色,并且还可以与其他强调对话建模的自然语言处理功能结合起来以形成代码和预培训系统。而且,Icecaps工具包是完全开源的,其名称来自于代码和预培训系统的首字母缩写。

微软研究员莱昂纳多希夫(Vighnesh Leonardo Shiv)在博客中表示:“其中一些工具最近由微软研究院推广,包括个性化嵌入,基于Internet的最大信息解码,知识库以及实现更多结构的方法。共享功能,以鼓励多样性和相关回应。”

Icecaps库使用TensorFlow机器学习框架和SpaceFusion来实现兼容性,旨在允许用户使用多任务轻松构建复杂的训练配置。在接下来的几个月中,Microsoft Icecaps开源工具包将发布经过预训练的模型,供开发人员使用,指导他们的产品和技术快速适应新的场景和电源技术开发。

多任务和SpaceFusion

实际上,Icecaps开源工具箱的核心是灵活的多任务学习范例。在多任务处理中,参数子集在多个任务之间共享,因此可以使用共享功能来表示这些任务。例如,该技术已用于对话建模,以将常规会话数据与不成对的话语结合起来;通过将会话模型与共享其解码器的自动编码器配对,未配对的数据可用于个性化会话模型。 Icecaps通过允许将大多数模型表示为组件链来实现多任务处理,从而使研究人员和开发人员可以使用共享组件构建任意复杂的模型配置。它还支持灵活的多任务训练程序,该程序允许用户在训练过程中更改任务的权重。

此外,Icecaps实施了SpaceFusion多任务环境,该多样性和相关性最初旨在共同优化所生成的响应。 SpaceFusion添加了规范化的术语,以塑造任务之间共享的潜在空间。这些术语可以更好地调整每个任务在此潜在空间中学习的分布。

图SpaceFusion在多任务学习环境中添加了正则化术语,在共享的潜在空间上应用了结构以提高效率

个性化

另一方面,为了使用AI实现角色自身的某些独特风格和对话个性属性场景,Icecaps工具包允许研究人员和开发人员嵌入个性化的多数据和多人对话系统。

个性嵌入就像嵌入单词一样。正如我们学习每个单词嵌入如何描述潜在单词空间中单词之间的相互关系一样,我们可以从多个说话者数据集中学习每个说话者嵌入如何描述潜在的人格空间。多角色编解码器模型提供嵌入的字符和嵌入的个性化数据,以调整所选个性的解码响应。

MMI的解码和知识库

在嘈杂的现实世界数据上训练的会话系统往往会产生非特定的,平凡的响应,例如“我不知道您在说什么”。

这些系统将这种行为学习为连续生成上下文响应的安全方法。成本是回应的多样性和内容。解决此问题的一种方法是基于最大互信息(MMI)的假设进行重新排名。此方法训练第二个模型来预测给定潜在响应的上下文。该模型为基础解码器生成的每个假设分配了额外的分数,并且使用了这些额外的分数来重新排列假设集。 MMI在给定的上下文中使用最具针对性的潜在响应,并将其推到列表的顶部。作为其自定义波束搜索解码器的一部分,Icecaps将基于MMI的重排与其他几种解码功能结合在一起。

培训课程系统的主要瓶颈之一是缺少课程数据,这会捕获世界上大量非课程数据中的丰富信息。因此,我们需要能够利用后者的良好工具。为了培养Wikipedia或其他百科全书库资源(例如智能代理)中包含的所有知识,Icecaps实施了一种结合了机器阅读理解和响应生成模块知识的扎根对话方法。该模型使用注意力将内容与上下文相关的知识源隔离开来,从而使模型可以产生更明智的响应。

最后,值得注意的是,开源工具包预训练系统当前位于GitHub上,并且本文的内容也位于ACL上。链接都在下面。有兴趣的开发人员可以关注它。

本文是第一作者的原创文章,未经授权不得复制。

收款报告投诉

北京时间8月30日,微软研究院宣布推出微软Icecaps,这是一个用于神经网络智能对话引擎的开源工具包。据报道,该工具包旨在使研究人员和开发人员可以在其聊天机器人产品中注入不同的角色,并且还可以与其他强调对话建模的自然语言处理功能结合起来以形成代码和预培训系统。而且,Icecaps工具包是完全开源的,其名称来自于代码和预培训系统的首字母缩写。

微软研究员莱昂纳多希夫(Vighnesh Leonardo Shiv)在博客中表示:“其中一些工具最近由微软研究院推广,包括个性化嵌入,基于Internet的最大信息解码,知识库以及实现更多结构的方法。共享功能,以鼓励多样性和相关回应。”

Icecaps库使用TensorFlow机器学习框架和SpaceFusion来实现兼容性,旨在允许用户使用多任务轻松构建复杂的训练配置。在接下来的几个月中,Microsoft Icecaps开源工具包将发布经过预训练的模型,供开发人员使用,指导他们的产品和技术快速适应新的场景和电源技术开发。

多任务和SpaceFusion

实际上,Icecaps开源工具包的核心是灵活的多任务学习范例。在多任务学习中,参数子集在多个任务之间共享,因此这些任务可以由共享功能表示。例如,该技术已用于对话建模中,以将一般对话数据与不兼容的话语相结合;通过将对话模型与共享其解码器的自动编码器配对,可以使用不匹配的数据来个性化对话模型。通过将大多数模型表示为组件链,Icecaps允许研究人员和开发人员使用共享组件构建任意复杂的模型配置,从而实现多任务学习。还支持灵活的多任务训练计划,允许用户在训练过程中更改任务的权重。

此外,Icecaps还实现了SpaceFusion多任务环境,该环境最初旨在进行联合优化以生成响应多样性和相关性。 SpaceFusion添加了正则化项以塑造任务之间共享的潜在空间。这些术语可以更好地调整在此潜在空间中每个任务所学知识的分布。

图SpaceFusion在多任务学习环境中添加了正规化术语,并在共享的潜在空间上强加了结构,以提高效率

个性化

另一方面,为了使用AI实现某些角色的独特风格和对话个性属性场景,Icecaps工具包可以使研究人员和开发人员嵌入个性,多数据和多字符对话系统。

个性嵌入就像嵌入单词一样工作,就像我们学习每个单词如何嵌入以描述单词在潜在单词空间中的相关性一样。我们可以从多个说话者数据集中学习每个说话者的嵌入,以描述潜在的人格空间。多角色编码器-解码器模型提供嵌入的字符以及嵌入的个性化数据,以调整所选个性的解码响应。

MMI解码和知识库

经过嘈杂的现实世界数据训练的会话系统往往会产生非特定的,平淡的响应,例如“我不知道您在说什么。”

这些系统将这种行为作为持续生成上下文响应响应的安全方法来学习。成本是响应的多样性和内容。解决此问题的一种方法是基于最大互信息(MMI)的假设进行重新排名。该方法训练第二个模型来预测给定潜在响应的上下文。该模型为基本解码器生成的每个假设分配一个额外分数,并且该额外分数用于重新排列假设集。 MMI针对给定的上下文采取最具针对性的潜在响应,并将其推到列表的顶部。作为其自定义波束搜索解码器的一部分,Icecaps将基于MMI的重新排序与其他几种解码功能结合在一起。

培训课程系统中的主要瓶颈之一是缺少课程数据,因为该课程数据无法捕获世界上大量非课程数据中存在的大量信息。因此,我们需要一个可以利用后者的好工具。为了开发Wikipedia或其他百科全书库资源(例如,智能代理)中包含的所有知识,Icecaps实施了一种结合了机器阅读理解和响应生成模块知识的基础会话方法。该模型使用注意力将内容与上下文相关的知识源隔离开来,从而使模型能够产生更明智的响应。

最后,值得注意的是,开源工具包预训练系统当前位于GitHub上,并且本文的内容也位于ACL上。链接都在下面。有兴趣的开发人员可以关注它。

本文是第一作者的原创文章,未经授权不得复制。

澳门百家乐代理

友情链接:
金资讯网 版权所有© www.chengzipu.cn 技术支持:金资讯网 | 网站地图