甲骨文国际公司E·L·贾拉勒丁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉甲骨文国际公司申请的专利用于自然语言处理的噪声数据扩充获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115398436B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202080099408.2,技术领域涉及:G06F40/284;该发明授权用于自然语言处理的噪声数据扩充是由E·L·贾拉勒丁;V·比什诺伊;M·E·约翰逊;T·L·杜翁;洪宇衡;B·S·文纳科塔设计研发完成,并于2020-09-11向国家知识产权局提交的专利申请。
本用于自然语言处理的噪声数据扩充在说明书摘要公布了:用于在自然语言处理中训练聊天机器人系统的噪声数据扩充技术。在一个特定方面,提供了一种方法,所述方法包括:接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;用噪声文本扩充所述训练话语集以生成已扩充的训练话语集;以及使用所述已扩充的训练话语集来训练所述意图分类器。所述扩充包括:从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语。
本发明授权用于自然语言处理的噪声数据扩充在权利要求书中公布了:1.一种用于训练意图分类器的方法,所述方法包括: 在数据处理系统处接收训练话语集,所述训练话语集包括多个原始话语,所述多个原始话语用于训练所述意图分类器以从意图集中识别一个或多个话语的一个或多个意图,所述多个原始话语中的每个原始话语对应于所述意图集中的特定意图; 由所述数据处理系统用噪声文本扩充所述训练话语集并生成多组已扩充话语,以生成已扩充的训练话语集,其中,所述多组已扩充话语中的每组已扩充话语对应于所述多个原始话语中的相应原始话语的所述特定意图,并且是针对所述相应原始话语生成的且包括所述相应原始话语,其中,所述扩充包括: 从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,其中所述噪声文本是随机文本字符串或文本句子,所述噪声文本是从所述单词列表、所述文本语料库、所述出版物、所述字典或其任何组合中生成或复制的随机文本字符串或文本句子,并 相对于所述训练话语集的原始话语中的原始文本以原始文本与噪声文本的预定义扩充比将所述噪声文本合并到所述原始话语内以生成已扩充话语,其中所述噪声文本是以下述至少一种方式以1:1.2至1:5的原始文本与噪声文本的所述预定义扩充比设置的:i合并在所述原始话语中的至少一个原始话语的原始文本的前面,ii合并在所述原始话语中的至少一个原始话语的原始文本的后面,和iii整合在所述原始话语的原始文本中,其中所述噪声文本的设置不改变所述原始话语的所述原始文本中的单词;以及 由所述数据处理系统使用所述已扩充的训练话语集来训练所述意图分类器,其中,所述预定义扩充比被选择为保持所述原始话语的原始标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人甲骨文国际公司,其通讯地址为:美国加利福尼亚州;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。