天翼云科技有限公司郑延钦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天翼云科技有限公司申请的专利文本分割方法、计算机设备、可读存储介质和程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120354843B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510831062.5,技术领域涉及:G06F40/205;该发明授权文本分割方法、计算机设备、可读存储介质和程序产品是由郑延钦;周望;黄辉;石一鸣;艾天翔设计研发完成,并于2025-06-20向国家知识产权局提交的专利申请。
本文本分割方法、计算机设备、可读存储介质和程序产品在说明书摘要公布了:本申请涉及一种文本分割方法、计算机设备、可读存储介质和程序产品,应用于大数据技术领域,包括:获取目标文本识别间隔符号;符号选取步骤:从间隔符号中选取符号优先级最高的目标间隔符号;根据目标间隔符号对目标文本进行段落分割,得到多个第一段落分割文本;若多个第一段落分割文本中存在文本长度大于预设文本长度阈值的目标段落分割文本,将目标段落分割文本更新为目标文本,返回执行符号选取步骤,直至多个第一段落分割文本中不存在文本长度大于预设文本长度阈值的目标段落分割文本,得到段落分割文本信息;对段落分割文本信息进行语义识别,得到语义识别信息,并合并各段落文本得到目标分割文本。采用本方法能够提高文本分割的准确性。
本发明授权文本分割方法、计算机设备、可读存储介质和程序产品在权利要求书中公布了:1.一种文本分割方法,其特征在于,所述方法包括: 获取目标文本,并识别所述目标文本中的间隔符号; 符号选取步骤:从所述目标文本中的间隔符号中选取符号优先级最高的目标间隔符号; 根据所述目标间隔符号,对所述目标文本进行段落分割,得到多个第一段落分割文本; 若所述多个第一段落分割文本中存在文本长度大于所述目标文本对应的预设文本长度阈值的目标段落分割文本,则将所述目标段落分割文本更新为所述目标文本,并返回执行所述符号选取步骤,直至所述多个第一段落分割文本中不存在文本长度大于所述预设文本长度阈值的目标段落分割文本,得到段落分割文本信息; 分别对所述段落分割文本信息中的各段落文本进行语义识别,得到语义识别信息,并获取所述目标文本对应的限制文本长度,以及,确定各所述段落文本的文本信息,其中,所述文本信息用于表征各所述段落文本的分段状况和文本复杂度中的至少一项;根据各所述段落文本的文本复杂度,确定预分组段落数量,其中,所述文本复杂度由文本长度和文本字符重复率确定得到,所有所述段落文本的文本复杂度越高,确定的预分组段落数量越大;预划分步骤:针对首个段落文本,将所述首个段落文本划分至首个段落文本组;针对每一非首个段落文本,若所述非首个段落文本的文本复杂度与上一段落文本组的文本复杂度之和不大于每一分组中包含的各段落文本的文本总复杂度,则将该非首个段落文本划分至上一段落文本组,若非首个段落文本的文本复杂度与上一段落文本组的文本复杂度之和大于每一分组中包含的各段落文本的文本总复杂度,则将该非首个段落文本划分至当前段落文本组;根据各所述段落文本的文本长度,确定预划分得到的多个预划分文本组的预分组文本长度;若各所述预分组文本长度未均小于或等于所述限制文本长度,则调小所述预分组段落数量,并返回执行所述预划分步骤,直至各所述预分组文本长度均小于或等于所述限制文本长度,将多个预划分文本组确定为多个段落文本组;针对每一所述段落文本组,根据所述语义识别信息,分别对所述段落文本组中包含的各段落文本两两之间的关联程度进行评估,得到关联性信息;若所述段落文本组中存在关联性信息满足预设关联性条件的目标段落文本对,则将所述段落文本组中的目标段落文本对进行合并;若所述段落文本组中不存在关联性信息满足预设关联性条件的目标段落文本对,则保持所述段落文本组不变;在所有所述段落文本组均处理完毕时,将各所述段落文本组进行组合,得到目标分割文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天翼云科技有限公司,其通讯地址为:100007 北京市东城区青龙胡同甲1号、3号2幢2层205-32室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励