standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210100205.1 (22)申请日 2022.01.27 (71)申请人 南京烽火天地 通信科技有限公司 地址 211161 江苏省南京市江宁区滨江经 济开发区盛安大道739号 (72)发明人 夏立 钱柏丞 周晶 相若晨  李颜戎 杨学鑫  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 陆志斌 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于预加载权重词性组合的中文关键 短语抽取的方法 (57)摘要 本发明公开了一种基于预加载权重词性组 合的中文关键短语抽取的方法, 包括建立短语抽 取模型, 具体步骤如下: S1、 对文本 预处理; S2、 建 立核心抽取算法, 所述核心抽取算法包括短语权 重计算和制定短语拼接规则。 该种基于预加载权 重词性组合的中文关键短语抽取的方法, 通过抽 取出的关键短语, 不仅能有效代表整个文档的核 心内容, 而且给出每个关键短语的语义权重, 极 大增强关键词抽取的可解释性, 同时, 通过基于 中文语言习惯, 设计关键短语的短语规则, 可有 效避免抽取 出结构和语义 错乱的内容。 权利要求书2页 说明书4页 附图1页 CN 114490941 A 2022.05.13 CN 114490941 A 1.一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, 包括建立 短语抽取模型, 具体步骤如下: S1、 对文本预处 理, 所述文本预处 理具体包括如下步骤: S1.1、 针对文本数据特性, 制定文本清洗规则进行数据清洗, 去除文本中异常字符、 冗 余字符和乱码, 之后对文本做出重点标记; S1.2、 对经过S1.1处理后的文本进行中文分词和词性标注, 同时根据标点符号对文本 自然分句, 统计分词后所有词的个数total_length, 然后对分词后的文本做词频统计备用, 得到count; S2、 建立核心抽取算法, 所述核心抽取算法包括短语权重计算和制定短语拼接规则; 所 述短语权 重计算具体流 程为: S2.1、 加载由同分布文本训练的IDF权重词典, 得到每个词的权重值weight, 之后找出 候选短语集 合, 并求出短语权 重; S2.2、 对短语候选集中的所有词的权 重weight求和, 得到sum_w; S2.3、 计算 候选短语权 重; S2.4、 通过训练LDA主题权 重文件, 得到 权重调节因子, 计算主题权 重; S2.5、 通过基于MMR算法对overlaping的短语进行去重过滤, 并按照各短语重要程度排 序, 推荐t op_k个权重最大的短语, 之后根据目标业务积累的知识, 对文本后处理, 得到最终 结果。 2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2中的短语拼接规则具体包括以下规则: a、 一个短语不能超过12个to ken; b、 一个短语不能超过25个c har, 不能低于2个c har; c、 如果是to ken长度为2的短语, 优先推选动名词短语, 其次是名词短语; d、 动名词短语的动词必须 是触发词; e、 一个短语中不能出现超过一个虚词, 不能出现规定个数的停用词; f、 短语的前后不可以是虚词、 停用词, 短语末尾不能是动词; g、 短语中不能有特殊词, 短语中不能出现姓名、 地址及其 他特殊词性词。 3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.1中每 个词的权 重值weight计算公式为: weight=count*w ord_idf/total_length 。 4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.3中候选短语权 重的计算公式为: cpw=sum_w*length_w*pos_w 式中cpw为候选短语权 重, length_w 为短语长度权 重, pos_w 为短语词性组合权 重。 5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.4中LDA主题权 重cpw+的计算公式为: cpw+=topic_w*topic_theta 式中topic_w 为该词的主题权 重, topic_theta为权 重调节因子 。 6.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,权 利 要 求 书 1/2 页 2 CN 114490941 A 2其特征在于, 在S2之后还包括结果后处理和预训练模型, 所述结果后处理包括对平通词和 百搭词的处 理以及对特殊 规则和业 务知识处 理。 7.根据权利要求6所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, 所述预训练模型包括同分布文本、 文本分词训练、 词性标注训练、 IDF权重字 典、 LDA主题权 重和知识库积累。权 利 要 求 书 2/2 页 3 CN 114490941 A 3

PDF文档 专利 一种基于预加载权重词性组合的中文关键短语抽取的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预加载权重词性组合的中文关键短语抽取的方法 第 1 页 专利 一种基于预加载权重词性组合的中文关键短语抽取的方法 第 2 页 专利 一种基于预加载权重词性组合的中文关键短语抽取的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。