standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210100205.1 (22)申请日 2022.01.27 (71)申请人 南京烽火天地 通信科技有限公司 地址 211161 江苏省南京市江宁区滨江经 济开发区盛安大道739号 (72)发明人 夏立 钱柏丞 周晶 相若晨 李颜戎 杨学鑫 (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 陆志斌 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于预加载权重词性组合的中文关键 短语抽取的方法 (57)摘要 本发明公开了一种基于预加载权重词性组 合的中文关键短语抽取的方法, 包括建立短语抽 取模型, 具体步骤如下: S1、 对文本 预处理; S2、 建 立核心抽取算法, 所述核心抽取算法包括短语权 重计算和制定短语拼接规则。 该种基于预加载权 重词性组合的中文关键短语抽取的方法, 通过抽 取出的关键短语, 不仅能有效代表整个文档的核 心内容, 而且给出每个关键短语的语义权重, 极 大增强关键词抽取的可解释性, 同时, 通过基于 中文语言习惯, 设计关键短语的短语规则, 可有 效避免抽取 出结构和语义 错乱的内容。 权利要求书2页 说明书4页 附图1页 CN 114490941 A 2022.05.13 CN 114490941 A 1.一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, 包括建立 短语抽取模型, 具体步骤如下: S1、 对文本预处 理, 所述文本预处 理具体包括如下步骤: S1.1、 针对文本数据特性, 制定文本清洗规则进行数据清洗, 去除文本中异常字符、 冗 余字符和乱码, 之后对文本做出重点标记; S1.2、 对经过S1.1处理后的文本进行中文分词和词性标注, 同时根据标点符号对文本 自然分句, 统计分词后所有词的个数total_length, 然后对分词后的文本做词频统计备用, 得到count; S2、 建立核心抽取算法, 所述核心抽取算法包括短语权重计算和制定短语拼接规则; 所 述短语权 重计算具体流 程为: S2.1、 加载由同分布文本训练的IDF权重词典, 得到每个词的权重值weight, 之后找出 候选短语集 合, 并求出短语权 重; S2.2、 对短语候选集中的所有词的权 重weight求和, 得到sum_w; S2.3、 计算 候选短语权 重; S2.4、 通过训练LDA主题权 重文件, 得到 权重调节因子, 计算主题权 重; S2.5、 通过基于MMR算法对overlaping的短语进行去重过滤, 并按照各短语重要程度排 序, 推荐t op_k个权重最大的短语, 之后根据目标业务积累的知识, 对文本后处理, 得到最终 结果。 2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2中的短语拼接规则具体包括以下规则: a、 一个短语不能超过12个to ken; b、 一个短语不能超过25个c har, 不能低于2个c har; c、 如果是to ken长度为2的短语, 优先推选动名词短语, 其次是名词短语; d、 动名词短语的动词必须 是触发词; e、 一个短语中不能出现超过一个虚词, 不能出现规定个数的停用词; f、 短语的前后不可以是虚词、 停用词, 短语末尾不能是动词; g、 短语中不能有特殊词, 短语中不能出现姓名、 地址及其 他特殊词性词。 3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.1中每 个词的权 重值weight计算公式为: weight=count*w ord_idf/total_length 。 4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.3中候选短语权 重的计算公式为: cpw=sum_w*length_w*pos_w 式中cpw为候选短语权 重, length_w 为短语长度权 重, pos_w 为短语词性组合权 重。 5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, S2.4中LDA主题权 重cpw+的计算公式为: cpw+=topic_w*topic_theta 式中topic_w 为该词的主题权 重, topic_theta为权 重调节因子 。 6.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,权 利 要 求 书 1/2 页 2 CN 114490941 A 2其特征在于, 在S2之后还包括结果后处理和预训练模型, 所述结果后处理包括对平通词和 百搭词的处 理以及对特殊 规则和业 务知识处 理。 7.根据权利要求6所述的一种基于预加载权重词性组合的中文关键短语抽取的方法, 其特征在于, 所述预训练模型包括同分布文本、 文本分词训练、 词性标注训练、 IDF权重字 典、 LDA主题权 重和知识库积累。权 利 要 求 书 2/2 页 3 CN 114490941 A 3
专利 一种基于预加载权重词性组合的中文关键短语抽取的方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:41
上传分享
举报
下载
原文档
(410.5 KB)
分享
友情链接
T-JSJTQX 42—2023 公路连续梁桥整联同步顶升 施工技术规程.pdf
DB31-T 1341-2021 商务办公建筑格力用能指南 上海市.pdf
HJ 1238—2021 汽车排放定期检验信息采集传输技术规范.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
AQ-T 3046-2013 化工企业定量风险评价导则.pdf
国家电网 谈元鹏 电力领域知识图谱技术进展与应用实践.pdf
GM-T 0076-2019 银行卡信息系统密码应用技术要求.pdf
GB-T 4990-2010 热电偶用补偿导线合金丝.pdf
GB-T 37046-2018 信息安全技术 灾难恢复服务能力评估准则.pdf
GB/Z 24294.2-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第2部分:接入控制与安全交换.pdf
GB-T 32082-2015 船舶管路用彩色识别标志.pdf
民航 MH-T 6050-2009 行李处理系统 带式输送机.pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
炼石数据安全方案-60页通用行业-V7.4.2.pdf
GB-T 7920.15-2003 沥青储存、熔化和加热装置 术语.pdf
思度安全-DSMM-001 数据安全管理总纲V1.0.pdf
NIST.SP.800-190 容器安全指南.pdf
GB-T 37730-2019 Linux服务器操作系统测试方法.pdf
aigc安全研究分享.pdf
GB-T 7660.3-2013 反射棱镜 第3部分:光学平行度及其检验方法.pdf
1
/
8
评价文档
赞助2.5元 点击下载(410.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。