standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210045865.4 (22)申请日 2022.01.17 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 韩晓然 李克秋 赵来平 (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 韩帅 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 基于机器学习的自然语言处 理方法和系统 (57)摘要 本发明提供一种基于机器学习的自然语言 处理的方法和系统, 通过将语句输入句法模型 中, 进行初步断句, 得到第一词分量, 将所述第一 词分量逐个输入语义分析模型, 得到第二词分 量, 重复输入语义分析模型的步骤, 直到每一个 第二词分量都被认定初步断句成功为止, 按照预 先设置的词组类型与权重值的映射关系, 组成新 的语句, 从而可以识别出 该新的语句的含义。 权利要求书1页 说明书3页 附图1页 CN 114519357 A 2022.05.20 CN 114519357 A 1.基于机器学习的自然语言处 理方法, 其特 征在于, 所述方法包括: 获取网络数据流, 从中提取出语句和附加元素信息, 所述附加元素信息是指用于区分 不同语句、 不同来源的标识、 冗余和帧结构; 将所述语句输入句法模型中, 进行初步断句, 得到第 一词分量, 所述句法模型根据每个 单词类型设置不同宽度的提取窗口, 以该提取窗口为断句依据, 窗口宽度内的单词组成所 述第一词分量; 将所述第一词分量逐个输入语义分析模型, 若能识别成短句, 则认定该第一词分量的 初步断句没有成功, 需要将该第一词分量再次输入 所述句法模 型, 再次进 行断句, 得到第二 词分量; 若无法识别成短句、 被识别成词组, 则认定该第一词分量的初步断句成功, 所述第 一词分量 直接标识为第二词分量; 所述词组由若干个单词组成, 不具有句法结构; 重复将所述第 二词分量逐个输入语义分析模型, 直到每一个第 二词分量都被认定初步 断句成功为止; 按照预先设置的词组类型与权重值的映射关系, 分析所有初步断句后的第二词分量, 将权重值大于阈值的第二词分量进行聚类, 组成新的语句, 识别出 该新的语句的含义。 2.根据权利要求1所述的基于机器学习的自然语言处理方法, 其特征在于: 所述根据每 个单词类型设置不同宽度的提取窗口, 包括更新单词的类型, 将新的单词类型与提取窗口 宽度建立对应关系。 3.根据权利要求1 ‑2任一项所述的基于机器学习的自然语言处理方法, 其特征在于: 所 述语义分析模型按照句子语法要求进行语义分析。 4.根据权利要求3所述的基于机器学习的自然语言处理方法, 其特征在于: 所述语义分 析模型和句法模型的内核均使用神经网络模型。 5.一种基于机器学习的自然语言处理系统, 其特征在于, 所述系统包括处理器以及存 储器: 所述存储器用于存 储程序代码, 并将所述 程序代码传输给 所述处理器; 所述处理器用于根据所述程序代码中的指令执行实现权利要求1 ‑4任一项所述的方 法。 6.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序代 码, 所述程序代码用于执 行实现权利要求1 ‑4任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114519357 A 2基于机器学习的自然语言处理 方法和系统 技术领域 [0001]本申请涉及网络多媒体领域, 尤其涉及一种基于机器学习的自然语言处理的方法 和系统。 背景技术 [0002]随着网络 的快速发展, 海量的信息爆炸式地充斥在网络中, 其中信息包含了含义 依靠现有的语义分析机器难以准确理解, 而人工修正的工作量非常巨大, 迫切需要改进语 义分析机器识别语言的能力。 [0003]现有技术使用多层网络对一整句或多个句子建模, 导致效率比较低, 并且非常依 赖对句子结构的准确断句, 越来越不 适应现在复杂多变的网络语言环境。 [0004]因此, 急需一种针对性的基于 机器学习的自然语言处 理的方法和系统。 发明内容 [0005]本发明的目的在于提供一种基于机器学习的自然语言处理的方法和系统, 通过将 语句输入句法模型中, 进 行初步断句, 得到第一词分量, 将所述第一词分量逐个输入语义分 析模型, 得到第二词分量, 重复输入语义分析模型的步骤, 直到每一个第二词分量 都被认定 初步断句成功为止, 按照预先设置的词组类型与权重值的映射关系, 组成新的语句, 从而 可 以识别出 该新的语句的含义。 [0006]第一方面, 本申请提供一种基于 机器学习的自然语言处 理的方法, 所述方法包括: [0007]获取网络数据流, 从中提取出语句和附加元素信息, 所述附加元素信息是指用于 区分不同语句、 不同来源的标识、 冗余和帧结构; [0008]将所述语句输入句法模型中, 进行初步断句, 得到第一词分量, 所述句法模型根据 每个单词类型设置不同宽度的提取窗口, 以该提取窗口为断句依据, 窗口宽度内的单词组 成所述第一词分量; [0009]将所述第一词分量逐个输入语义分析模型, 如果还能够识别成短句的话, 则认定 该第一词分量的初步断句没有成功, 需要将该第一词分量再次输入所述句法模型, 再次进 行断句, 得到第二词分量; 如果无法识别成短句、 被识别成词组的话, 则认定该第一词分量 的初步断句成功, 所述第一词分量直接标识为第二词分量; 所述词组由若干个单词组成, 不 具有句法结构; [0010]重复将所述第二词分量逐个输入语义分析模型, 直到每一个第二词分量都被认定 初步断句成功为止; [0011]按照预先设置的词组类型与权重值的映射关系, 分析所有初步断句后的第二词分 量, 将权重值大于阈值的第二词分量进行聚类, 组成新的语句, 识别出 该新的语句的含义。 [0012]结合第一方面, 在第一方面第一种可能的实现方式中, 所述根据每个单词类型设 置不同宽度的提取窗口, 包括更新单词的类型, 将新的单词类型与提取窗口宽度建立对应 关系。说 明 书 1/3 页 3 CN 114519357 A 3
专利 基于机器学习的自然语言处理方法和系统
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:54
上传分享
举报
下载
原文档
(320.1 KB)
分享
友情链接
GB-Z 41290-2022 信息安全技术 移动互联网安全审计指南.pdf
GB-T 10811-2022 釉下-中彩日用瓷器.pdf
GB-T 25745-2010 铸造铝合金热处理.pdf
OWASP API安全-十大关键API安全风险 2019中文版.pdf
DB32-T 3614-2019 工贸企业安全风险管控基本规范 江苏省.pdf
GB-T 34690.10-2018 印刷技术 胶印数字化过程控制 第10部分:评价方法.pdf
GB-T 13343-2008 矿用三牙轮钻头.pdf
GJB 907A-2006 产品质量评审.pdf
GB-T 34079.3-2017 基于云计算的电子政务公共平台服务规范 第3部分:数据管理.pdf
T-SEESA 013—2022 零碳数据中心创建与评价技术规范.pdf
GA-T 1202-2022 交通技术监控成像补光装置通用技术条件.pdf
GB-T 40659-2021 智能制造 机器视觉在线检测系统 通用要求.pdf
YD-T 4024-2022 数据中心液冷服务器系统总体技术要求和测试方法.pdf
GB-T 41767-2022 聚合物基复合材料吸湿性能及平衡状态调节试验方法.pdf
思度安全-DSMM-022 数据供应链安全管理规范V1.0.pdf
GB-T 26429-2022 设备工程监理规范.pdf
网络安全等级保护测评报告模板(2021版).pdf
GB 19079.11-2005 体育场所开放条件与技术要求 第11部分漂流场所.pdf
freebuf 2019企业安全威胁统一应对指南.pdf
GB-T 34224-2017 生物产品中功能性微生物检测.pdf
1
/
6
评价文档
赞助2.5元 点击下载(320.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。