standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210031904.5 (22)申请日 2022.01.12 (71)申请人 南京题麦壳斯信息科技有限公司 地址 210000 江苏省南京市 鼓楼区汉中门 大街301号南京国际服务外包大厦01 栋AB座 (72)发明人 陈件 潘丽婷 张井  (74)专利代理 机构 南京业腾知识产权代理事务 所(特殊普通 合伙) 32321 代理人 缪友益 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06V 30/148(2022.01) (54)发明名称 一种无监督的英文写作切题评估方法及其 系统和设备 (57)摘要 本发明公开一种无监督的英文写作切题评 估方法, 包括如下步骤: 人工输入参考关键词, 或 通过Text  Rank算法从输入的范文中获取参考 关 键词; 通过Text  Rank算法从待评估作文中获取 作文关键词; 使用BERT预训练模型将参考关键词 和作文关键词均转为词向量; 利用余弦相似度计 算参考关键词和作文关键词间的相似度; 获得参 考关键词与作文关键词间最大相似度, 计算平均 相似度, 映射成切题分数。 通过本发明的方法无 需标注训练语料, 高效快捷; 同时相较于仅凭文 本是否存在关键词判断切题与否的方法, 本方法 通过双向提取关键词的方式有效地避免误判和 漏判, 并通过计算计算语义相似度的方式, 进一 步确保切题评价的准确度。 权利要求书2页 说明书4页 附图1页 CN 114357142 A 2022.04.15 CN 114357142 A 1.一种无监 督的英文 写作切题评估方法, 其特 征在于, 包括如下步骤: S1、 人工输入参考关键词, 或通过Text  Rank算法从输入的范文中获取参考关键词; 通 过Text Rank算法从待评估作文中获取作文关键词; S2、 使用BERT预训练模型将参 考关键词和作文关键词均转 为词向量; S3、 利用余弦相似度计算 参考关键词和作文关键词间的相似度; S4、 获得参 考关键词与 作文关键词间最大相似度, 计算平均相似度, 映射成切题分数。 2.根据权利要求1所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S1中通过 Text Rank算法获取参 考关键词或作文关键词的具体方法为: S11、 对用户提供的范文或待评估作文进行分词, 剔除停用词, 建立基于范文或待评估 作文的词表; S12、 以单词作为节点, 单词之间的共现频次作为边权重, 建立有向图, 设置共现窗口长 度为5个单词, 对于任意连续5个单词, 这5个单词之间视为共现; S13、 初始化单词节点分数为 N为词表大小, 根据公式(1)更新每个单词节点的分数, 直至分数收敛; 其中, scorei是第i个单词节点分数, scorej是第j个单词节点分数; IN(i)为节点i的所 有入边的节点集合, 节点i的入边是指边从其他节点出发, 指向节点i; 节点j从属 于IN(i); wji为节点j到节点i的入边权重, 即共现频次; OUT(j)是节点j的所有出边的节点集合, 节点j 的出边是指从节点j出发, 指向其他节点, 节点k从属于OUT(j), wjk为节点j到节点k的出边权 重; d是平 滑系数, 取0.8, 用于避免分数为0; S14、 对所有单词节点根据分数进行降序排列, 选取前若干个单词作为关键词, 如果关 键词相邻, 则合并为关键词组。 3.根据权利要求2所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S2中将参 考关键词或作文关键词均转 为词向量的方法为: 利用BERT的预训练模型, 将参考关键词或作文关键词进行词嵌入操作, 每个关键词映 射成768维的词向量vi, 对一个关键词的M个词向量进行取均值的池化操作, 最终得到一个 768维的关键词向量V, 计算公式如公式(2), 4.根据权利要求3所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S2获得n 个参考关键词向量和m个作文关键词向量, n和m为超参数, 默认 为3和10, 也可由用户自行设 定, 使用余弦距离计算参考关键词和作文关键词的相 似度, 得到n行m列的相 似度矩阵S, 如 公式(3), 5.根据权利要求4所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S4的具体权 利 要 求 书 1/2 页 2 CN 114357142 A 2方法为: 以n个参考关键词为标准, 在 m个作文关键词中, 找到n个与参考关键词相似度最大的作 文关键词, 对n个最大相似度取均值, 将平均相似度映射到 0至100的切题分数, 如公式(4), 6.一种无监 督的英文 写作切题评估系统, 其特 征在于, 包括: 关键词获取模块, 设置文本输入接口和OCR扫描接口, 通过文本输入或OCR识别的方式 获取范文和待评估作文, 并通过Text  Rank算法获取参 考关键词和作文关键词; 关键词相似度对比模块, 接收关键词获取模块发送的参考关键词和作文关键词数据, 并进行处理转换为参考关键词向量和作文关键词向量, 计算参考关键词和作文关键词间的 相似度, 形成相似度矩阵; 输出打分模块, 接收关键词相似度对比模块输入的相似度矩阵, 获得参考关键词与作 文关键词的最大相似度, 计算平均相似度, 并映射成切题分数后输出至 显示设备。 7.一种无监督的英文写作切题评估设备, 该设备的计算机搭载权利要求6所述的无监 督的英文 写作切题评估系统。权 利 要 求 书 2/2 页 3 CN 114357142 A 3

PDF文档 专利 一种无监督的英文写作切题评估方法及其系统和设备

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种无监督的英文写作切题评估方法及其系统和设备 第 1 页 专利 一种无监督的英文写作切题评估方法及其系统和设备 第 2 页 专利 一种无监督的英文写作切题评估方法及其系统和设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。