(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210147864.0
(22)申请日 2022.02.17
(71)申请人 刘莲英
地址 610043 四川省成 都市武侯区武侯大
道铁佛段1号1 1栋6楼605室
(72)发明人 刘莲英
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/247(2020.01)
G06F 40/216(2020.01)
G06F 16/33(2019.01)
G06N 3/08(2006.01)
G06Q 50/20(2012.01)
(54)发明名称
一种试卷主观题自动评分方法
(57)摘要
本发明涉及考试阅卷自动化领域, 尤其涉及
一种试卷主观题自动评分方法。 用以解决计算机
自动评阅的准确率很难达到人工评阅的水平的
问题。 方法包括: 步骤1、 获取考生主观题答案, 并
划分训练样本和测试样本; 步骤2、 进行分句处
理; 步骤3、 进行分词处理; 步骤4、 提取关键词语;
步骤5、 对标准答案进行步骤2 ‑4后, 设定 得分词;
步骤6、 提取文本特征; 步骤7、 进行训练, 得到评
分模型; 进行测试, 得到评分。 通过提取多个文本
特征, 更加详细地描述文本, 对文本相似度的计
算更具说服力, 为后续的评分提供有力支持; 以
词语语义相似度为基础, 赋予不同子句分句权
重, 统计得到文本语句相似度, 提高了计算机自
动评阅的准确率, 提高阅卷效率, 减少人工成本 。
权利要求书2页 说明书10页 附图3页
CN 114462389 A
2022.05.10
CN 114462389 A
1.一种试 卷主观题自动评分方法, 其特 征在于, 包括以下步骤:
步骤1、 获取考 生主观题答案, 并划分训练样本和 测试样本;
步骤2、 进行分句处 理;
步骤3、 进行分词处 理;
步骤4、 提取关键词语;
步骤5、 对标准 答案进行步骤2 ‑4后, 设定得分词;
步骤6、 提取文本特 征;
步骤7、 进行训练, 得到 评分模型; 进行测试, 得到 评分。
2.如权利要求1所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤1中, 主观
题是有参考答案的主观题, 而非开放性答案的主观题; 训练样本与测试样本的数量比为4:
1。
3.如权利要求2所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤2中, 分句
处理主要使用逗号、 分号、 句号等标点作为子句分句的分割符号, 来对考生的主观题答案进
行分割, 其中分号的优 先级最高, 句号次之, 逗号最次; 若句子长度大于40个字 符, 则以逗号
对句子进行分割。
4.如权利要求3所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤3 中, 分词
处理采用jieba分词器对句子进行分词, 采用的是精确模式。
5.如权利要求4所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤4中, 提取
关键词语采用TF ‑IDF算法。
6.如权利要求5所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤5中具体
包括: 对标准答案进 行分句处理、 分词处理以及关键词语后, 对主观题的一些得分要点进 行
设定, 作为得分词。
7.如权利要求6所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤6 中, 文本
特征包括: 文本词性相似度、 词语个数相似度、 关键词语相似度、 文本长度相似度、 得分词相
似度以及文本语句相似度, 其中文本词性相似度包括: 形容词相似度、 数量词相似度、 名词
相似度、 动词相似度、 连词相 似度、 副词相 似度、 量词相似度、 数词相似度、 代词相似度以及
介词相似度; 文本特征 的提取需要以词语语义相似度为基础, 词语语义相似度采用基于知
网的语义相似度计算, 计算公式如下:
公式(1)中, D表示词语A、 B在义原层次树中的距离, H表示层次数的高度, MA、 MB分别表示
一个义原, subDep(MA,MB)表示两个义原 节点在同一类型树的层数差值;
其中名词相似度计算表示如下:
k=min(m,n) (3)
公式(2)和(3)中, MAXi(S)表示第i个词语的词语语义相似度 最大值, m,n分别表示标准
答案文本A与考 生答案文本B的词数个数; 其 他词性的相似度同理;
词语个数相似度计算如下:权 利 要 求 书 1/2 页
2
CN 114462389 A
2公式(4)中, CountA表示标准答案文本A中的词数个数, CountB表示标准答案文本B中的
词数个数;
关键词语相似度计算如下:
n=max(a,b) (6)
公式(5)和(6)中, VA、 VB表示n维特征向量, C‑1表示C的协方差逆矩阵, a,b表示标准答案
文本A与考 生答案文本B的关键词个数;
文本长度相似度计算如下:
公式(7)中, LenA 表示标准 答案文本A的长度, LenB表示 考生答案文本B的长度;
得分词相似度计算表示如下:
公式(8)中, ScoreA表示标准答案文本A中的得分词数, ScoreB表示考生答案文本B中的
得分词数;
文本语句 相似度具体包括:
WordSim(A,B)= μ1Sim(A1)+ μ2Sim(A2)+…+ μmSim(Am) (9)
μ1+ μ2+…+ μm=1 (10)
公式(9)和(10)中, Ai,i∈[1,m]表示标准答案文本A的一个子句分句, Sim(A1)表示标准
答案文本A中的第一个子句分句与考生答案文本B中的任意一个子句分句的相似度的最大
值, 其他同理; μi,i∈[1,m]表示子句分句所占的权重; m表示标准答案文本A中子句分句的
个数。
8.如权利要求7所述的一种试卷主观题自动评分方法, 其特征在于, 所述步骤7中, 训练
选用MATLAB中的神经网络工具箱进行网络的训练, 网络采用BP神经网络, 其中BP神经网络
由输入层、 隐含层和 输出层组成, 输入层有15个神经元, 分别对应提取到的15个特征, 输出
层有1个神经元, 对应评分, 隐含层和输出层的激活函数均为tansig函数; 选取隐层神经元
个数的问题上参照了以下的经验公式:
公式(11)中, n为输入层数, m为输出层数, a为[1,10]内的常数。权 利 要 求 书 2/2 页
3
CN 114462389 A
3
专利 一种试卷主观题自动评分方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:33上传分享