专利 一种试卷主观题自动评分方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210147864.0 (22)申请日 2022.02.17 (71)申请人刘莲英地址 610043 四川省成都市武侯区武侯大道铁佛段1号1 1栋6楼605室 (72)发明人刘莲英　 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) G06F 40/216(2020.01) G06F 16/33(2019.01) G06N 3/08(2006.01) G06Q 50/20(2012.01) (54)发明名称一种试卷主观题自动评分方法 (57)摘要本发明涉及考试阅卷自动化领域，尤其涉及一种试卷主观题自动评分方法。用以解决计算机自动评阅的准确率很难达到人工评阅的水平的问题。方法包括：步骤1、获取考生主观题答案，并划分训练样本和测试样本；步骤2、进行分句处理；步骤3、进行分词处理；步骤4、提取关键词语；步骤5、对标准答案进行步骤2 ‑4后，设定得分词；步骤6、提取文本特征；步骤7、进行训练，得到评分模型；进行测试，得到评分。通过提取多个文本特征，更加详细地描述文本，对文本相似度的计算更具说服力，为后续的评分提供有力支持；以词语语义相似度为基础，赋予不同子句分句权重，统计得到文本语句相似度，提高了计算机自动评阅的准确率，提高阅卷效率，减少人工成本。权利要求书2页说明书10页附图3页 CN 114462389 A 2022.05.10 CN 114462389 A 1.一种试卷主观题自动评分方法，其特征在于，包括以下步骤: 步骤1、获取考生主观题答案，并划分训练样本和测试样本；步骤2、进行分句处理；步骤3、进行分词处理；步骤4、提取关键词语；步骤5、对标准答案进行步骤2 ‑4后，设定得分词；步骤6、提取文本特征；步骤7、进行训练，得到评分模型；进行测试，得到评分。 2.如权利要求1所述的一种试卷主观题自动评分方法，其特征在于，所述步骤1中，主观题是有参考答案的主观题，而非开放性答案的主观题；训练样本与测试样本的数量比为4: 1。 3.如权利要求2所述的一种试卷主观题自动评分方法，其特征在于，所述步骤2中，分句处理主要使用逗号、分号、句号等标点作为子句分句的分割符号，来对考生的主观题答案进行分割，其中分号的优先级最高，句号次之，逗号最次；若句子长度大于40个字符，则以逗号对句子进行分割。 4.如权利要求3所述的一种试卷主观题自动评分方法，其特征在于，所述步骤3 中，分词处理采用jieba分词器对句子进行分词，采用的是精确模式。 5.如权利要求4所述的一种试卷主观题自动评分方法，其特征在于，所述步骤4中，提取关键词语采用TF ‑IDF算法。 6.如权利要求5所述的一种试卷主观题自动评分方法，其特征在于，所述步骤5中具体包括：对标准答案进行分句处理、分词处理以及关键词语后，对主观题的一些得分要点进行设定，作为得分词。 7.如权利要求6所述的一种试卷主观题自动评分方法，其特征在于，所述步骤6 中，文本特征包括：文本词性相似度、词语个数相似度、关键词语相似度、文本长度相似度、得分词相似度以及文本语句相似度，其中文本词性相似度包括：形容词相似度、数量词相似度、名词相似度、动词相似度、连词相似度、副词相似度、量词相似度、数词相似度、代词相似度以及介词相似度；文本特征的提取需要以词语语义相似度为基础，词语语义相似度采用基于知网的语义相似度计算，计算公式如下：公式(1)中， D表示词语A、 B在义原层次树中的距离， H表示层次数的高度， MA、 MB分别表示一个义原， subDep(MA,MB)表示两个义原节点在同一类型树的层数差值；其中名词相似度计算表示如下： k＝min(m,n) (3) 公式(2)和(3)中， MAXi(S)表示第i个词语的词语语义相似度最大值， m,n分别表示标准答案文本A与考生答案文本B的词数个数；其他词性的相似度同理；词语个数相似度计算如下：权　利　要　求　书 1/2 页 2 CN 114462389 A 2公式(4)中， CountA表示标准答案文本A中的词数个数， CountB表示标准答案文本B中的词数个数；关键词语相似度计算如下： n＝max(a,b) (6) 公式(5)和(6)中， VA、 VB表示n维特征向量， C‑1表示C的协方差逆矩阵， a,b表示标准答案文本A与考生答案文本B的关键词个数；文本长度相似度计算如下：公式(7)中， LenA 表示标准答案文本A的长度， LenB表示考生答案文本B的长度；得分词相似度计算表示如下：公式(8)中， ScoreA表示标准答案文本A中的得分词数， ScoreB表示考生答案文本B中的得分词数；文本语句相似度具体包括： WordSim(A,B)＝ μ1Sim(A1)+ μ2Sim(A2)+…+ μmSim(Am) (9) μ1+ μ2+…+ μm＝1 (10) 公式(9)和(10)中， Ai,i∈[1,m]表示标准答案文本A的一个子句分句， Sim(A1)表示标准答案文本A中的第一个子句分句与考生答案文本B中的任意一个子句分句的相似度的最大值，其他同理； μi,i∈[1,m]表示子句分句所占的权重； m表示标准答案文本A中子句分句的个数。 8.如权利要求7所述的一种试卷主观题自动评分方法，其特征在于，所述步骤7中，训练选用MATLAB中的神经网络工具箱进行网络的训练，网络采用BP神经网络，其中BP神经网络由输入层、隐含层和输出层组成，输入层有15个神经元，分别对应提取到的15个特征，输出层有1个神经元，对应评分，隐含层和输出层的激活函数均为tansig函数；选取隐层神经元个数的问题上参照了以下的经验公式：公式(11)中， n为输入层数， m为输出层数， a为[1,10]内的常数。权　利　要　求　书 2/2 页 3 CN 114462389 A 3

专利 一种试卷主观题自动评分方法

专利一种试卷主观题自动评分方法