(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211028809.6
(22)申请日 2022.08.25
(71)申请人 山东科技大 学
地址 266590 山东省青岛市黄岛区前湾港
路579号
(72)发明人 王蕊 田刚 焦淑治
(74)专利代理 机构 安徽靖天专利代理事务所
(普通合伙) 34275
专利代理师 杨宝洞
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06Q 40/00(2012.01)
G06Q 50/00(2012.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种群聊金融信息的需求预测方法
(57)摘要
为了获取群聊金融信息中具有较高商业价
值的需求群聊金融信息, 本发明公开了一种算法
模型用来进行群聊金融信息的需求预测。 利用
BiLSTM(双向长短期记忆神经网络)和CRF(条件
随机场)来提取群聊金融信息的特征词语将群聊
金融信息进行初步处理, 获取到特征词语后进行
去重复操作得到训练GBDT(梯度提升决策树)算
法模型的特征, 根据群聊金融信息的特征词语的
词频以及GBDT 算法模型的特征, 生成词频数字向
量, 得到的词频数字向量就是训练GBDT 算法模型
的训练数据, 结合 分类结果的标注训练GBD T算法
模型, 并利用训练完成的GBD T算法模型进行群聊
金融信息的需求预测。 通过进行实验 可以得到该
方法的需求预测的准确率达 到了87.3%。
权利要求书1页 说明书7页 附图3页
CN 115422344 A
2022.12.02
CN 115422344 A
1.一种群聊金融信息的需求预测方法, 其特 征在于, 包 含以下步骤:
步骤一, 将群聊金融信息进行分类结果标注, 选取部分群聊金融信息利用 “BIO”
(BeginInsideOutside)标注体系将其进行特征词语标注, 用于训练双向长短期记忆神经网
络和条件随机场模型, 记为训练数据集;
步骤二, 利用步骤一所述的训练数据集训练双向长短期记忆神经网络和条件随机场模
型; 利用训练完成的双向长短期记忆神经网络和条件随机场模型, 将群聊金融信息的特征
词语进行筛 选, 得到第一特 征词语;
步骤三, 将步骤二所述第一特征词语去重复, 将群聊金融信息转化为其对应的词频数
字向量;
步骤四, 利用步骤三所述的词频数字向量训练梯度提升决策树模型, 并利用训练完成
的梯度提升决策树模型进行群聊金融信息的分类预测。
2.根据权利要求1所述群聊金融信息的需求预测方法, 其特征在于: 在步骤一中, 将群
聊金融信息进 行分类结果标注, 将需求类型的群聊金融信息标为 1, 将供给类型的群聊金融
信息标为0; 选取部 分群聊金融信息用于训练双向长 短期记忆神经网络和条件随机场模型;
将群聊金融信息的业务类型词语(例如: 贷款、 融资)、 机构类型词语(例如: 银行、 公司)、 联
系类型词语(例如: 联系、 电话)、 与业务相关表 示情感的动词(例如: 需要、 提供)作为特征词
语, 在进行群聊金融信息的特征词语标注时选用 “BIO”(BeginInside Outside)标注体系进
行标注, 将用于训练双向长 短期记忆神经网络和条件随机场模型的群聊金融信息进行特征
词语标注, 标注后作为训练双向长 短期记忆神经网络和条件随机场模型的训练数据记为训
练数据集。
3.根据权利要求1所述群聊金融信息的需求预测方法, 其特征在于: 在步骤二中, 通过
步骤一所述得到的训练双向长 短期记忆神经网络和条件随机场模型的训练数据集, 将训练
数据集划分为第一训练集和第一测试集, 第一训练集用于训练双向长 短期记忆神经网络和
条件随机场模型, 第一测试集用于测试训练得到的双向长 短期记忆神经网络和条件随机场
模型; 然后利用第一训练集和 第一测试集进 行双向长短期记忆神经网络和条件随机场模型
的训练及测试; 利用训练完成的双向长 短期记忆神经网络和条件随机场模 型将群聊金融信
息进行特征词语的预测处 理, 得到第一特 征词语。
4.根据权利要求1所述群聊金融信息的需求预测方法, 其特征在于: 在步骤三中, 将步
骤二所述得到的第一特征词语去掉重复的词语后, 作为训练梯度提升决策树算法模型的特
征词袋, 然后根据每一条群聊金融信息对应的特征词语在特征词袋中的词 频, 将群聊金融
信息进行编码, 经 过编码之后每一条群聊金融信息转 化为对应的词频 数字向量。
5.根据权利要求1所述群聊金融信息的需求预测方法, 其特征在于: 在步骤四中, 在进
行梯度提升决策树模型训练之前需要 先把步骤三所述得到的词频数字向量进 行分类, 分为
两类: 第二训练集和 第二测试集, 第二训练集用于训练梯度提升决策树算法模型, 第二测试
集测试训练得到的梯度提升决策树算法模型; 利用第二训练集及对应的步骤一所述分类结
果的标注对梯度提升决策树算法模型进行训练, 得到训练完成的梯度提升决策树算法模
型, 利用训练完成的梯度提升决策树算法模型对第二测试集进行分类预测; 根据预测结果
与对应的步骤一所述分类结果的标注进行比较分析得到梯度提升决策树算法模型的准确
率。权 利 要 求 书 1/1 页
2
CN 115422344 A
2一种群聊金融信息的需求预测方 法
技术领域
[0001]本发明属于群聊金融信息预测领域, 尤其涉及一种基于双向长短期记忆神经网络
和条件随机场以及 梯度提升决策树 算法的群聊金融信息的需求预测方法。
背景技术
[0002]金融业是一个传统行业, 同时在我国也是一个发展中的行业, 与我们的生活息息
相关。 对于金融行业的发展近几年是突飞猛进, 金融业的发展 带动了巨大的商机, 不难发现
在当下的一些聊天软件之类的社交软件当中, 例如微信群聊中, 会有很多资金方或者需求
方发出的一些金融信息, 这些信息的一个特点就是文本较短, 需求方以较少的字将自己的
需求描述清楚; 另一个特点就是这些群聊金融信息 当中绝大部 分都是资金方的供给信息然
而需求方发出 的信息很少, 这部分很少数目的需求信息是一个很大 的商机, 挖掘出这部分
需求信息能够给供给方提供客户, 有重要的商业价值。 当下推荐系统和预测系统应用在很
多领域, 如淘宝, 今日头条等软件, 利用推荐系统以及预测系统 能够把用户可能购买的产品
进行预测, 从而推送给用户; 能够给用户推送可能喜欢的文章、 视频。 这些推荐系统以及预
测系统能够给商家带来很大的商业价值, 如今的互联网日益成熟这些推荐系统以及预测系
统将会有很大的发展 前景。 然而当下对于金融行业研究 的各种预测算法或者方法却很少涉
及到需求群聊金融信息的预测, 大多数都是研究金融产品的价格趋势预测, 金融市场趋势
预测方法, 金融时间序列预测。 如果将预测算法能够应用在群聊金融信息的需求预测上, 进
一步挖掘出稀少的需求群聊金融信息, 利用这一部 分需求群聊金融信息创造较高的商业价
值。
[0003]群聊金融信息数据预处理现在已有的方法是首先数据清洗, 然后进行中文文本向
量化。 数据 清洗先去掉文本数据中的符号, 包括标点符号等得到纯中文文本, 一般借助于正
则表达式python编程语 言的re模块中的compile函数, 然后利用分词技术, 把纯中文的群聊
金融信息进行分词, 这个分词大多数依赖python编程语言 的一个分词工具 “jieba”进行分
词, 分词之后再借助于停用 词表把分词之后的数据进行停用 词去除。 数据清洗之后得到的
是群聊金融信息的词语, 然而这些词语无法直接让算法模型所识别, 还需要进行中文文本
的向量化。 中文文本 向量化是将我们已有的文本数据转化为数字 向量, 这个数字 向量就是
算法模型可以进行训练的数据, 一条群聊金融信息对应着一个n 维的数字向量, 这个向量的
维数取决于群聊金融信息的特征个数, 其特征为群聊金融信息数据 清洗后得到的词语, n 维
向量对应着n个特征, 即代表某一条群聊金融信息在n个特征下的分别取值。 现在已有的中
文文本向量化的工具其中之一是onehot编码, onehot编码就是将我们分词后的所有的文本
数据的词语去掉重复之后作为特征, 对一条文本数据onehot编码时将本条文本已有的特征
标为1, 其余的特征标为0。 然而直接使用onehot编码处理群聊金融信息形成数字向量, 在群
聊金融信息的需求预测当中会面临生成数字 向量效率低、 得到的数字 向量质量差的问题,
严重降低算法模型预测的准确率。 当数据量很大的时候, 比如2万条群聊金融信息, 那么
onehot编码将会产生很多特征, 这就会导致向量的维数变得很大甚至是几千维的向量, 然说 明 书 1/7 页
3
CN 115422344 A
3
专利 一种群聊金融信息的需求预测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:12:55上传分享