standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210111445.1 (22)申请日 2022.01.29 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 王成 朱航宇  (74)专利代理 机构 上海科律专利代理事务所 (特殊普通 合伙) 31290 代理人 叶凤 (51)Int.Cl. G06Q 40/02(2012.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) (54)发明名称 一种基于多阶段数据表征的网络借贷欺诈 预测方法 (57)摘要 本发明属于网络借贷欺诈预测技术领域, 公 开了一种基于多阶段数据表征的网络借贷欺诈 预测方法, 包括以下步骤: 步骤S101: 根据原始网 络借贷申请数据选定可用字段构建原始信息网 络, 然后将节点划分为实体和属性, 构建由实体 层和属性层组成的分层信息网络; 步骤S102: 从 属性层中提取一个属性网络, 给每个属性附加一 个预训练的词向量来反映属性之间的语义相似 性, 利用网络表征学习将从先验和外部语义知识 中获取的属性相似信息和属性共现关联融入属 性对应的嵌入向量中; 步骤S103, 实体表征; 步骤 S104, 欺诈预测。 本发明增强了网络借贷申请事 务中信息关联的密度, 提高了网络借贷欺诈预测 模型的检测能力, 对保护用户和企业的资金安全 有更好的保障。 权利要求书3页 说明书10页 附图4页 CN 114387092 A 2022.04.22 CN 114387092 A 1.一种基于多阶段 数据表征的网络借贷欺诈预测方法, 其特 征在于, 分为四个步骤: 步骤S101, 关联表征: 根据原始网络借贷申请数据中字段缺失率选定可用字段, 基于所述字段构建原始信 息 网络, 然后将所述原始信息网络中的节点划分为实体和属 性, 构建由实体层和属 性层组成 的分层信息网络; 提供 给S102和S10 3; 其中, 缺失率是指在原始网络借贷数据集中一个字段缺失的次数与总借贷事务数量的 比值; 步骤S102, 属性表征: 从所述分层信 息网络中的属性层中提取一个属性网络, 给每个属性附加一个预训练 的 词向量来反映属性之间的语义相似性, 利用网络表征学习将从先验和外部语义知识中获取 的属性相似信息和 属性共现关联融入属性对应的嵌入向量中; 提供 给S103; 步骤S103, 实体表征: 从所述分层信 息网络中实体层抽取实体网络, 利用层对应关联和步骤S102中得到的嵌 入向量, 生成带属 性的实体网络, 采用网络表征学习将带属 性的实体网络嵌入到低 维向量 空间得到实体的嵌入向量; 提供 给S104; 步骤S104, 欺诈预测: 在带属性的实体网络 中引入实体与其一阶邻居(实体)的相似性作为微观特征, 采用借 贷申请交易与属于实体网络中的二阶邻居之间的相似性作为宏观特征, 将不同实体的嵌入 向量的相似性喂入常见分类 器模型实现欺诈预测功能。 2.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 所述步骤S101, 其过程如下: 获取原始网络借贷申请数据, 基于测试需求设置训练集时间窗口和测试集时间窗口, 以用于在原始网络借贷申请数据中划分出训练集数据和测试集数据, 使得训练集数据和测 试集数据构成可用于后续模型的网络借贷数据; 对原始网络借贷数据进行字段选择; 对所述选定的初始网络借贷数据的字段进行关联抽取, 采用图结构描述网络借贷数据 之间的关联, 对所述的原始网络借贷数据中一笔申请的所选择 的字段, 使用星形拓扑结构 构建原始信息网络: 将其标识符和所有字段 的取值表示为节点, 将标识符和相 应字段取值 分别记为组成边的两个节点, 不同的借贷申请标识符通过其共享的字段 连接; 将所述原 始信息网络中的节点划分为实体和 属性; 实体集合V分为Vt和Vd两个部分, 对于每一笔借贷申请, 将其标识符记为vt∈Vt, 将所述 申请中的其他实体记为vd∈Vd; 实体vd和标识符vt的共现关联被记为e=(vt, vd, r)∈E, 其中 类型r∈R(R为对原始数据中所有实体的描述的集合)为原始数据中对于实体vd的描述, 集 合 所有属性θv的集合Θ记为分层信息网络中的属性层; 从借贷申请中提取出实体和属性的对应关联, 在所述原始信息网络中, 属性θv和实体vd 都连接到实体vt, 将属性θv和实体vd之间的公共连接记为层对 应关联(vd, θv), 即实体和属性 的对应关联;权 利 要 求 书 1/3 页 2 CN 114387092 A 2在所述属性层中, 将每个实体v∈V的对应的属性记为 其中i表示属性的类型, 通过对 所述原始信息网络的处理, 可以得到实体层、 属性层和层 对应关联, 进而由实体层和属性层 两层以及 层对应关联构建一个分层信息网络 。 3.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 对原始网络借贷数据进行字段选择时, 选取缺失率低于 50%的字段作为可用字段。 4.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 根据唯一 性和不可分割性原则将所述原 始信息网络中的节点划分为实体和 属性; 所述唯一 性是指所选 字段可以在描述 一个对象的多个字段中唯一 地表示同一对象; 所述不可分割性指实体不包含潜在的信息, 即一个唯一的值可以选为一个实体, 那么 所述实体与其 他实体没有重 叠的含义; 符合唯一性和不可分割性的字段划分为实体, 所述实体的集合V记为分层信息网络中 的实体层; 实体被选定后剩下的字段划 分为属性, 所有属性θv的集合Θ记为分层信息网络 中的属性层。 5.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 所述步骤S102, 属性表征, 其过程如下: 从所述分层信息 网络中的属性层中提取一个属性网络G ′Θ=(Θ, EΘ, RΘ)来反映属性之 间的共现关联, 将两个属 性对应于实体层中的同一实体的共现记为所述属 性网络中的边, 将共现的次数作为属性之间关联的权重ω, 边被记为 其中r′∈RΘ 取决于两个属性 和 的类型, 给每个属性附加一个预训练的词向量来反映属性之间的语义相似性, 进一步地, 使用 预 训练的 词向 量 作为 属性的 向 量 化 , 并 将预 训练的 词向 量 记为 而 后 , 将 记为带语义的属性网络, 其中 为词向量 集合; 利用网络表征学习来学习带语义的属性网络GΘ中节点的嵌入向量, 基于所述的嵌入向 量, 每个属性θv可以记为向量 6.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 所述步骤S103, 实体表征, 其过程如下: 从所述分层信息网络中实体层抽取 实体网络GV=(V, E, R), 基于步骤S102中所述的属性 嵌入向量, 将每个属性θv转换为对应的向量 然后结合实体网络和属性与实体层之间的层 对应关联来连接每个实体的属性向量 进而, 将带属性的实体网络记为 其中 是属性θv对应的向量; 在带属性的实体网络GV上应用网络表征学习算法, 得到每个实体v对应的实体表 示 其 中 保留了数据中所有的关联。 7.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法, 其特征在于, 所述步骤S104, 欺诈预测, 其过程如下: 首先设计两种自动的嵌入特征来反映借贷申请之间的关联, 所述自动的嵌入特征为: 从微观角度观察申请标识符与各个连接的实体之间的相似性, 从宏观角度 观察申请标识符 与其他间接连接的标识符 之间的相似性;权 利 要 求 书 2/3 页 3 CN 114387092 A 3

PDF文档 专利 一种基于多阶段数据表征的网络借贷欺诈预测方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多阶段数据表征的网络借贷欺诈预测方法 第 1 页 专利 一种基于多阶段数据表征的网络借贷欺诈预测方法 第 2 页 专利 一种基于多阶段数据表征的网络借贷欺诈预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。