(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210149598.5
(22)申请日 2022.02.18
(71)申请人 北京肿瘤医院 (北京大 学肿瘤医院)
地址 100089 北京市海淀区阜成路52号北
京肿瘤医院消化内科
(72)发明人 张丽燕 沈琳
(74)专利代理 机构 无锡苏元专利代理事务所
(普通合伙) 32471
专利代理师 王清伟
(51)Int.Cl.
G10L 15/26(2006.01)
G10L 25/03(2013.01)
G10L 25/48(2013.01)
G10L 25/51(2013.01)
G06N 3/00(2006.01)G06F 40/30(2020.01)
(54)发明名称
一种用于还原亲人生前声音并智能互动 的
方法及系统
(57)摘要
本发明公开了一种还原亲人生前声音并智
能互动的方法及系统, 其中, 所述方法应用于一
智能互动系统, 所述系统与第一声音采集装置、
第一图像采集装置通信连接, 所述方法包括: 获
得第一用户需求信息; 获得第一场景化参数需求
集合; 获得第二用户的采集许可信息, 获得第一
声音采集集合和第一图像采集集合; 获得第一契
合度识别结果; 进行所述第一声音采集集合进行
场景标签标识; 获得第一场景化声音采集集合;
根据所述第一场景化声音采集集合进行声音模
拟和互动。 解决了缅怀方式固定传统且无法满足
缅怀需求的技术问题, 达到了基于用户需求, 综
合已逝亲人与用户之间契合度、 已逝亲人的声音
特征实现还原亲人生前声音并智能互动的技术
效果。
权利要求书3页 说明书13页 附图3页
CN 114530155 A
2022.05.24
CN 114530155 A
1.一种用于还原亲人生前声音并智能互动的方法, 其特征在于, 所述方法应用于一智
能互动系统, 所述系统与第一声 音采集装置、 第一图像采集装置通信连接, 所述方法包括:
获得第一用户需求信息;
根据所述第一用户需求信息进行场景化 参数确定, 获得第一场景化 参数需求 集合;
获得第二用户的采集许可信息, 根据所述采集许可信息, 基于所述第一声音采集装置
和所述第一图像采集装置进行声音和图像采集, 获得第一声音采集集合和 第一图像采集集
合, 其中, 所述第一声 音采集集合和所述第一图像采集 集合具有对应关系;
根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集
集合的场景 契合度识别, 获得第一契合度识别结果;
根据所述第一契合度识别结果进行 所述第一声 音采集集合进行场景 标签标识;
根据场景标签标识的所述第 一声音采集集合进行语音特征采集参数的特征权重分布,
获得第一场景化声 音采集集合;
根据所述第一场景化声 音采集集合进行声 音模拟和互动。
2.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征
分析, 获得第一场景性格特 征参数;
根据所述第 一声音采集集合进行所述第 二用户的场景特征词采集, 获得第 一场景特征
词集合;
根据所述第 一场景特征词集合和所述第 一声音采集集合获得第 一触发特征词集合, 其
中, 所述第一场景 特征词集合中的每一特 征词至少存在一个 触发特征词;
根据所述第 一场景性格特征参数、 所述第 一场景特征词集合和所述第 一触发特征词集
合进行互动声 音控制。
3.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
获得第一语速特 征、 第一音色特 征、 第一语气特 征, 构建语音特 征采集参数集合;
根据所述第一场景化参数需求集合进行所述语音特征采集参数集合的特征权重预分
配, 获得第一特 征预权重分配结果;
根据所述第一声音采集集合的场景标签标识对所述第一特征预权重分配结果进行调
整, 获得第一特 征权重分配结果;
根据所述第一特 征权重分配结果获得 所述第一场景化声 音采集集合。
4.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
通过所述第一声 音采集装置获得 所述第一用户的第一声 音信息;
通过所述第 一声音信 息获得第 一安全验证指令, 通过所述第 一图像采集装置进行图像
采集, 获得第一图像信息, 其中, 所述第一图像信息包括 位置信息;
根据所述第一声 音信息获得第一语义识别结果和第一场景匹配结果;
根据所述第 一语义识别结果、 所述第 一场景匹配结果和所述第 一场景化声音采集集合
获得第一反馈声 音;
根据所述第 一图像信 息和所述第 一反馈声音进行安全性校验, 当安全性校验通过后通
过所述第一反馈声 音对所述第一声 音信息进行应答。
5.如权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:权 利 要 求 书 1/3 页
2
CN 114530155 A
2获得第一反馈声音集合, 其中, 所述第一反馈声音集合包括多个互动声音的集合, 且所
述第一反馈声 音集合包括回复时间标识;
根据所述第 一反馈声音集合进行连贯语义分析, 基于连贯语义分析结果获得第 一危险
值;
对所述第一反馈声 音集合进行单条语义分析, 获得第二 危险值;
基于所述第一 危险值和所述第二 危险值进行智能对话的预警标识。
6.如权利要求5所述的方法, 其特 征在于, 所述方法还 包括:
获得所述第一用户的第一反馈信息, 其中, 所述第一反馈信息为对所述第一反馈声音
的反馈信息;
根据所述第一反馈信息获得 所述第一语义识别结果的第一语义识别失真系数;
根据所述第 一语义识别失真系数对所述第 一场景匹配结果进行调整, 获得第 二场景匹
配结果;
基于所述第二场景匹配结果获得 所述第一反馈声 音。
7.如权利要求1所述的方法, 其特征在于, 所述根据 所述第一场景化声音采集集合进行
声音模拟和互动, 包括:
将所述第一场景化声音采集集合作为输入数据, 输入语音生成模型, 获得第一语音生
成集合;
根据判别模型进行所述第 一语音生成集合的生成结果进行判别反馈, 获得第 一判别反
馈结果;
基于所述第 一判别反馈结果进行所述语音生成模型的生成参数调整, 基于生成参数调
整后的语音生成模型生成反馈互动语音。
8.一种用于还原亲 人生前声 音并智能互动的系统, 其特 征在于, 所述系统包括:
第一获得 单元, 所述第一获得 单元用于获得第一用户需求信息;
第二获得单元, 所述第 二获得单元用于根据 所述第一用户需求信 息进行场景化参数确
定, 获得第一场景化 参数需求 集合;
第三获得单元, 所述第三获得单元用于获得第二用户的采集许可信息, 根据所述采集
许可信息, 基于第一声音采集装置和第一图像采集装置进行声音和图像采集, 获得第一声
音采集集合和第一图像采集集合, 其中, 所述第一声音采集集合和所述第一图像采集集合
具有对应关系;
第四获得单元, 所述第四获得单元用于根据 所述第一场景化参数需求集合进行所述第
一图像采集 集合和所述第一声 音采集集合的场景 契合度识别, 获得第一契合度识别结果;
第一确定单元, 所述第 一确定单元用于根据 所述第一契合度识别结果进行所述第 一声
音采集集合进行场景 标签标识;
第五获得单元, 所述第五获得单元用于根据场景标签标识的所述第 一声音采集集合进
行语音特 征采集参数的特 征权重分布, 获得第一场景化声 音采集集合;
第一执行单元, 所述第 一执行单元用于根据 所述第一场景化声音采集集合进行声音模
拟和互动。
9.一种用于还原亲人生前声音并智能互动的系统, 包括存储器、 处理器及存储在存储
器上并可在处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述程序时实现权权 利 要 求 书 2/3 页
3
CN 114530155 A
3
专利 一种用于还原亲人生前声音并智能互动的方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:32上传分享