(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210765842.0
(22)申请日 2022.07.01
(71)申请人 深圳魔耳智能声学 科技有限公司
地址 518000 广东省深圳市南 山区桃源街
道塘朗社区塘长路田寮大厦1401
(72)发明人 叶威志 杨亚星 叶威廷
(74)专利代理 机构 深圳众鼎汇成知识产权代理
有限公司 4 4566
专利代理师 朱业刚
(51)Int.Cl.
G10L 17/04(2013.01)
G10L 25/51(2013.01)
G10L 25/24(2013.01)
G10K 11/178(2006.01)
G06V 10/74(2022.01)
(54)发明名称
声源定位方法、 装置、 计算机设备及存储介
质
(57)摘要
本发明公开了一种声源定位方法, 获取音 频
采集信号, 并对音频采集信号进行预处理, 得到
待定位音频信号; 获取预设声纹识别模型, 通过
预设声纹识别模型对待定位音频信号进行声纹
匹配, 以确定待定位音 频信号是否包括目标音 频
信号; 当待定位音频信号包括目标音频信号时,
获取至少一个目标采集图像; 获取预设图像识别
模型, 通过预设图像识别模型对目标采集图像进
行图像匹配, 得到目标图像; 一个目标图像关联
一个声源音频信号; 将声源音频信号和目标音 频
信号进行信号匹配, 得到声源定位结果。 如此, 通
过对音频采集信号进行预处理, 实现了对待定位
音频信号的获取。 通过声纹匹配, 实现了对目标
音频信号的确定。 通过图像匹配, 实现了对目标
图像的获取。
权利要求书2页 说明书13页 附图3页
CN 115035900 A
2022.09.09
CN 115035900 A
1.一种声源定位方法, 其特 征在于, 包括:
获取音频采集信号, 并对所述音频采集信号进行 预处理, 得到待定位音频信号;
获取预设声纹识别模型, 并将所述待定位音频信号输入至所述预设声纹识别模型, 通
过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配, 以确定所述待定位音频信
号是否包括目标音频信号;
当所述待定位音频信号包括所述目标音频信号时, 获取至少一个目标采集图像, 所述
目标采集图像通过图像采集设备在目标采集区域拍摄得到; 所述目标采集区域根据所述目
标音频信号的信号采集区域 生成;
获取预设图像识别模型, 将所述目标采集图像输入至所述预设图像识别模型, 通过所
述预设图像识别模型对所述 目标采集图像进行图像匹配, 得到目标图像; 一个目标图像关
联一个声源音频信号;
将所述声源音频信号和所述目标音频信号进行信号匹配, 得到声源定位结果。
2.如权利要求1所述的声源定位方法, 其特 征在于, 所述获取音频采集信号, 包括:
通过麦克风阵列采集声 波信号, 并对所述声 波信号进行声电转换, 得到模拟音频信号;
对所述模拟音频信号进行模数转换, 得到所述音频采集信号。
3.如权利要求1所述的声源定位方法, 其特征在于, 所述对所述音频采集信号进行预处
理, 得到待定位音频信号, 包括:
通过波束形成算法对所述音频采集信号进行加权求和处 理, 得到有效音频信号;
通过自动增益控制电路对所述有效音频采集信号进行放大处 理, 得到放大音频信号;
基于主动降噪技 术对所述 放大音频信号进行降噪处 理, 得到所述待定位音频信号。
4.如权利要求1所述的声源定位方法, 其特征在于, 所述通过所述预设声纹识别模型对
所述待定位音频信号进行声纹匹配, 以确定所述待定位音频信号是否包括 目标音频信号,
包括:
对所述待定位音频信号进行语音端点检测, 以确定所述待定位音频信号中是否包括声
波音频信号;
在所述待定位音频信号中包括声波音频信号 时, 对所述声波音频信号进行声纹特征识
别, 得到与所述声波音频信号相对应的待定位声纹特征; 一个所述声波音频信号对应一个
待定位声纹特 征;
将所述待定位声纹特征和所述预设声纹识别模型中的目标声纹特征进行特征匹配, 得
到声纹匹配结果; 一个所述待定位声纹特 征对应一个声纹匹配结果;
在任意一个所述声纹匹配结果表征匹配成功时, 确定所述待定位音频信号中包括目标
音频信号。
5.如权利要求1所述的声源定位方法, 其特征在于, 所述获取至少一个目标采集图像,
包括:
获取所述目标音频信号对应的信号采集区域;
获取所述图像采集设备的当前采集 区域, 并根据 所述信号采集 区域对所述当前采集 区
域进行调整, 得到目标采集区域;
通过所述图像采集设备在所述目标采集区域进行图像采集, 得到所述目标采集图像。
6.如权利要求1所述的声源定位方法, 其特征在于, 一个所述目标采集图像中包括至少权 利 要 求 书 1/2 页
2
CN 115035900 A
2一个采集对象; 所述预设图像识别模型中包括至少一个目标 人物图像;
所述通过所述预设图像识别模型对所述目标采集图像进行图像匹配, 得到目标图像,
包括:
对所述目标采集图像进行图像识别, 得到至少一个截取采集图像; 所述截取采集图像
是指从所述目标采集图像中截取的仅包 含一个采集对象的采集图片;
将包含同一个采集对象的截取采集图像关联记录为 一个拍摄采集组;
针对每一个所述拍摄采集组, 确定所述目标人物图像与 所述拍摄采集组中的截取采集
图像之间的图片相似度;
将大于或等于预设图像相似度阈值的图片相似度对应的截取采集图像记录为所述目
标图像。
7.如权利要求1所述的声源定位方法, 其特征在于, 所述将所述声源音频信号和所述目
标音频信号进行信号匹配, 得到声源定位结果, 包括:
对所述声源音频信号和所述目标音频信号进行声纹特征识别, 得到声源音频信号对应
的声源音频声纹特 征和目标音频信号对应的目标音频声纹特 征;
将所述声源音频声纹特征和所述目标音频声纹特征进行相似度匹配, 得到声源定位结
果。
8.一种声源定位装置, 其特 征在于, 包括:
获取模块, 用于获取音频采集信号, 并对所述音频采集信号进行预处理, 得到待定位音
频信号;
声纹匹配模块, 用于获取预设声纹识别模型, 并将所述待定位音频信号输入至所述预
设声纹识别模型, 通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配, 以确
定所述待定位音频信号是否包括目标音频信号;
采集模块, 用于当所述待定位音频信号包括所述目标音频信号时, 获取至少一个目标
采集图像, 所述目标采集图像通过图像采集设备在目标采集区域拍摄得到; 所述 目标采集
区域根据所述目标音频信号的信号采集区域 生成;
图像匹配模块, 用于获取预设图像识别模型, 将所述目标采集图像输入至所述预设图
像识别模型, 通过所述预设图像识别模型对所述 目标采集图像进行图像匹配, 得到目标图
像; 一个目标图像关联一个声源音频信号;
结果模块, 用于将所述声源音频信号和所述目标音频信号进行信号匹配, 得到声源定
位结果。
9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器中并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7
任一项所述声源定位方法。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述声源定位方法。权 利 要 求 书 2/2 页
3
CN 115035900 A
3
专利 声源定位方法、装置、计算机设备及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:17上传分享