基于聚类的双人混合语音分离方法研究与实现开题报告

2020-02-18 18:25:39

1. 研究目的与意义（文献综述）

语音是人们进行交互的基础，是获取信息的有效途径。随着科学技术的不断进步，语音信号处理也得到了迅猛发展，并服务于其它相关的科研领域。语音信号处理涉及到语音编码、语音分离、语音识别、语音增强、语音合成等多个方面的技术，这些技术之间又彼此相互联系，语音分离更是作为语音识别和语音合成的重要基础而占据着语音信号处理的重要地位。近些年来，伴随着机器学习的热潮，越来越多的科研学者加入到语音信号处理的行列中来。因此，语音分离技术得到了广泛研究，成为语音信号处理中的热点问题与技术基石。

语音分离技术是指通过运用一定的方法从接收到的混合语音信号中分离出个体语音信号的信号处理技术。语音分离问题起源于“鸡尾酒会效应（cocktail partyeffect）”，即人的一种听力选择能力，是指在某种情况下，人类能够将注意力集中于某一个人的谈话中而忽略背景中其他的对话或噪音。这个现象被提出后迅速引起了科研人员的广泛重视，相关的语音分离技术也得到了迅猛的研究与发展。早在20世纪90年代，作为盲源信号分离技术的一个重要分支，语音分离充满着诸多的困难与挑战。在此之后，研究人员发现人类的听觉心理和生理模型可以很好地应用于语音分离问题，但如何让计算机实现这个模型却一直困扰着众多学者与研究人员。20世纪80年代至今，随着机器学习和深度学习的不断发展，语音分离发展成为信号处理的热点问题，全球学者和科研人员在语音分离方面进行了积极的研究和探索，不断改进已有的语音分离技术，不断涌现新的语音分离技术。在当今的语音分离研究领域，主要有以下三类语音分离方法：基于独立成分分析（independentcomponent analysis, ica）的语音分离方法、基于计算听觉场景分析（computational auditoryscene analysis, casa）的语音分离方法和基于空间滤波（spatial filtering, sf）的语音分离方法。

聚类分析（cluster analysis）是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性。一般把数据聚类归纳为一种非监督式学习。聚类作为数据挖掘领域的一个重要模块，它被广泛应用于各种各样的领域中，如市场分析、生命科学、数据挖掘、模式识别等。其中，聚类在模式识别中又主要应用于语音识别、字符识别等细化方向，它在识别数据的内在结构方面具有极其重要的作用。聚类分析作为一种非监督式学习，已经衍生出越来越多的聚类算法，其中比较实用的聚类算法有如下5种：k-means聚类算法、mean-shift聚类算法、dbscan聚类算法、期望最大化em聚类算法、层次聚类算法。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

本文以成熟的单声道分离技术为基础，使用一种基于聚类的方法对双人混合语音数据进行分离处理，并与其他的语音分离方法的效果进行比较和分析，研究并实现基于聚类的双人混合语音分离方法。论文将采集多个混合语音信号，使用多种方法对语音进行分离处理，比较不同方法语音分离的效果。

双人混合语音分离是指在单声道情况下，对包括2个说话人语音中的目标语音进行分离。基于CASA的语音分离方法在处理以上情况时，依据听觉场景分析模型大体上进行了将混合信号分解成时频单元（Time-Frequency(T-F) Masking）和时频单元重组两大部分，而时频单元重组这个过程在传统处理中主要通过基于大量训练的语音模型来实现，如高斯混合模型（GMM）、隐马尔可夫模型（HMM）、GMMs和HMMs，属于分类问题。目前基于训练模型的分离方法，当被分离的语音信号与训练样本类似时，可以获得较好的分离效果，但实际中混合语音信号往往异于训练样本，无法获得好的分离效果。本文拟采用聚类的方法实现时频单元重组，重组阶段不需要利用训练集获取训练模型，而是直接采用特征提取的聚类算法，将具有相同特征的时频单元聚合在一起完成重组。论文拟按照如下框图完成研究与分析：

3. 研究计划与安排

第1－3周：查阅相关文献资料，明确研究内容，了解研究所需理论基础。确定方案，完成开题报告。

第4－5周：熟悉掌握基本理论，完成英文资料的翻译，熟悉开发环境。

第6－9周：编程实现各算法，并进行仿真调试。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]庞宇. 语音分离技术的研究与实现[d].国防科学技术大学,2016.

[2]赵蓉蓉,李鸿燕,曹猛.基于casa和谱减法的清音分离改进算法[j].电子技术应用,2016,42(01):68-71.

[3]李从清,孙立新,龙东,任晓光.语音分离技术的研究现状与展望[j].声学技术,2008(05):779-787.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码