EM算法的ε加速在有限混合分布模型中的应用文献综述

2020-05-02 05:05

1．目的及意义

EM算法是处理非完整数据未知参数的一种迭代方法，由Dempster, Laird和Rubin[1]于1977年提出，可以用来估计非完整数据条件下（包括隐数据和缺失数据等）的模型参数值，广泛应用于截尾数据、删失数据、成群数据等。每一次迭代的具体步骤分成两步：E步（期望步）和M步（极大步）。E步就是用不完整数据的条件期望来填充不完整数据，M步是根据E步得到的数据来计算未知参数的极大似然估计。

基于Dempster等人提出了解决不完整数据参数估计的EM算法之后，国外有很多研究成果，例如：Gelffrey J. McLachlan[2]很好的总结了EM算法及其推广算法；Wu[3]给出了EM算法的一些详细的收敛性质；Hartley[4]给出了一般情况下计数数据的处理方式，解释了EM算法的基本思想。在Markov模型中，Baum[5]等人给出了EM算法的应用。

在传统EM算法基础上，出现了不少改进的EM算法。例如Meng 和Rubin[6]在1993年提出条件期望最大化方法（ECM）来优化M步；Liu和Rubin[7]在1994年提出了ECM方法的扩展ECME方法；McLachlan和 Krishnan[8]在1997年对EM算法提出了全面的描述.

EM算法有许多优点，但当未知数据较多时，算法收敛速度会比较慢。为了加速EM算法的收敛速度，人们同样提出了许多种加速算法。Louis[9]在1982年提出了采用Aitken’s加速法的多元版本的EM算法，Jamshidian和Jennrich[10]在1993年提出了一种基于共轭梯度的加速算法，并在1995年[11]使用拟牛顿算法加速了EM算法。因为使用牛顿法加速需要在每一次迭代中计算一次矩阵的逆，当参数变多时，它的计算可能会变得非常复杂，计算结果也会不稳定。因此，这些加速方法没有继承EM算法稳定性，灵活性和简单性这些优点。其中，Kuroda等人[12]提出的用ε向量方法加速EM算法表现比较突出，它能在加速EM序列收敛速度的同时，不影响其稳定性、灵活性和简单性。

混合模型的产生追述到十九世纪晚期，Karl Pearson[13]用混合模型去研究螃蟹的形态。KarlPearson用正态混合缝补去刻画某一给定区域内不同种类螃蟹的混合问题。之后也运用到天文学、生物学、遗传学、医学、精神病学、经济学、工程、销售等领域；其中，在股票和金融方面尤为明显。在这些领域中，需要能预测数据未来的走势，但由于数据复杂性，单一的模型很难解决这些问题，而混合分布可以做到。随着有限混合模型的广泛应用，国内外有许多研究成果。Gelffry J.McLachlan[14]介绍了有限混合模型，Chen[15]具体讨论了混合正态分布的假设检验问题。混合模型参数估计问题是一个重要问题，Bilmes[16]用基于极大似然估计的EM算法实现了正态混合模型的参数估计；后来Figueiredo[17]等人用改进的EM算法对正态混合分布模型参数进行了估计。

本文运用ε-加速EM算法，对有限混合分布模型参数估计的EM算法进行加速，这一工作将对混合模型参数迭代算法提供改进思路，并进行有效扩充，有望在实践中得到有效运用。

{title}

2. 研究的基本内容与方案

{title}

2.1 研究的基本内容

本文研究EM算法的加速及其在有限混合分布模型中的应用。具体工作将有以下几个方面：

1.在EM算法求解未知参数估计的迭代过程中，由于对迭代序列本身并非收敛的，首先寻找方法对原始数据进行处理，使之收敛或近似收敛；

2.运用数值分析中的ε-向量加速算法对经过处理后的近似收敛迭代序列进行变换，进一步加快其收敛速度；

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码