本實(shí)驗(yàn)用于驗(yàn)證低秩矩陣恢復(fù)算法,將一個(gè)低秩的A+稀疏的E得到觀測(cè)的D,希望從D中恢復(fù)出低秩的A。
魯棒主成分分析算法
1 PCA的原理和魯棒性
T設(shè)輸入x為n維的零均值的隨機(jī)向量。W={w1,w2,…,wm}為n×m維的變換矩陣(m<n),y=Wx
為變換后的隨機(jī)向量。則y稱為隨機(jī)向量x的m維主成分,如果
2(1)wi=argmax{E(vTix)}vi
并且n維向量vi滿足約束條件
α本文于1996年7月20日收到
本文得到國(guó)家自然科學(xué)基金資助
清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室開放課題基金資助
10系統(tǒng)工程理論與實(shí)踐
vTivj=0 Πj≠i
vTivi=11998年1月(2)
i=1,2,…,m。wi稱為隨機(jī)向量x的第i主方向。其中E表示求期望。
傳統(tǒng)上,變換矩陣W可以通過(guò)對(duì)輸人隨機(jī)向量x的協(xié)方差矩陣進(jìn)行特征值分解來(lái)獲得。設(shè)S=E{xxT}為x的協(xié)方差矩陣,由于S是正定對(duì)稱矩陣,所以存在n個(gè)不同的正特征值。不妨設(shè)為Κ1>Κ2>…>
。因此構(gòu)成W的m個(gè)主方向滿足Κn,眾所周知第i主方向wi就是Κi所對(duì)應(yīng)的單位特征向量
Swi=Κiwi i=1,2,…,m(3)
在實(shí)際分析過(guò)程中,往往通過(guò)統(tǒng)計(jì)的辦法來(lái)估計(jì)。給定一個(gè)數(shù)據(jù)集{xi},j=1,2,…,N,可得x的協(xié)方差矩陣S的估計(jì)為
δS=Nδ進(jìn)行特征值分解和排序可以得到Κδi和Wδ對(duì)Si和W的估計(jì)值Κδδδwδ i=1,2,…,mSw=Κiii6NxixTi(4)i=1(5)
當(dāng)前對(duì)PCA魯棒性的考慮主要有兩個(gè)角度:
一是考慮如何能夠達(dá)到輸出的各主成分之間相互獨(dú)立。這樣就可以把一個(gè)多輸入的問(wèn)題分解為多個(gè)相互獨(dú)立的單輸入的問(wèn)題來(lái)考慮。毫無(wú)疑問(wèn),無(wú)論輸入隨機(jī)向量x服從何種分布,統(tǒng)計(jì)PCA算法得到的m個(gè)主成分之間一定是互不相關(guān)的,變換為一個(gè)對(duì)角矩陣,其非對(duì)角元(,PCA算法獲得的各主成分相互獨(dú)立當(dāng)且僅當(dāng)輸入Sn,即其密度函數(shù)f)2-()T-1xSx2(6),因此得到的主成分只能。因此,如何在非高斯分布輸入的情形下實(shí)現(xiàn)各主成分相互獨(dú)立就成為PCA算法魯棒性研究的一個(gè)主要方向。
現(xiàn)有的主要方法是根據(jù)已知的輸入樣本分布,引入適當(dāng)?shù)姆蔷性處理環(huán)節(jié),提出所謂非線性PCA的算法。這樣,就考慮了輸入的高階統(tǒng)計(jì)特性,從而實(shí)現(xiàn)輸出主成分的相互獨(dú)立。在此基礎(chǔ)上,有人提出了獨(dú)立成分分析(ICA)的概念[3],并且得到了高度的重視。
二是考慮如何去除或減弱有限的訓(xùn)練樣本集中少量“劣點(diǎn)”樣本的影響從而獲得準(zhǔn)確主方向。所謂“劣點(diǎn)”樣本,直觀上是指與樣本集中絕大部分樣本分布差異過(guò)大的極少量樣本,它們的存在使得PCA的計(jì)算結(jié)果會(huì)出現(xiàn)很大的誤差[2]。“劣點(diǎn)”的產(chǎn)生原因是多方面的,例如突發(fā)的隨機(jī)噪聲,測(cè)量或者記錄的偶爾出錯(cuò)等等。另外,由于樣本數(shù)是有限的,即使所有樣本都是由同一分布產(chǎn)生的,也有可能因?yàn)闃颖緮?shù)不足從而使得其中少量樣本成為實(shí)際上的“劣點(diǎn)”樣本。因此,從克服“劣點(diǎn)”樣本的影響出發(fā)是PCA算法魯棒性研究的另一個(gè)主要方向。
顯然第一種研究方法有著重大的理論意義。它在信號(hào)分離理論這一研究領(lǐng)域已經(jīng)得到高度的重視。但是在系統(tǒng)科學(xué)和系統(tǒng)工程領(lǐng)域,由于實(shí)際應(yīng)用中往往輸人樣本的分布是未知的;同時(shí)由于樣本集有限,基于非高斯分布輸入的獨(dú)立成分分析方法不能很好地消除“劣點(diǎn)”樣本對(duì)算法魯棒性的影響,難以獲得準(zhǔn)確的主方向。故而從消除或減弱“劣點(diǎn)”的影響出發(fā)研究PCA的魯棒性有著更為重要的實(shí)際意義。
另外,在系統(tǒng)科學(xué)和系統(tǒng)工程的很多應(yīng)用領(lǐng)域中,找出樣本集中的少量“劣點(diǎn)”樣本本身也是很有意義的工作。例如對(duì)一段時(shí)間的股票數(shù)據(jù)進(jìn)行的分析可以找到其最具特殊性的時(shí)間段,從而能夠進(jìn)行深入研究以發(fā)現(xiàn)其產(chǎn)生的規(guī)律和原因。因此,從去除“劣點(diǎn)”影響的角度建立魯棒PCA算法拓寬了PCA的應(yīng)用范圍。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版