主成分分析是指通過將一組可能存在相關(guān)性的變量轉(zhuǎn)換城一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
主成分分析步驟:1、對(duì)原始數(shù)據(jù)標(biāo)準(zhǔn)化,2、計(jì)算相關(guān)系數(shù),3、計(jì)算特征,4、確定主成分,5、合成主成分。
主成分分析的原理是設(shè)法將原來變量重新組合成一組新的相互無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。
擴(kuò)展資料
主成分分析的主要作用
1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。
2.有時(shí)可通過因子負(fù)荷aij的結(jié)論,弄清X變量間的某些關(guān)系。
3.多維數(shù)據(jù)的一種圖形表示方法。
4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量。
最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。
參考資料來源:搜狗百科-主成分分析
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。
在統(tǒng)計(jì)學(xué)中,主成分分析(principal components analysis,PCA)是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征.這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面.但是,這也不是一定的,要視具體應(yīng)用而定.
原發(fā)布者:暮天一色
(一)主成分分析法的基本思想主成分分析()是利用降維的思想,將多個(gè)變量轉(zhuǎn)化為少數(shù)幾個(gè)綜合變量(即主成分),其中每個(gè)主成分都是原始變量的線性組合,各主成分之間互不相關(guān),從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊。[2]采用這種方法可以克服單一的財(cái)務(wù)指標(biāo)不能真實(shí)反映公司的財(cái)務(wù)情況的缺點(diǎn),引進(jìn)多方面的財(cái)務(wù)指標(biāo),但又將復(fù)雜因素歸結(jié)為幾個(gè)主成分,使得復(fù)雜問題得以簡化,同時(shí)得到更為科學(xué)、準(zhǔn)確的財(cái)務(wù)信息。(二)主成分分析法代數(shù)模型假設(shè)用p個(gè)變量來描述研究對(duì)象,分別用X1,X2…Xp來表示,這p個(gè)變量構(gòu)成的p維隨機(jī)向量為X=(X1,X2…Xp)t。設(shè)隨機(jī)向量X的均值為μ,協(xié)方差矩陣為Σ。假設(shè)X是以n個(gè)標(biāo)量隨機(jī)變量組成的列向量,并且μk是其第k個(gè)元素的期望值,即,μk=E(xk),協(xié)方差矩陣然后被定義為:Σ=E{(X-E[X])(X-E[X])}=(如圖對(duì)X進(jìn)行線性變化,考慮原始變量的線性組合:Z1=μ11X1+μ12X2+…μ1pXpZ2=μ21X1+μ22X2+…μ2pXp………………Zp=μp1X1+μp2X2+…μppXp主成分是不相關(guān)的線性組合Z1,Z2……Zp,并且Z1是X1,X2…Xp的線性組合中方差最大者,Z2是與Z1不相關(guān)的線性組合中方差最大者,…,Zp是與Z1,Z2……Zp-1都不相關(guān)的線性組合中方差最大者。(三)主成分分析法基本步驟第一步:設(shè)估計(jì)樣本數(shù)為n,選取的財(cái)務(wù)指標(biāo)數(shù)為p,則由估計(jì)樣本的原始數(shù)據(jù)可得矩陣X=(xij)m*p,其中xij表示第i家上市公司
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。
在統(tǒng)計(jì)學(xué)中,主成分分析(principal components analysis,PCA)是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。
這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征.這是通過保留低階主成分,忽略高階主成分做到的。
這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面.但是,這也不是一定的,要視具體應(yīng)用而定。.。
一、主成分分析 1、簡介 在用統(tǒng)計(jì)分析方法研究這個(gè)多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。
人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。
主成分分析是對(duì)于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。 2、原理 設(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。
二、主成分分析的基本思想及步驟 1、基本思想 主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。
最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。
如果第一主成分不足以代表原來P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。 2、步驟 Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值所對(duì)應(yīng)的特征向量,ZX1, ZX2, ……, ZXp是原始變量經(jīng)過標(biāo)準(zhǔn)化處理的值,因?yàn)樵趯?shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化,本文所采用的數(shù)據(jù)就存在量綱影響[注:本文指的數(shù)據(jù)標(biāo)準(zhǔn)化是指Z標(biāo)準(zhǔn)化]。
A=(aij)p*m=(a1,a2,…am,),Rai=λiai,R為相關(guān)系數(shù)矩陣,λi、ai是相應(yīng)的特征值和單位特征向量,λ1≥λ2≥…≥λp≥0 。 進(jìn)行主成分分析主要步驟如下: 1. 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行); 2. 指標(biāo)之間的相關(guān)性判定; 3. 確定主成分個(gè)數(shù)m; 4. 主成分Fi表達(dá)式; 5. 主成分Fi命名;。
主成分分析就是將多項(xiàng)指標(biāo)轉(zhuǎn)化為少數(shù)幾項(xiàng)綜合指標(biāo),用綜合指標(biāo)來解釋多變量的方差- 協(xié)方差結(jié)構(gòu)。
綜合指標(biāo)即為主成分。所得出的少數(shù)幾個(gè)主成分,要盡可能多地保留原始變量的信息,且彼此不相關(guān)。
因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個(gè)因子變量,以及如何使因子變量具有較強(qiáng)的可解釋性的一種多元統(tǒng)計(jì)分析方法。聚類分析是依據(jù)實(shí)驗(yàn)數(shù)據(jù)本身所具有的定性或定量的特征來對(duì)大量的數(shù)據(jù)進(jìn)行分組歸類以了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),并且對(duì)每一個(gè)數(shù)據(jù)集進(jìn)行描述的過程。
其主要依據(jù)是聚到同一個(gè)數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。三種分析方法既有區(qū)別也有聯(lián)系,本文力圖將三者的異同進(jìn)行比較,并舉例說明三者在實(shí)際應(yīng)用中的聯(lián)系,以期為更好地利用這些高級(jí)統(tǒng)計(jì)方法為研究所用有所裨益。
二、基本思想的異同(一) 共同點(diǎn) 主成分分析法和因子分析法都是用少數(shù)的幾個(gè)變量(因子) 來綜合反映原始變量(因子) 的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數(shù)的幾個(gè)新變量,可信度也很高,也可以有效地解釋問題。并且新的變量彼此間互不相關(guān),消除了多重共線性。
這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為x1 ,x2 ,. . . ,x3 ,經(jīng)過坐標(biāo)變換,將原有的p個(gè)相關(guān)變量xi 作線性變換,每個(gè)主成分都是由原有p 個(gè)變量線性組合得到。
在諸多主成分Zi 中,Z1 在方差中占的比重最大,說明它綜合原有變量的能力最強(qiáng),越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個(gè)公共因子去解釋較多個(gè)要觀測(cè)變量中存在的復(fù)雜關(guān)系,它不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。
公共因子是由所有變量共同具有的少數(shù)幾個(gè)因子;特殊因子是每個(gè)原始變量獨(dú)自具有的因子。對(duì)新產(chǎn)生的主成分變量及因子變量計(jì)算其得分,就可以將主成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因?yàn)橹鞒煞肿兞考耙蜃幼兞勘仍甲兞可倭嗽S多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。
聚類分析的基本思想是: 采用多變量的統(tǒng)計(jì)值,定量地確定相互之間的親疏關(guān)系,考慮對(duì)象多因素的聯(lián)系和主導(dǎo)作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實(shí)際并能反映事物的內(nèi)在必然聯(lián)系。也就是說,聚類分析是把研究對(duì)象視作多維空間中的許多點(diǎn),并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在組合關(guān)系[3 ]。
聚類分析是通過一個(gè)大的對(duì)稱矩陣來探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計(jì)分析方法,分析的結(jié)果為群集。對(duì)向量聚類后,我們對(duì)數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。
(二) 不同之處 主成分分析是研究如何通過少數(shù)幾個(gè)主成分來解釋多變量的方差一協(xié)方差結(jié)構(gòu)的分析方法,也就是求出少數(shù)幾個(gè)主成分(變量) ,使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種數(shù)學(xué)變換方法,即把給定的一組變量通過線性變換,轉(zhuǎn)換為一組不相關(guān)的變量(兩兩相關(guān)系數(shù)為0 ,或樣本向量彼此相互垂直的隨機(jī)變量) ,在這種變換中,保持變量的總方差(方差之和) 不變,同時(shí)具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。
依次類推。若共有p 個(gè)變量,實(shí)際應(yīng)用中一般不是找p 個(gè)主成分,而是找出m (m 因子分析是尋找潛在的起支配作用的因子模型的方法。
因子分析是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子。對(duì)于所研究的問題就可試圖用最少個(gè)數(shù)的不可測(cè)的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測(cè)的每一分量。
通過因子分析得來的新變量是對(duì)每個(gè)原始變量進(jìn)行內(nèi)部剖析。因子分析不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。
具體地說,就是要找出某個(gè)問題中可直接測(cè)量的具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個(gè)在專業(yè)中有意義、又不可直接測(cè)量到、且相對(duì)獨(dú)立的因子支配的規(guī)律,從而可用各指標(biāo)的測(cè)定來間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
聚類分析算法是給定m 維空間R 中的n 個(gè)向量,把每個(gè)向量歸屬到k 個(gè)聚類中的某一個(gè),使得每一個(gè)向量與其聚類中心的距離最小。聚類可以理解為: 類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量小。
聚類問題作為一種無指導(dǎo)的學(xué)習(xí)問題,目的在于通過把原來的對(duì)象集合分成相似的組或簇,來獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。從三類分析的基本思想可以看出,聚類分析中并沒于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。
三、數(shù)據(jù)標(biāo)準(zhǔn)化的比較 主成分分析中為了消除量綱和數(shù)量級(jí),通常需要將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將其轉(zhuǎn)化為均值為0方差為1 的無量綱數(shù)據(jù)。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:2.841秒