統(tǒng)計方法有:
1、計量資料的統(tǒng)計方法
分析計量資料的統(tǒng)計分析方法可分為參數(shù)檢驗法和非參數(shù)檢驗法。
參數(shù)檢驗法主要為t檢驗和 方差分析(ANOVN,即F檢驗)等,兩組間均數(shù)比較時常用t檢驗和u檢驗,兩組以上均數(shù)比較時常用方差分析;非參數(shù)檢驗法主要包括秩和檢驗等。t檢驗可分為單組設(shè)計資料的t檢驗、配對設(shè)計資料的t檢驗和成組設(shè)計資料的t檢驗;當(dāng)兩個小 樣本比較時要求兩 總體分布為 正態(tài)分布且方差齊性,若不能滿足以上要求,宜用t 檢驗或非參數(shù)方法( 秩和檢驗)。 方差分析可用于兩個以上 樣本均數(shù)的比較,應(yīng)用該方法時,要求各個樣本是相互獨立的隨機樣本,各樣本來自正態(tài)總體且各處理組總體方差齊性。根據(jù)設(shè)計類型不同,方差分析中又包含了多種不同的方法。對于 定量資料,應(yīng)根據(jù)所采用的設(shè)計類型、資料所具備的條件和分析目的,選用合適的統(tǒng)計分析方法,不應(yīng)盲目套用t檢驗和 單因素方差分析。
2、計數(shù)資料的統(tǒng)計方法
計數(shù)資料的統(tǒng)計方法主要針對四格表和R*C表利用檢驗進行分析。
檢驗或u檢驗,若不能滿足 檢驗:當(dāng)計數(shù)資料呈配對設(shè)計時,獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書籍。 R*C表可以分為雙向無序,單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌念?,不同類的行列表根?jù)其研究目的,其選擇的方法也不一樣。
3、等級資料的統(tǒng)計方法
等級資料(有序變量)是對性質(zhì)和類別的等級進行分組,再清點每組觀察單位個數(shù)所得到的資料。在臨床醫(yī)學(xué)資料中,常遇到一些定性指標(biāo),如臨床療效的評價、疾病的臨床分期、病癥嚴重程度的臨床分級等,對這些指標(biāo)常采用分成若干個等級然后分類計數(shù)的辦法來解決它的量化問題,這樣的資料統(tǒng)計上稱為等級資料。
統(tǒng)計方法的選擇:
統(tǒng)計資料豐富且錯綜復(fù)雜,要想做到合理選用統(tǒng)計分析方法并非易事。對于同一 個資料,若選擇不同的統(tǒng)計分析方法處理,有時其結(jié)論是截然不同的。
正確選擇統(tǒng)計方法的依據(jù)是:
①根據(jù)研究的目的,明確研究試驗設(shè)計類型、研究因素與水平數(shù);
②確定數(shù)據(jù)特征(是否正態(tài)分布等)和樣本量大小;
③ 正確判斷統(tǒng)計資料所對應(yīng)的類型(計量、計數(shù)和等級資料),同時應(yīng)根據(jù)統(tǒng)計方法的適宜條件進行正確的統(tǒng)計量值計算;
最后,還要根據(jù)專業(yè)知識與資料的實際情況,結(jié)合統(tǒng)計學(xué)原則,靈活地選擇統(tǒng)計分析方法。
利用直接記錄或分析系統(tǒng)的輸入和輸出信號的方法估計系統(tǒng)的非參數(shù)模型。所謂非參數(shù)模型是指系統(tǒng)的數(shù)學(xué)模型中非顯式地包含可估參數(shù)。例如,系統(tǒng)的頻率響應(yīng)、脈沖響應(yīng)、階躍響應(yīng)等都是非參數(shù)模型。非參數(shù)模型通常以響應(yīng)曲線或離散值形式表示。非參數(shù)模型的辨識可通過直接記錄系統(tǒng)輸出對輸入的響應(yīng)過程來進行;也可通過分析輸入與輸出的自相關(guān)和互相關(guān)函數(shù)(見相關(guān)分析法建模),或它們的自功率譜和互功率譜函數(shù)(見頻譜分析方法建模)來間接地估計。非參數(shù)模型是經(jīng)典控制理論中常用的描述線性系統(tǒng)的數(shù)學(xué)模型。傳遞函數(shù)反映輸入與輸出的拉普拉斯變換在復(fù)數(shù)域上的響應(yīng)關(guān)系,頻率響應(yīng)反映它們的傅里葉變換在頻率域上的響應(yīng)關(guān)系,而脈沖響應(yīng)和階躍響應(yīng)則是在時域上的響應(yīng)關(guān)系。它們從不同的方面反映系統(tǒng)的動態(tài)特性。非參數(shù)模型比參數(shù)化模型直觀,辨識非參數(shù)模型的方法和計算也比辨識參數(shù)化模型的簡單。脈沖響應(yīng)可以用直接記錄輸入脈沖函數(shù)的輸出響應(yīng)的方法來辨識;頻率響應(yīng)也可以直接利用單頻正弦輸入信號的響應(yīng)來辨識。但是這種直接辨識方法只能應(yīng)用于無隨機噪聲的確定性系統(tǒng)。對于有隨機噪聲的系統(tǒng)或隨機輸入信號,必須使用相關(guān)分析法或功率譜分析方法。隨著快速傅里葉變換儀、偽隨機信號發(fā)生器和相關(guān)儀的問世,辨識系統(tǒng)的非參數(shù)模型已變得比較容易。但非參數(shù)模型應(yīng)用于實時控制和適應(yīng)性控制仍不如參數(shù)化模型方便。非參數(shù)模型在某些情形下,可以轉(zhuǎn)化為參數(shù)模型。例如,如果一個系統(tǒng)的傳遞函數(shù)可以表示為有理分式H(s)=K/(a+s),則系統(tǒng)的模型可以用常微分方程y'+ay=ku表示,a與k為 p=m/(n+1)*100%
待估計的模型參數(shù),這是參數(shù)化模型。又如,對于離散系統(tǒng)的權(quán)函數(shù)序列(離散脈沖響應(yīng)序列){hi,i=0,1,…},如果在i充分大(如i>N0),而│hi│充分小時,則模型可以表示為并可用最小二乘法給出有窮權(quán)函數(shù)序列{hi,i=0,1,…N0}的估計。一般說來,由參數(shù)模型容易獲得非參數(shù)的脈沖響應(yīng)或頻率響應(yīng),但由非參數(shù)模型化為參數(shù)模型則要困難得多。
1、穩(wěn)健回歸其主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標(biāo)函數(shù)進行修改。
經(jīng)典最小二乘回歸以使誤差平方和達到最小為其目標(biāo)函數(shù)。因為方差為一不穩(wěn)健統(tǒng)計量,故最小二乘回歸是一種不穩(wěn)健的方法。
為減少異常點的作用,對不同的點施加不同的權(quán)重,殘差小的點權(quán)重大,殘差大的店權(quán)重小。2、變系數(shù)回歸 地理位置加權(quán)3、偏最小二乘回歸長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機的結(jié)合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。偏最小二乘法在統(tǒng)計應(yīng)用中的重要性體現(xiàn)在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。
能夠消除自變量選取時可能存在的多重共線性問題。普通最小二乘回歸方法在自變量間存在嚴重的多重共線性時會失效。
自變量的樣本數(shù)與自變量個數(shù)相比過少時仍可進行預(yù)測。4、支持向量回歸 能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題。
傳統(tǒng)的化學(xué)計量學(xué)算法處理回歸建模問題在擬合訓(xùn)練樣本時,要求“殘差平方和”最小,這樣將有限樣本數(shù)據(jù)中的誤差也擬合進了數(shù)學(xué)模型,易產(chǎn)生“過擬合”問題,針對傳統(tǒng)方法這一不足之處,SVR采用“ε不敏感函數(shù)”來解決“過擬合”問題,即f(x)用擬合目標(biāo)值yk時,?。篺(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應(yīng)的拉格朗日待定系數(shù),K(xi,x)是采用的核函數(shù)[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數(shù)周圍的ε“管壁”上的特征矢量),SVs為支持向量的數(shù)目.目標(biāo)值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時,即認為進一步擬合是無意義的。5、核回歸 核函數(shù)回歸的最初始想法是用非參數(shù)方法來估計離散觀測情況下的概率密度函數(shù)(pdf)。
為了避免高維空間中的內(nèi)積運算 由Mercer條件,存在映射函數(shù)a和核函數(shù)K(?,?),使得:=K(xi ,x)采用不同的函數(shù)作為SVM的核函數(shù)K (x i,x),可以實現(xiàn)多種從輸入空間到特征空間的非線性映射形式6、嶺回歸 嶺回歸分析是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質(zhì)上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的耐受性遠遠強于最小二乘法。7、半?yún)?shù)回歸 模型既含有參數(shù)分量又含有非參數(shù)分量,其參數(shù)部分用來解釋函數(shù)關(guān)系已知的部分,它是觀測值中的主要成分,而其非參數(shù)部分則描述函數(shù)關(guān)系未知,無法表達為待定參數(shù)的函數(shù)部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內(nèi)生變量)作為解釋變量出現(xiàn)在方程的右端。這種包含了內(nèi)生變量滯后項的模型稱為自回歸模型。
9、正交回歸 因素水平值在區(qū)間[Zj1, Zj2]內(nèi)變化,經(jīng)編碼之后,編碼值xi在區(qū)間[-1,+1]間變化,將響應(yīng)值y原來對Z1, Z2……Zm的回歸問題,轉(zhuǎn)化為y對x1,x2……xm的回歸問題。它的主要優(yōu)點是可以把實驗或計算的安排、數(shù)據(jù)的處理和回歸方程的精度統(tǒng)一起來加以考慮,根據(jù)實驗?zāi)康暮蛿?shù)據(jù)分析來選擇實驗或計算點,不僅使得在每個實驗或計算點上獲得的數(shù)據(jù)含有最大的信息,從而減少實驗或計算次數(shù),而且使數(shù)據(jù)的統(tǒng)計分析具有一些較好的性質(zhì),以較少的實驗或計算建立精度較高的回歸方程。
10、逐步回歸 實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。基本思路為,先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個對y 影響最大的,再對原來子集中的變量進行檢驗,從變得不顯著的變量中剔除一個影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統(tǒng)計學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。
這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上,依次類推。 首先對X陣進行主成份分析,T陣的維數(shù)可以與X陣相同,如果使用整個T陣參加回歸,這樣得到的結(jié)果與多元線性回歸沒有多大的差別。
因為主成分(新變量)是原變量的線性組合。前面的k個主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關(guān)。
因此參與回歸的是少數(shù)主成分組成的矩陣。在維數(shù)上遠小于X。
主成分回歸通過對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線性回歸中的共線性問題。
主成分回歸能夠充分利用數(shù)據(jù)信息,有效地提高模型的抗干擾能力。
1/6分步閱讀1.線性回歸方法:通常因變量和一個(或者多個)自變量之間擬合出來是一條直線(回歸線),通??梢杂靡粋€普遍的公式來表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線的斜率,c是誤差項。
如下圖所示。?2/62.邏輯回歸方法:通常是用來計算“一個事件成功或者失敗”的概率,此時的因變量一般是屬于二元型的(1 或0,真或假,有或無等)變量。
以樣本極大似然估計值來選取參數(shù),而不采用最小化平方和誤差來選擇參數(shù),所以通常要用log等對數(shù)函數(shù)去擬合。如下圖。
?3/63.多項式回歸方法:通常指自變量的指數(shù)存在超過1的項,這時候最佳擬合的結(jié)果不再是一條直線而是一條曲線。比如:拋物線擬合函數(shù)Y=a+b*X^2,如下圖所示。
?4/64.嶺回歸方法:通常用于自變量數(shù)據(jù)具有高度相關(guān)性的擬合中,這種回歸方法可以在原來的偏差基礎(chǔ)上再增加一個偏差度來減小總體的標(biāo)準(zhǔn)偏差。如下圖是其收縮參數(shù)的最小誤差公式。
?5/65.套索回歸方法:通常也是用來二次修正回歸系數(shù)的大小,能夠減小參量變化程度以提高線性回歸模型的精度。如下圖是其懲罰函數(shù),注意這里的懲罰函數(shù)用的是絕對值,而不是絕對值的平方。
?6/66.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來訓(xùn)練,使用L2優(yōu)先作為正則化矩陣。當(dāng)相關(guān)的特征有很多個時,ElasticNet不同于Lasso,會選擇兩個。
如下圖是其常用的理論公式。?。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:2.604秒