方法一:規(guī)范化方法
也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果映射到[0,1]區(qū)間。
方法二:正規(guī)化方法
這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進(jìn)行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計(jì)算,其實(shí)標(biāo)準(zhǔn)化的公式很簡單。
步驟如下:
1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;
2.進(jìn)行標(biāo)準(zhǔn)化處理:
zij=(xij-xi)/si
其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實(shí)際變量值。
3.將逆指標(biāo)前的正負(fù)號對調(diào)。
標(biāo)準(zhǔn)化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
一、描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)是一類統(tǒng)計(jì)方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗(yàn):很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進(jìn)行正態(tài)性檢驗(yàn)。常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法。
四、假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn) 。
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
處理工程數(shù)據(jù)一般有三種方法:數(shù)據(jù)程序化處理、數(shù)據(jù)文件化處理、
數(shù)據(jù)庫處理。
數(shù)據(jù)程序化處理的優(yōu)點(diǎn)是:充分將數(shù)據(jù)與程序結(jié)合在了一起。其缺點(diǎn)是數(shù)據(jù)無法共享,增加了程序的長度。
數(shù)據(jù)文件化處理的優(yōu)點(diǎn)是:數(shù)據(jù)與程序作了初步的分離,實(shí)現(xiàn)了有條件的共享。其缺點(diǎn)有四點(diǎn):①文件只能表示事物而不能表示事物之間的聯(lián)系;②文件較長;③數(shù)據(jù)與應(yīng)用程序之間仍有依賴關(guān)系;④安全性和保密性較差。
數(shù)據(jù)庫處理的優(yōu)點(diǎn)是:①數(shù)據(jù)共享,②數(shù)據(jù)集中,安全性和保密性好。③數(shù)據(jù)結(jié)構(gòu)化,既表示了事物,又表示了事物之間的聯(lián)系。其缺點(diǎn)是:數(shù)據(jù)與應(yīng)用程序無關(guān)聯(lián)。
方法一:規(guī)范化方法也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果映射到[0,1]區(qū)間。
方法二:正規(guī)化方法這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進(jìn)行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計(jì)算,其實(shí)標(biāo)準(zhǔn)化的公式很簡單。步驟如下:1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;2.進(jìn)行標(biāo)準(zhǔn)化處理:zij=(xij-xi)/si其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實(shí)際變量值。
3.將逆指標(biāo)前的正負(fù)號對調(diào)。標(biāo)準(zhǔn)化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
對于專業(yè)的測試公司,類似TestBird這樣的,做測試是會有對應(yīng)的計(jì)劃的,類似于項(xiàng)目組的計(jì)劃。測試完成率,通過率,激活問題率,修復(fù)率,高問題模塊top,規(guī)劃安全級別等在測試計(jì)劃里是以子任務(wù)形式的。
數(shù)據(jù)化管理主要是每周對于新增問題,未fixed問題,阻斷問題數(shù)量,剩余問題數(shù)量,熱門問題,每周測試密度變化等,根據(jù)項(xiàng)目緊縮性,對一些bug修復(fù)率進(jìn)行管理,設(shè)置逾期時(shí)間,跟蹤熱門問題。
定期會對二周內(nèi)不可復(fù)現(xiàn)問題和爭議的問題進(jìn)行管理,做測試收斂。
專項(xiàng)測試采集數(shù)據(jù),每個(gè)版本和之前版本做基準(zhǔn)測試。
一、直線型無量綱化方法:又包括閥值法、指數(shù)法、標(biāo)準(zhǔn)化方法、比重法。
二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法。三、曲線型無量綱化方法 。
目前常見的無量綱化處理方法主要有極值化、標(biāo)準(zhǔn)化、均值化以及標(biāo)準(zhǔn)差化方法,而最常使用的是標(biāo)準(zhǔn)化方法。但標(biāo)準(zhǔn)化方法處理后的各指標(biāo)均值都為0,標(biāo)準(zhǔn)差都為1,它只反映了各指標(biāo)之間的相互影響,在無量綱化的同時(shí)也抹殺了各指標(biāo)之間變異程度上的差異,因此,標(biāo)準(zhǔn)化方法并不適用于多指標(biāo)的綜合評價(jià)中。
而經(jīng)過均值化方法處理的各指標(biāo)數(shù)據(jù)構(gòu)成的協(xié)方差矩陣既可以反映原始數(shù)據(jù)中各指標(biāo)變異程度上的差異,也包含各指標(biāo)相互影響程度差異的信息。四、數(shù)據(jù)標(biāo)準(zhǔn)化的方法: 1、對變量的離差標(biāo)準(zhǔn)化離差標(biāo)準(zhǔn)化是將某變量中的觀察值減去該變量的最小值,然后除以該變量的極差。
即 x'ik=[xik -Min (xk)]/Rk 經(jīng)過離差標(biāo)準(zhǔn)化后,各種變量的觀察值的數(shù)值范圍都將在〔0,1〕之間,并且經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù)都是沒有單位的純數(shù)量。離差標(biāo)準(zhǔn)化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。
有一些關(guān)系系數(shù)(例如絕對值指數(shù)尺度)在定義時(shí)就已經(jīng)要求對數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化,但有些關(guān)系系數(shù)的計(jì)算公式卻沒有這樣要求,當(dāng)選用這類關(guān)系系數(shù)前,不妨先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,看看分析的結(jié)果是否為有意義的變化。 2,對變量的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化是將某變量中的觀察值減去該變量的平均數(shù),然后除以該變量的標(biāo)準(zhǔn)差。
即 x'ik = (xik - )/sk 經(jīng)過標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后,各變量將有約一半觀察值的數(shù)值小于0,另一半觀察值的數(shù)值大于0,變量的平均數(shù)為0,標(biāo)準(zhǔn)差為1。經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù)都是沒有單位的純數(shù)量。
對變量進(jìn)行的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化可以消除量綱(單位)影響和變量自身變異的影響。但有人認(rèn)為經(jīng)過這種標(biāo)準(zhǔn)化后,原來數(shù)值較大的的觀察值對分類結(jié)果的影響仍然占明顯的優(yōu)勢,應(yīng)該進(jìn)一步消除大小因子的影響。
盡管如此,它還是當(dāng)前用得最多的數(shù)據(jù)標(biāo)準(zhǔn)化方法。 3,先對事例進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,再對變量進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化第一步,先對事例進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即將某事例中的觀察值減去該事例的平均數(shù),然后除以該事例的標(biāo)準(zhǔn)差。
即 x'ik = (xik - )/si 第二步,再對變量進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即將某變量中的觀察值減去該變量的平均數(shù),然后除以該變量的標(biāo)準(zhǔn)差。即 x''ik = (x'ik - 'k)/s'k 使用這種標(biāo)準(zhǔn)化的目的也在于消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。
4,先對變量、后對事例、再對變量的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化這種標(biāo)準(zhǔn)化的目的也在于消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:第一步,先對變量進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即將某變量中的觀察值減去該變量的平均數(shù),然后除以該變量的標(biāo)準(zhǔn)差。
即 x'ik = (xik - )/sk 第二步,后對事例進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即將某事例中的觀察值減去該事例的平均數(shù),然后除以該事例的標(biāo)準(zhǔn)差。即 x''ik = (x'ik - 'i)/s'i 第三步,再對變量進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即將某變量中的觀察值減去該變量的平均數(shù),然后除以該變量的標(biāo)準(zhǔn)差。
即 x'''ik = (x''ik - ''k)/s''k 進(jìn)行了前兩步之后,還要進(jìn)行第三步的原因,主要是為了計(jì)算的方便。
處理工程數(shù)據(jù)一般有三種方法:數(shù)據(jù)程序化處理、數(shù)據(jù)文件化處理、數(shù)據(jù)庫處理。
數(shù)據(jù)程序化處理的優(yōu)點(diǎn)是:充分將數(shù)據(jù)與程序結(jié)合在了一起。其缺點(diǎn)是數(shù)據(jù)無法共享,增加了程序的長度。
數(shù)據(jù)文件化處理的優(yōu)點(diǎn)是:數(shù)據(jù)與程序作了初步的分離,實(shí)現(xiàn)了有條件的共享。其缺點(diǎn)有四點(diǎn):①文件只能表示事物而不能表示事物之間的聯(lián)系;②文件較長;③數(shù)據(jù)與應(yīng)用程序之間仍有依賴關(guān)系;④安全性和保密性較差。
數(shù)據(jù)庫處理的優(yōu)點(diǎn)是:①數(shù)據(jù)共享,②數(shù)據(jù)集中,安全性和保密性好。③數(shù)據(jù)結(jié)構(gòu)化,既表示了事物,又表示了事物之間的聯(lián)系。
其缺點(diǎn)是:數(shù)據(jù)與應(yīng)用程序無關(guān)聯(lián)。
聲明:本網(wǎng)站尊重并保護(hù)知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請?jiān)谝粋€(gè)月內(nèi)通知我們,我們會及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.265秒