數(shù)據(jù)分析落實(shí)到實(shí)處,一般就是圍繞用戶漏斗展開的。也就是人們常說的訪問-激活-留存-交易-推薦。
這核心的5步會(huì)有不同維度的細(xì)分。
獲客:來源、渠道、關(guān)鍵字、著陸頁、地域、設(shè)備、訪問時(shí)間、跳出率、訪問深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數(shù)據(jù),可以通過ptengine通過漏斗細(xì)分得到可視化圖表。一般來講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數(shù)據(jù)和當(dāng)年第一周)即可獲得數(shù)據(jù)的變化情況。
以上,其實(shí)不用很專業(yè)也能做好數(shù)據(jù)分析,獲取數(shù)據(jù)并不難,難的是你能洞察數(shù)據(jù)背后的意義。
因子分析的核心問題有兩個(gè):一是如何構(gòu)造因子變量;二是如何對(duì)因子變量進(jìn)行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個(gè)核心問題展開的。
(i)因子分析常常有以下四個(gè)基本步驟:
⑴確認(rèn)待分析的原變量是否適合作因子分析。
⑵構(gòu)造因子變量。
⑶利用旋轉(zhuǎn)方法使因子變量更具有可解釋性。
⑷計(jì)算因子變量得分。
(ii)因子分析的計(jì)算過程:
⑴將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除變量間在數(shù)量級(jí)和量綱上的不同。
⑵求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣;
⑶求相關(guān)矩陣的特征值和特征向量;
⑷計(jì)算方差貢獻(xiàn)率與累積方差貢獻(xiàn)率;
⑸確定因子:
設(shè)F1,F2,…, Fp為p個(gè)因子,其中前m個(gè)因子包含的數(shù)據(jù)信息總量(即其累積貢獻(xiàn)率)不低于80%時(shí),可取前m個(gè)因子來反映原評(píng)價(jià)指標(biāo);
⑹因子旋轉(zhuǎn):
若所得的m個(gè)因子無法確定或其實(shí)際意義不是很明顯,這時(shí)需將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實(shí)際含義。
⑺用原指標(biāo)的線性組合來求各因子得分:
采用回歸估計(jì)法,Bartlett估計(jì)法或Thomson估計(jì)法計(jì)算因子得分。
⑻綜合得分
以各因子的方差貢獻(xiàn)率為權(quán),由各因子的線性組合得到綜合評(píng)價(jià)指標(biāo)函數(shù)。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉(zhuǎn)前或旋轉(zhuǎn)后因子的方差貢獻(xiàn)率。
⑼得分排序:利用綜合得分可以得到得分名次。
在采用多元統(tǒng)計(jì)分析技術(shù)進(jìn)行數(shù)據(jù)處理、建立宏觀或微觀系統(tǒng)模型時(shí),需要研究以下幾個(gè)方面的問題:
· 簡化系統(tǒng)結(jié)構(gòu),探討系統(tǒng)內(nèi)核。可采用主成分分析、因子分析、對(duì)應(yīng)分析等方法,在眾多因素中找出各個(gè)變量最佳的子集合,從子集合所包含的信息描述多變量的系統(tǒng)結(jié)果及各個(gè)因子對(duì)系統(tǒng)的影響。“從樹木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統(tǒng)的結(jié)構(gòu),認(rèn)識(shí)系統(tǒng)的內(nèi)核。
· 構(gòu)造預(yù)測(cè)模型,進(jìn)行預(yù)報(bào)控制。在自然和社會(huì)科學(xué)領(lǐng)域的科研與生產(chǎn)中,探索多變量系統(tǒng)運(yùn)動(dòng)的客觀規(guī)律及其與外部環(huán)境的關(guān)系,進(jìn)行預(yù)測(cè)預(yù)報(bào),以實(shí)現(xiàn)對(duì)系統(tǒng)的最優(yōu)控制,是應(yīng)用多元統(tǒng)計(jì)分析技術(shù)的主要目的。在多元分析中,用于預(yù)報(bào)控制的模型有兩大類。一類是預(yù)測(cè)預(yù)報(bào)模型,通常采用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術(shù)。另一類是描述性模型,通常采用聚類分析的建模技術(shù)。
· 進(jìn)行數(shù)值分類,構(gòu)造分類模式。在多變量系統(tǒng)的分析中,往往需要將系統(tǒng)性質(zhì)相似的事物或現(xiàn)象歸為一類。以便找出它們之間的聯(lián)系和內(nèi)在規(guī)律性。過去許多研究多是按單因素進(jìn)行定性處理,以致處理結(jié)果反映不出系統(tǒng)的總的特征。進(jìn)行數(shù)值分類,構(gòu)造分類模式一般采用聚類分析和判別分析技術(shù)。
如何選擇適當(dāng)?shù)姆椒▉斫鉀Q實(shí)際問題,需要對(duì)問題進(jìn)行綜合考慮。對(duì)一個(gè)問題可以綜合運(yùn)用多種統(tǒng)計(jì)方法進(jìn)行分析。例如一個(gè)預(yù)報(bào)模型的建立,可先根據(jù)有關(guān)生物學(xué)、生態(tài)學(xué)原理,確定理論模型和試驗(yàn)設(shè)計(jì);根據(jù)試驗(yàn)結(jié)果,收集試驗(yàn)資料;對(duì)資料進(jìn)行初步提煉;然后應(yīng)用統(tǒng)計(jì)分析方法(如相關(guān)分析、逐步回歸分析、主成分分析等)研究各個(gè)變量之間的相關(guān)性,選擇最佳的變量子集合;在此基礎(chǔ)上構(gòu)造預(yù)報(bào)模型,最后對(duì)模型進(jìn)行診斷和優(yōu)化處理,并應(yīng)用于生產(chǎn)實(shí)際。
一、描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)是一類統(tǒng)計(jì)方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢(shì)分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗(yàn):很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進(jìn)行正態(tài)性檢驗(yàn)。常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動(dòng)差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法。
四、假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn) 。
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
去百度文庫,查看完整內(nèi)容>
內(nèi)容來自用戶:蔣上樹
常用數(shù)據(jù)分析方法有那些
文章來源:ECP數(shù)據(jù)分析時(shí)間:2013/6/28 13:35:06發(fā)布者:常用數(shù)據(jù)分析(關(guān)注:554)
標(biāo)簽:本文包括:
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析、回歸分析、方差分析;
問卷調(diào)查常用數(shù)據(jù)分析方法:描述性統(tǒng)計(jì)分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結(jié)構(gòu)方程模型分析(structural equations modeling)。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點(diǎn)圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點(diǎn)圖、柱狀圖、雷達(dá)圖、趨勢(shì)圖。
數(shù)據(jù)分析統(tǒng)計(jì)工具:SPSS、minitab、JMP。
常用數(shù)據(jù)分析方法:
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少?zèng)Q策的困難。相關(guān)分析(直方圖JMP
本來想給你截圖的,可是傳不上來,我就簡單說一下哈。
首先你得進(jìn)行一次預(yù)計(jì)算,選擇菜單里分析——降維——因子分析,跳出主面板,把想分析的變量選到變量框里,然后點(diǎn)確定。這時(shí)候輸出窗口里會(huì)只有一個(gè)或兩個(gè)圖表。其中有一個(gè)圖表是主成分的方差貢獻(xiàn)。這個(gè)圖表里你要找到兩個(gè)相鄰的列(應(yīng)該是第三列和第四列),其中前一個(gè)列指的是單個(gè)因子對(duì)方差的貢獻(xiàn)率,后一個(gè)是因子累計(jì)貢獻(xiàn)率。也就是說前一個(gè)列里邊數(shù)值相加等于100,后一個(gè)列里邊數(shù)值遞增,最后一個(gè)等于100。假如前一個(gè)列里是60,30,10,那么后一列里就是60,90,100.兩個(gè)列之間有一個(gè)和的關(guān)系。找到這兩個(gè)列以后,你要找使得累計(jì)貢獻(xiàn)率達(dá)到百分之八十的那個(gè)數(shù)。這個(gè)表的第一列是1,2,3,等等,它代表第幾個(gè)因子,比如3指的那行就包括第三個(gè)因子的方差貢獻(xiàn)率,累積到第三個(gè)因子的方差貢獻(xiàn)率這兩個(gè)數(shù)據(jù)。你要找到累計(jì)到達(dá)百分之八十的那個(gè)因子是第幾個(gè)因子,然后就按提取幾個(gè)因子進(jìn)行計(jì)算。
通過預(yù)計(jì)算知道了提取幾個(gè)因子之后,就開始正式計(jì)算。再次打開因子分析的主面板,在最右邊一共有五個(gè)選項(xiàng),分別是描述,抽取,旋轉(zhuǎn),得分,選項(xiàng)。這五個(gè)在預(yù)計(jì)算里邊沒有用,但是現(xiàn)在要用了。點(diǎn)繼續(xù)。
點(diǎn)擊描述,在對(duì)話框里選上初始變量分析,kmo統(tǒng)計(jì)量及bartlett球形檢驗(yàn)這兩個(gè)選項(xiàng),(注意,kmo和bartlett是一個(gè)選項(xiàng),選項(xiàng)名就是很長)這一步是用來判斷變量是否適于進(jìn)行因子分析的。
點(diǎn)擊抽取,對(duì)話框里最上邊的方法就選主成分,分析里選上相關(guān)性矩陣,輸出選上未旋轉(zhuǎn)的因子解和碎石圖兩個(gè)選項(xiàng),抽取里選擇因子的固定數(shù)目,在要提取的因子后邊填上你預(yù)計(jì)算里算出的因子數(shù)目。點(diǎn)繼續(xù)。
旋轉(zhuǎn)里邊選最大方差法,輸出旋轉(zhuǎn)解。繼續(xù)。
得分里邊選保存為變量,方法為回歸,顯示因子得分系數(shù)矩陣也要打上勾。繼續(xù)。
確定。
然后就可以分析結(jié)果了。
先看kmo和bartlett的結(jié)果,kmo統(tǒng)計(jì)量越接近1,變量相關(guān)性越強(qiáng),因子分析效果越好。通常0.7以上為一般,0.5以下不能接受,就是不適合做因子分析。bartlett檢驗(yàn)從檢驗(yàn)相關(guān)矩陣出發(fā),如果p值,就是sig,比較小的話,一般認(rèn)為小于0.05,當(dāng)然越小越好,就適于因子分析。
如果這兩個(gè)檢驗(yàn)都合格的話,才可以去寫因子模型。
為了便于描述,假設(shè)我們有兩個(gè)因子f1,f2,
旋轉(zhuǎn)變換后的因子載荷矩陣會(huì)告訴你每個(gè)變量用因子表示的系數(shù)。比如變量x1=系數(shù)1*f1+系數(shù)2*f2,變量2以此類推。
因子得分系數(shù)矩陣會(huì)告訴你每個(gè)因子里各變量占得權(quán)重,比如f1=系數(shù)1*x1+系數(shù)2*x2+。
根據(jù)這個(gè)我們就能算出因子得分了。
因?yàn)橹斑x擇了將因子保存為新變量,所以spss會(huì)直接保存兩個(gè)因子得分為兩個(gè)新變量,
然后我們不是有一個(gè)公式嗎
總得分=因子1的方差貢獻(xiàn)率*因子1的得分+因子2的方差貢獻(xiàn)率*因子2的得分+。
根據(jù)這個(gè)公式計(jì)算一下就可以了。
用spss或者excel都可以。
希望能對(duì)你有幫助哦。
ppv課,大數(shù)據(jù)培訓(xùn)專家,最專業(yè)的大數(shù)據(jù)培訓(xùn)平臺(tái)。為你提供最好的spss學(xué)習(xí)教程哦。
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析、回歸分析、方差分析; 問卷調(diào)查常用數(shù)據(jù)分析方法:描述性統(tǒng)計(jì)分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結(jié)構(gòu)方程模型分析(structural equations modeling) 。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點(diǎn)圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點(diǎn)圖、柱狀圖、雷達(dá)圖、趨勢(shì)圖。 數(shù)據(jù)分析統(tǒng)計(jì)工具:SPSS、minitab、JMP。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.406秒