統計學(xué)常用的數據分析方法大總結!

5年前 (2019-07-30)閱讀997回復0
長(cháng)歌瀟瀟
長(cháng)歌瀟瀟
  • 管理員
  • 發(fā)消息
  • 注冊排名120
  • 經(jīng)驗值175
  • 級別管理員
  • 主題35
  • 回復0
樓主
印刷廠(chǎng)直印加工●彩頁(yè)1000張只需要69元●名片5元每盒-更多產(chǎn)品印刷報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

  一、描述統計

  描述統計是通過(guò)圖表或數學(xué)方法,對數據資料進(jìn)行整理、分析,并對數據的分布狀態(tài)、數字特征和隨機變量之間關(guān)系進(jìn)行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關(guān)分析三大部分。

  1.集中趨勢分析

  集中趨勢分析主要靠平均數、中數、眾數等統計指標來(lái)表示數據的集中趨勢。例如被試的平均成績(jì)多少?是正偏分布還是負偏分布?

  2.離中趨勢分析

  離中趨勢分析主要靠全距、四分差、平均差、方差(協(xié)方差:用來(lái)度量?jì)蓚€(gè)隨機變量關(guān)系的統計量)、標準差等統計指標來(lái)研究數據的離中趨勢。例如,我們想知道兩個(gè)教學(xué)班的語(yǔ)文成績(jì)中,哪個(gè)班級內的成績(jì)分布更分散,就可以用兩個(gè)班級的四分差或百分點(diǎn)來(lái)比較。

  3.相關(guān)分析

  相關(guān)分析探討數據之間是否具有統計學(xué)上的關(guān)聯(lián)性。這種關(guān)系既包括兩個(gè)數據之間的單一相關(guān)關(guān)系——如年齡與個(gè)人領(lǐng)域空間之間的關(guān)系,也包括多個(gè)數據之間的多重相關(guān)關(guān)系——如年齡、抑郁癥發(fā)生率、個(gè)人領(lǐng)域空間之間的關(guān)系;既包括A大B就大(小),A小B就小(大)的直線(xiàn)相關(guān)關(guān)系,也可以是復雜相關(guān)關(guān)系(A=Y-B*X);既可以是A、B變量同時(shí)增大這種正相關(guān)關(guān)系,也可以是A變量增大時(shí)B變量減小這種負相關(guān),還包括兩變量共同變化的緊密程度——即相關(guān)系數。

  實(shí)際上,相關(guān)關(guān)系唯一不研究的數據關(guān)系,就是數據協(xié)同變化的內在根據——即因果關(guān)系。獲得相關(guān)系數有什么用呢?簡(jiǎn)而言之,有了相關(guān)系數,就可以根據回歸方程,進(jìn)行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關(guān)分析是一種完整的統計研究方法,它貫穿于提出假設,數據研究,數據分析,數據研究的始終。

  例如,我們想知道對監獄情景進(jìn)行什么改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風(fēng)時(shí)間、探視時(shí)間進(jìn)行排列組合,然后讓每個(gè)囚室一種實(shí)驗處理,然后用因素分析法找出與囚徒暴力傾向的相關(guān)系數最高的因素。

  假定這一因素為囚室人口密度,我們又要將被試隨機分入不同人口密度的十幾個(gè)囚室中生活,繼而得到人口密度和暴力傾向兩組變量(即我們討論過(guò)的A、B兩列變量)。然后,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個(gè)很有價(jià)值的圖表,當某典獄長(cháng)想知道,某囚舍擴建到N人/間囚室,暴力傾向能降低多少。我們可以當前人口密度和改建后人口密度帶入相應的回歸方程,算出擴建前的預期暴力傾向和擴建后的預期暴力傾向,兩數據之差即典獄長(cháng)想知道的結果。

  4.推論統計

  推論統計是統計學(xué)乃至于心理統計學(xué)中較為年輕的一部分內容。它以統計結果為依據,來(lái)證明或推翻某個(gè)命題。具體來(lái)說(shuō),就是通過(guò)分析樣本與樣本分布的差異,來(lái)估算樣本與總體、同一樣本的前后測成績(jì)差異,樣本與樣本的成績(jì)差距、總體與總體的成績(jì)差距是否具有顯著(zhù)性差異。

  例如,我們想研究教育背景是否會(huì )影響人的智力測驗成績(jì)。可以找100名24歲大學(xué)畢業(yè)生和100名24歲初中畢業(yè)生。采集他們的一些智力測驗成績(jì)。用推論統計方法進(jìn)行數據處理,最后會(huì )得出類(lèi)似這樣兒的結論:“研究發(fā)現,大學(xué)畢業(yè)生組的成績(jì)顯著(zhù)高于初中畢業(yè)生組的成績(jì),二者在0.01水平上具有顯著(zhù)性差異,說(shuō)明大學(xué)畢業(yè)生的一些智力測驗成績(jì)優(yōu)于中學(xué)畢業(yè)生組。”

  5.正態(tài)性檢驗

  很多統計方法都要求數值服從或近似服從正態(tài)分布,所以之前需要進(jìn)行正態(tài)性檢驗。

  常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動(dòng)差法。

  二、假設檢驗

  1.參數檢驗

  參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關(guān)系數等)進(jìn)行的檢驗。

  1)U驗 :使用條件:當樣本含量n較大時(shí),樣本值符合正態(tài)分布

  2)T檢驗:使用條件:當樣本含量n較小時(shí),樣本值符合正態(tài)分布

  A 單樣本t檢驗:推斷該樣本來(lái)自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標準值)有無(wú)差別;

  B 配對樣本t檢驗:當總體均數未知時(shí),且兩個(gè)樣本可以配對,同對中的兩者在可能會(huì )影響處理效果的各種條件方面扱為相似;

  C 兩獨立樣本t檢驗:無(wú)法找到在各方面極為相似的兩樣本作配對比較時(shí)使用。

  2.非參數檢驗

  非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。

  適用情況:順序類(lèi)型的數據資料,這類(lèi)數據的分布形態(tài)一般是未知的。

  A 雖然是連續數據,但總體分布形態(tài)未知或者非正態(tài);

  B 體分布雖然正態(tài),數據也是連續類(lèi)型,但樣本容量極小,如10以下;

  主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。

  三、信度分析

  信度(Reliability)即可靠性,它是指采用同樣的方法對同一對象重復測量時(shí)所得結果的一致性程度。信度指標多以相關(guān)系數表示,大致可分為三類(lèi):穩定系數(跨時(shí)間的一致性),等值系數(跨形式的一致性)和內在一致性系數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、復本信度法、折半信度法、α信度系數法。

  1.方法

  1)重測信度法編輯:這一方法是用同樣的問(wèn)卷對同一組被調查者間隔一定時(shí)間重復施測,計算兩次施測結果的相關(guān)系數。顯然,重測信度屬于穩定系數。重測信度法特別適用于事實(shí)式問(wèn)卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛(ài)好、習慣等在短時(shí)間內也不會(huì )有十分明顯的變化。如果沒(méi)有突發(fā)事件導致被調查者的態(tài)度、意見(jiàn)突變,這種方法也適用于態(tài)度、意見(jiàn)式問(wèn)卷。由于重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動(dòng)和他人的影響,而且間隔時(shí)間長(cháng)短也有一定限制,因此在實(shí)施中有一定困難。

  2)復本信度法編輯:讓同一組被調查者一次填答兩份問(wèn)卷復本,計算兩個(gè)復本的相關(guān)系數。復本信度屬于等值系數。復本信度法要求兩個(gè)復本除表述方式不同外,在內容、格式、難度和對應題項的提問(wèn)方向等方面要完全一致,而在實(shí)際調查中,很難使調查問(wèn)卷達到這種要求,因此采用這種方法者較少。

  3)折半信度法編輯:折半信度法是將調查項目分為兩半,計算兩半得分的相關(guān)系數,進(jìn)而估計整個(gè)量表的信度。折半信度屬于內在一致性系數,測量的是兩半題項得分間的一致性。這種方法一般不適用于事實(shí)式問(wèn)卷(如年齡與性別無(wú)法相比),常用于態(tài)度、意見(jiàn)式問(wèn)卷的信度分析。

  在問(wèn)卷調查中,態(tài)度測量最常見(jiàn)的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來(lái)計分,單獨或個(gè)別項目是無(wú)意義的。它是由美國社會(huì )心理學(xué)家李克特于1932年在原有的總加量表基礎上改進(jìn)而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個(gè)被調查者的態(tài)度總分就是他對各道題的回答所得分數的加總,這一總分可說(shuō)明他的態(tài)度強弱或他在這一量表上的不同狀態(tài)。)。

  進(jìn)行折半信度分析時(shí),如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然后將全部題項按奇偶或前后分為盡可能相等的兩半,計算二者的相關(guān)系數(rhh,即半個(gè)量表的信度系數),最后用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個(gè)量表的信度系數(ru)。

  4)α信度系數法:α信度系數是目前最常用的信度系數,其公式為:

  α=(k/(k-1))*(1-(∑Si^2)/ST^2)

  其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α系數評價(jià)的是量表中各題項得分間的一致性,屬于內在一致性系數。這種方法適用于態(tài)度、意見(jiàn)式問(wèn)卷(量表)的信度分析。

  總量表的信度系數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數如果在0.6以下就要考慮重新編問(wèn)卷。用于檢査測量的可信度,例如調查問(wèn)卷的真實(shí)性。

  2.分類(lèi)

  1)外在信度:不同時(shí)間測量時(shí)量表的一致性程度,常用方法重測信度

  2)內在信度:每個(gè)量表是否測量到單一的概念,同時(shí)組成兩表的內在體項一致性如何,常用方法分半信度。

  四、列聯(lián)表分析

  列聯(lián)表是觀(guān)測數據按兩個(gè)或更多屬性(定性變量)分類(lèi)時(shí)所列出的頻數表。

  1.簡(jiǎn)介

  若總體中的個(gè)體可按兩個(gè)屬性A、B分類(lèi),A有r個(gè)等級A1,A2,…,Ar,B有c個(gè)等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個(gè)個(gè)體的屬性屬于等級Ai和Bj,nij稱(chēng)為頻數,將r×c個(gè)nij排列為一個(gè)r行c列的二維列聯(lián)表,簡(jiǎn)稱(chēng)r×c表。若所考慮的屬性多于兩個(gè),也可按類(lèi)似的方式作出列聯(lián)表,稱(chēng)為多維列聯(lián)表。

  列聯(lián)表又稱(chēng)交互分類(lèi)表,所謂交互分類(lèi),是指同時(shí)依據兩個(gè)變量的值,將所研究的個(gè)案分類(lèi)。交互分類(lèi)的目的是將兩變量分組,然后比較各組的分布狀況,以尋找變量間的關(guān)系。用于分析離散變量或定型變量之間是否存在相關(guān)。

  列聯(lián)表分析的基本問(wèn)題是,判明所考察的各屬性之間有無(wú)關(guān)聯(lián),即是否獨立。如在前例中,問(wèn)題是:一個(gè)人是否色盲與其性別是否有關(guān)?在r×с表中,若以pi、pj和pij分別表示總體中的個(gè)體屬于等級Ai,屬于等級Bj和同時(shí)屬于A(yíng)i、Bj的概率(pi,pj稱(chēng)邊緣概率,pij稱(chēng)格概率),“A、B兩屬性無(wú)關(guān)聯(lián)”的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見(jiàn)點(diǎn)估計)分別為行和及列和(統稱(chēng)邊緣和)

  為樣本大小。根據K.皮爾森(1904)的擬合優(yōu)度檢驗或似然比檢驗(見(jiàn)假設檢驗),當h0成立,且一切pi>0和pj>0時(shí),統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱(chēng)為期望頻數。當n足夠大,且表中各格的Eij都不太小時(shí),可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關(guān)聯(lián)。在前面的色覺(jué)問(wèn)題中,曾按此檢驗,判定出性別與色覺(jué)之間存在某種關(guān)聯(lián)。

  2.需要注意

  若樣本大小n不很大,則上述基于漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用于所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見(jiàn)概率分布),可以計算觀(guān)測頻數出現任意一種特定排列的條件概率。把實(shí)際出現的觀(guān)測頻數排列,以及比它呈現更多關(guān)聯(lián)跡象的所有可能排列的條件概率都算出來(lái)并相加,若所得結果小于給定的顯著(zhù)性水平,則判定所考慮的兩個(gè)屬性存在關(guān)聯(lián),從而拒絕h0。

  對于二維表,可進(jìn)行卡方檢驗,對于三維表,可作Mentel-Hanszel分層分析。

  列聯(lián)表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關(guān)檢驗。

  五、相關(guān)分析

  研究現象之間是否存在某種依存關(guān)系,對具體有依存關(guān)系的現象探討相關(guān)方向及相關(guān)程度。

  1)單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量;

  2)復相關(guān) :三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量相關(guān);

  3)偏相關(guān):在某一現象與多種現象相關(guān)的場(chǎng)合,當假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱(chēng)為偏相關(guān)。

  六、方差分析

  使用條件:各樣本須是相互獨立的隨機樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。

  1.分類(lèi)

  1)單因素方差分析:一項試驗只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應變量的關(guān)系

  2)多因素有交互方差分析:一頊實(shí)驗有多個(gè)影響因素,分析多個(gè)影響因素與響應變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系

  3)多因素無(wú)交互方差分析:分析多個(gè)影響因素與響應變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系

  4)協(xié)方差分析:傳統的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機因素,使之影響了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進(jìn)行方差分析,是將線(xiàn)性回歸與方差分析結合起來(lái)的一種分析方法。

  七、回歸分析

  1.一元線(xiàn)性回歸分析

  只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續型變量,因變量y或其殘差必須服從正態(tài)分布。

  2.多元線(xiàn)性回歸分析

  使用條件:分析多個(gè)自變量與因變量Y的關(guān)系,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態(tài)分布 。

  1)變呈篩選方式

  選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法

  2)橫型診斷方法

  A 殘差檢驗:觀(guān)測值與估計值的差值要艱從正態(tài)分布

  B 強影響點(diǎn)判斷:尋找方式一般分為標準誤差法、Mahalanobis距離法

  C 共線(xiàn)性診斷:

  ? 診斷方式:容忍度、方差擴大因子法(又稱(chēng)膨脹系數VIF)、特征根判定法、條件指針CI、方差比例

  ? 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等

  3.Logistic回歸分析

  線(xiàn)性回歸模型要求因變量是連續的正態(tài)分布變里,且自變量和因變量呈線(xiàn)性關(guān)系,而Logistic回歸模型對因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況

  分類(lèi):

  Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在于參數的估計是否用到了條件概率。

  4.其他回歸方法

  非線(xiàn)性回歸、有序回歸、Probit回歸、加權回歸等

  八、聚類(lèi)分析

  聚類(lèi)與分類(lèi)的不同在于,聚類(lèi)所要求劃分的類(lèi)是未知的。

  聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標準,聚類(lèi)分析能夠從樣本數據出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì )得到不同的結論。不同研究者對于同一組數據進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數未必一致。

  從實(shí)際應用的角度看,聚類(lèi)分析是數據挖掘的主要任務(wù)之一。而且聚類(lèi)能夠作為一個(gè)獨立的工具獲得數據的分布狀況,觀(guān)察每一簇數據的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類(lèi)分析還可以作為其他算法(如分類(lèi)和定性歸納算法)的預處理步驟。

  1.定義

  依據研究對象(樣品或指標)的特征,對其進(jìn)行分類(lèi)的方法,減少研究對象的數目。

  各類(lèi)事物缺乏可靠的歷史資料,無(wú)法確定共有多少類(lèi)別,目的是將性質(zhì)相近事物歸入一類(lèi)。各指標之間具有一定的相關(guān)關(guān)系。

  變量類(lèi)型:定類(lèi)變量、定量(離散和連續)變量

  樣本個(gè)體或指標變量按其具有的特性進(jìn)行分類(lèi),尋找合理的度量事物相似性的統計量。

  2.性質(zhì)分類(lèi)

  Q型聚類(lèi)分析:對樣本進(jìn)行分類(lèi)處理,又稱(chēng)樣本聚類(lèi)分析使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等。

  R型聚類(lèi)分析:對指標進(jìn)行分類(lèi)處理,又稱(chēng)指標聚類(lèi)分析使用相似系數作為統計量衡量相似度,相關(guān)系數、列聯(lián)系數等。

  3.方法分類(lèi)

  1)系統聚類(lèi)法:適用于小樣本的樣本聚類(lèi)或指標聚類(lèi),一般用系統聚類(lèi)法來(lái)聚類(lèi)指標,又稱(chēng)分層聚類(lèi)。

  2)逐步聚類(lèi)法:適用于大樣本的樣本聚類(lèi)。

  3)其他聚類(lèi)法:兩步聚類(lèi)、K均值聚類(lèi)等。

  九、判別分析

  1.判斷分析

  根據已掌握的一批分類(lèi)明確的樣品建立判別函數,使產(chǎn)生錯判的事例最少,進(jìn)而對給定的一個(gè)新樣品,判斷它來(lái)自哪個(gè)總體。

  2.與聚類(lèi)分析區別

  1)聚類(lèi)分析可以對樣本逬行分類(lèi),也可以對指標進(jìn)行分類(lèi);而判別分析只能對樣本。

  2)聚類(lèi)分析事先不知道事物的類(lèi)別,也不知道分幾類(lèi);而判別分析必須事先知道事物的類(lèi)別,也知道分幾類(lèi)。

  3)聚類(lèi)分析不需要分類(lèi)的歷史資料,而直接對樣本進(jìn)行分類(lèi);而判別分析需要分類(lèi)歷史資料去建立判別函數,然后才能對樣本進(jìn)行分類(lèi)。

  3.進(jìn)行分析

  1)Fisher判別分析法

  以距離為判別準則來(lái)分類(lèi),即樣本與哪個(gè)類(lèi)的距離最短就分到哪一類(lèi),適用于兩類(lèi)判別;

  以概率為判別準則來(lái)分類(lèi),即樣本屬于哪一類(lèi)的概率最大就分到哪一類(lèi),適用于多類(lèi)判別。

  2)BAYES判別分析法

  BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類(lèi)判別分析,而且分析時(shí)考慮了數據的分布狀態(tài),所以一般較多使用;

  十、主成分分析

  主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉換為一組線(xiàn)性不相關(guān)的變量,轉換后的這組變量叫主成分。

  主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來(lái)衡量。

  1.原理

  在用統計分析方法研究多變量的課題時(shí),變量個(gè)數太多就會(huì )增加課題的復雜性。人們自然希望變量個(gè)數較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。

  設法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統計方法叫做主成分分析或稱(chēng)主分量分析,也是數學(xué)上用來(lái)降維的一種方法。

  2.缺點(diǎn)

  1、在主成分分析中,我們首先應保證所提取的前幾個(gè)主成分的累計貢獻率達到一個(gè)較高的水平(即變量降維后的信息量須保持在一個(gè)較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋?zhuān)ǚ駝t主成分將空有信息量而無(wú)實(shí)際含義)。

  2、主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過(guò)程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數m通常應明顯小于原始變量個(gè)數p(除非p本身較?。?,否則維數降低的“利”可能抵不過(guò)主成分含義不如原始變量清楚的“弊”。

  十一、因子分析

  一種旨在尋找隱藏在多變量數據中、無(wú)法直接觀(guān)察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關(guān)性的一種多元統計分析方法。

  與主成分分析比較:

  相同:都能夠起到治理多個(gè)原始變量?jì)仍诮Y構關(guān)系的作用

  不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關(guān)系,是比主成分分析更深入的一種多元統計方法

  用途:

  1)減少分析變量個(gè)數

  2)通過(guò)對變量間相關(guān)關(guān)系探測,將原始變量進(jìn)行分類(lèi)

  十二、時(shí)間序列分析

  動(dòng)態(tài)數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用于解決實(shí)際問(wèn)題;時(shí)間序列通常由4種要素組成:趨勢、季節變動(dòng)、循環(huán)波動(dòng)和不規則波動(dòng)。

  主要方法:移動(dòng)平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型

  時(shí)間序列是指同一變量按事件發(fā)生的先后順序排列起來(lái)的一組觀(guān)察值或記錄值。構成時(shí)間序列的要素有兩個(gè):

  其一是時(shí)間;

  其二是與時(shí)間相對應的變量水平。

  實(shí)際數據的時(shí)間序列能夠展示研究對象在一定時(shí)期內的發(fā)展變化趨勢與規律,因而可以從時(shí)間序列中找出變量變化的特征、趨勢以及發(fā)展規律,從而對變量的未來(lái)變化進(jìn)行有效地預測。

  時(shí)間序列的變動(dòng)形態(tài)一般分為四種:長(cháng)期趨勢變動(dòng),季節變動(dòng),循環(huán)變動(dòng),不規則變動(dòng)。

  1.時(shí)間序列預算法的應用

  系統描述:根據對系統進(jìn)行觀(guān)測得到的時(shí)間序列數據,用曲線(xiàn)擬合方法對系統進(jìn)行客觀(guān)的描述;

  系統分析:當觀(guān)測值取自?xún)蓚€(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說(shuō)明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機理;

  預測未來(lái):一般用ARMA模型擬合時(shí)間序列,預測該時(shí)間序列未來(lái)值;

  決策和控制:根據時(shí)間序列模型可調整輸入變量使系統發(fā)展過(guò)程保持在目標值上,即預測到過(guò)程要偏離目標時(shí)便可進(jìn)行必要的控制。

  2.特點(diǎn)

  假定事物的過(guò)去趨勢會(huì )延伸到未來(lái);

  預測所依據的數據具有不規則性;

  撇開(kāi)了市場(chǎng)發(fā)展之間的因果關(guān)系。

 ?、?時(shí)間序列分析預測法是根據市場(chǎng)過(guò)去的變化趨勢預測未來(lái)的發(fā)展,它的前提是假定事物的過(guò)去會(huì )同樣延續到未來(lái)。事物的現實(shí)是歷史發(fā)展的結果,而事物的未來(lái)又是現實(shí)的延伸,事物的過(guò)去和未來(lái)是有聯(lián)系的。市場(chǎng)預測的時(shí)間序列分析法,正是根據客觀(guān)事物發(fā)展的這種連續規律性,運用過(guò)去的歷史數據,通過(guò)統計分析,進(jìn)一步推測市場(chǎng)未來(lái)的發(fā)展趨勢。市場(chǎng)預測中,事物的過(guò)去會(huì )同樣延續到未來(lái),其意思是說(shuō),市場(chǎng)未來(lái)不會(huì )發(fā)生突然跳躍式變化,而是漸進(jìn)變化的。

  時(shí)間序列分析預測法的哲學(xué)依據,是唯物辯證法中的基本觀(guān)點(diǎn),即認為一切事物都是發(fā)展變化的,事物的發(fā)展變化在時(shí)間上具有連續性,市場(chǎng)現象也是這樣。市場(chǎng)現象過(guò)去和現在的發(fā)展變化規律和發(fā)展水平,會(huì )影響到市場(chǎng)現象未來(lái)的發(fā)展變化規律和規模水平;市場(chǎng)現象未來(lái)的變化規律和水平,是市場(chǎng)現象過(guò)去和現在變化規律和發(fā)展水平的結果。

  需要指出,由于事物的發(fā)展不僅有連續性的特點(diǎn),而且又是復雜多樣的。因此,在應用時(shí)間序列分析法進(jìn)行市場(chǎng)預測時(shí)應注意市場(chǎng)現象未來(lái)發(fā)展變化規律和發(fā)展水平,不一定與其歷史和現在的發(fā)展變化規律完全一致。隨著(zhù)市場(chǎng)現象的發(fā)展,它還會(huì )出現一些新的特點(diǎn)。因此,在時(shí)間序列分析預測中,決不能機械地按市場(chǎng)現象過(guò)去和現在的規律向外延伸。必須要研究分析市場(chǎng)現象變化的新特點(diǎn),新表現,并且將這些新特點(diǎn)和新表現充分考慮在預測值內。這樣才能對市場(chǎng)現象做出既延續其歷史變化規律,又符合其現實(shí)表現的可靠的預測結果。

 ?、跁r(shí)間序列分析預測法突出了時(shí)間因素在預測中的作用,暫不考慮外界具體因素的影響。時(shí)間序列在時(shí)間序列分析預測法處于核心位置,沒(méi)有時(shí)間序列,就沒(méi)有這一方法的存在。雖然,預測對象的發(fā)展變化是受很多因素影響的。但是,運用時(shí)間序列分析進(jìn)行量的預測,實(shí)際上將所有的影響因素歸結到時(shí)間這一因素上,只承認所有影響因素的綜合作用,并在未來(lái)對預測對象仍然起作用,并未去分析探討預測對象和影響因素之間的因果關(guān)系。因此,為了求得能反映市場(chǎng)未來(lái)發(fā)展變化的精確預測值,在運用時(shí)間序列分析法進(jìn)行預測時(shí),必須將量的分析方法和質(zhì)的分析方法結合起來(lái),從質(zhì)的方面充分研究各種因素與市場(chǎng)的關(guān)系,在充分分析研究影響市場(chǎng)變化的各種因素的基礎上確定預測值。

  需要指出的是,時(shí)間序列預測法因突出時(shí)間序列暫不考慮外界因素影響,因而存在著(zhù)預測誤差的缺陷,當遇到外界發(fā)生較大變化,往往會(huì )有較大偏差,時(shí)間序列預測法對于中短期預測的效果要比長(cháng)期預測的效果好。因為客觀(guān)事物,尤其是經(jīng)濟現象,在一個(gè)較長(cháng)時(shí)間內發(fā)生外界因素變化的可能性加大,它們對市場(chǎng)經(jīng)濟現象必定要產(chǎn)生重大影響。如果出現這種情況,進(jìn)行預測時(shí),只考慮時(shí)間因素不考慮外界因素對預測對象的影響,其預測結果就會(huì )與實(shí)際狀況嚴重不符。

  十三、生存分析

  用來(lái)研究生存時(shí)間的分布規律以及生存時(shí)間和相關(guān)因索之間關(guān)系的一種統計分析方法

  1.包含內容

  1)描述生存過(guò)程,即研究生存時(shí)間的分布規律

  2)比較生存過(guò)程,即研究?jì)山M或多組生存時(shí)間的分布規律,并進(jìn)行比較

  3)分析危險因素,即研究危險因素對生存過(guò)程的影響

  4)建立數學(xué)模型,即將生存時(shí)間與相關(guān)危險因素的依存關(guān)系用一個(gè)數學(xué)式子表示出來(lái)。

  2.方法

  1)統計描述:包括求生存時(shí)間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時(shí)間的圖示法,不對所分析的數據作出任何統計推斷結論

  2)非參數檢驗:檢驗分組變量各水平所對應的生存曲線(xiàn)是否一致,對生存時(shí)間的分布沒(méi)有要求,并且檢驗危險因素對生存時(shí)間的影響。

  A 乘積極限法(PL法)

  B 壽命表法(LT法)

  3)半參數橫型回歸分析:在特定的假設之下,建立生存時(shí)間隨多個(gè)危險因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險回歸分析法

  4)參數模型回歸分析:已知生存時(shí)間服從特定的參數橫型時(shí),擬合相應的參數模型,更準確地分析確定變量之間的變化規律

  十四、典型相關(guān)分析

  相關(guān)分析一般分析兩個(gè)變量之間的關(guān)系,而典型相關(guān)分析是分析兩組變量(如3個(gè)學(xué)術(shù)能力指標與5個(gè)在校成績(jì)表現指標)之間相關(guān)性的一種統計分析方法。

  典型相關(guān)分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線(xiàn)性相關(guān)性研究轉化為對少數幾對綜合變量之間的簡(jiǎn)單線(xiàn)性相關(guān)性的研究,并且這少數幾對變量所包含的線(xiàn)性相關(guān)性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

  十五、ROC分析

  R0C曲線(xiàn)是根據一系列不同的二分類(lèi)方式(分界值或決定閾).以真陽(yáng)性率(靈敏度)為縱坐標,假陽(yáng)性率(1-特異度)為橫坐標繪制的曲線(xiàn)。

  1.用途

  1、R0C曲線(xiàn)能很容易地査出任意界限值時(shí)的對疾病的識別能力

  用途;

  2、選擇最佳的診斷界限值。R0C曲線(xiàn)越靠近左上角,試驗的準確性就越高;

  3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線(xiàn)下面積反映診斷系統的準確性。

  十六、其他分析方法

  多重響應分析、距離分析、項目分析、對應分析、決策樹(shù)分析、神經(jīng)網(wǎng)絡(luò )、系統方程、蒙特卡洛模擬等。

  決策樹(shù)分析與隨機森林:盡管有剪枝等等方法,一棵樹(shù)的生成肯定還是不如多棵樹(shù),因此就有了隨機森林,解決決策樹(shù)泛化能力弱的缺點(diǎn)。(可以理解成三個(gè)臭皮匠頂過(guò)諸葛亮)

  決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎上,通過(guò)構成決策樹(shù)來(lái)求取凈現值的期望值大于等于零的概率,評價(jià)項目風(fēng)險,判斷其可行性的決策分析方法,是直觀(guān)運用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)。在機器學(xué)習中,決策樹(shù)是一個(gè)預測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy = 系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。

  分類(lèi)樹(shù)(決策樹(shù))是一種十分常用的分類(lèi)方法。他是一種監管學(xué)習,所謂監管學(xué)習就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類(lèi)別,這些類(lèi)別是事先確定的,那么通過(guò)學(xué)習得到一個(gè)分類(lèi)器,這個(gè)分類(lèi)器能夠對新出現的對象給出正確的分類(lèi)。這樣的機器學(xué)習就被稱(chēng)之為監督學(xué)習。

  優(yōu)點(diǎn):決策樹(shù)易于理解和實(shí)現,人們在在學(xué)習過(guò)程中不需要使用者了解很多的背景知識,這同時(shí)是它的能夠直接體現數據的特點(diǎn),只要通過(guò)解釋后都有能力去理解決策樹(shù)所表達的意義。

  對于決策樹(shù),數據的準備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數據型和常規型屬性,在相對短的時(shí)間內能夠對大型數據源做出可行且效果良好的結果。

  易于通過(guò)靜態(tài)測試來(lái)對模型進(jìn)行評測,可以測定模型可信度;如果給定一個(gè)觀(guān)察的模型,那么根據所產(chǎn)生的決策樹(shù)很容易推出相應的邏輯表達式。

  缺點(diǎn):對連續性的字段比較難預測;對有時(shí)間順序的數據,需要很多預處理的工作;當類(lèi)別太多時(shí),錯誤可能就會(huì )增加的比較快;一般的算法分類(lèi)的時(shí)候,只是根據一個(gè)字段來(lái)分列。

0
0
收藏0
回帖

統計學(xué)常用的數據分析方法大總結! 期待您的回復!

取消
載入表情清單……
載入顏色清單……
插入網(wǎng)絡(luò )圖片

取消確定

圖片上傳中
編輯器信息
提示信息