㈠ Logistic回歸分析指標重要程度的主要過程是什麼
Logistic回歸:實際上屬於判別分析,因擁有很差的判別效率而不常用。
1. 應用范圍:
① 適用於流行病學資料的危險因素分析
② 實驗室中葯物的劑量-反應關系
③ 臨床試驗評價
④ 疾病的預後因素分析
2. Logistic回歸的分類:
① 按因變數的資料類型分:
二分類
多分類
其中二分較為常用
② 按研究方法分:
條 件Logistic回歸
非條件Logistic回歸
兩者針對的資料類型不一樣,後者針對成組研究,前者針對配對或配伍研究。
3.Logistic回歸的應用條件是:
① 獨立性。各觀測對象間是相互獨立的;
② LogitP與自變數是線性關系;
③ 樣本量。經驗值是病例對照各50例以上或為自變數的5-10倍(以10倍為宜),不過隨著統計技術和軟體的發展,樣本量較小或不能進行似然估計的情況下可採用精確logistic回歸分析,此時要求分析變數不能太多,且變數分類不能太多;
④ 當隊列資料進行logistic回歸分析時,觀察時間應該相同,否則需考慮觀察時間的影響(建議用Poisson回歸)。
4. 擬和logistic回歸方程的步驟:
① 對每一個變數進行量化,並進行單因素分析;
② 數據的離散化,對於連續性變數在分析過程中常常需要進行離散變成等級資料。可採用的方法有依據經驗進行離散,或是按照四分、五分位數法來確定等級,也可採用聚類方法將計量資料聚為二類或多類,變為離散變數。
③ 對性質相近的一些自變數進行部分多因素分析,並探討各自變數(等級變數,數值變數)納入模型時的適宜尺度,及對自變數進行必要的變數變換;
④ 在單變數分析和相關自變數分析的基礎上,對P≤α(常取0.2,0.15或0.3)的變數,以及專業上認為重要的變數進行多因素的逐步篩選;模型程序每擬合一個模型將給出多個指標值,供用戶判斷模型優劣和篩選變數。可以採用雙向篩選技術:a進入變數的篩選用score統計量或G統計量或LRS(似然比統計量),用戶確定P值臨界值如:0.05、0.1或0.2,選擇統計量顯著且最大的變數進入模型;b剔除變數的選擇用Z統計量(Wald統計量),用戶確定其P值顯著性水平,當變數不顯者,從模型中予以剔除。這樣,選入和剔除反復循環,直至無變數選入,也無變數刪除為止,選入或剔除的顯著界值的確定要依具體的問題和變數的多寡而定,一般地,當納入模型的變數偏多,可提高選入界值或降低剔除標准,反之,則降低選入界值、提高刪除標准。但篩選標準的不同會影響分析結果,這在與他人結果比較時應當注意。
⑤ 在多因素篩選模型的基礎上,考慮有無必要納入變數的交互作用項;兩變數間的交互作用為一級交互作用,可推廣到二級或多級交互作用,但在實際應用中,各變數最好相互獨立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一級交互作用。
⑥ 對專業上認為重要但未選入回歸方程的要查明原因。
5. 回歸方程擬合優劣的判斷(為線性回歸方程判斷依據,可用於logistic回歸分析)
① 決定系數(R2)和校正決定系數( ),可以用來評價回歸方程的優劣。R2隨著自變數個數的增加而增加,所以需要校正;校正決定系數( )越大,方程越優。但亦有研究指出R2是多元線性回歸中經常用到的一個指標,表示的是因變數的變動中由模型中自變數所解釋的百分比,並不涉及預測值與觀測值之間差別的問題,因此在logistic回歸中不適合。
② Cp選擇法:選擇Cp最接近p或p+1的方程(不同學者解釋不同)。Cp無法用SPSS直接計算,可能需要手工。1964年CL Mallows提出:
Cp接近(p+1)的模型為最佳,其中p為方程中自變數的個數,m為自變數總個數。
③ AIC准則:1973年由日本學者赤池提出AIC計算準則,AIC越小擬合的方程越好。
在logistic回歸中,評價模型擬合優度的指標主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指標、Akaike信息准則(AIC)、SC指標等。Pearson χ2、偏差(deviance)主要用於自變數不多且為分類變數的情況,當自變數增多且含有連續型變數時,用HL指標則更為恰當。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指標值均服從χ2分布,χ2檢驗無統計學意義(P>0.05)表示模型擬合的較好,χ2檢驗有統計學意義(P≤0.05)則表示模型擬合的較差。AIC和SC指標還可用於比較模型的優劣,當擬合多個模型時,可以將不同模型按其AIC和SC指標值排序,AIC和SC值較小者一般認為擬合得更好。
6. 擬合方程的注意事項:
① 進行方程擬合對自變數篩選採用逐步選擇法[前進法(forward)、後退法(backward)、逐步回歸法(stepwise)]時,引入變數的檢驗水準要小於或等於剔除變數的檢驗水準;
② 小樣本檢驗水準α定為0.10或0.15,大樣本把α定為0.05。值越小說明自變數選取的標准越嚴;
③ 在逐步回歸的時可根據需要放寬或限制進入方程的標准,或硬性將最感興趣的研究變數選入方程;
④ 強影響點記錄的選擇:從理論上講,每一個樣本點對回歸模型的影響應該是同等的,實際並非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應刪去,沒有錯誤的強影響點可能和自變數與應變數的相關有關,不可輕易刪除。
⑤ 多重共線性的診斷(SPSS中的指標):a容許度:越近似於0,共線性越強;b特徵根:越近似於0,共線性越強;c條件指數:越大,共線性越強;
⑥ 異常點的檢查:主要包括特異點(outher)、高杠桿點(high leverage points)以及強影響點(influential points)。特異點是指殘差較其他各點大得多的點;高杠桿點是指距離其他樣品較遠的點;強影響點是指對模型有較大影響的點,模型中包含該點與不包含該點會使求得的回歸系數相差很大。單獨的特異點或高杠桿點不一定會影響回歸系數的估計,但如果既是特異點又是高杠桿點則很可能是一個影響回歸方程的「有害」點。對特異點、高杠桿點、強影響點診斷的指標有Pearson殘差、Deviance殘差、杠桿度統計量H(hat matrix diagnosis)、Cook 距離、DFBETA、Score檢驗統計量等。這五個指標中,Pearson殘差、Deviance殘差可用來檢查特異點,如果某觀測值的殘差值>2,則可認為是一個特異點。杠桿度統計量H可用來發現高杠桿點, H值大的樣品說明距離其他樣品較遠,可認為是一個高杠桿點。Cook 距離、DFBETA指標可用來度量特異點或高杠桿點對回歸模型的影響程度。Cook距離是標准化殘差和杠桿度兩者的合成指標,其值越大,表明所對應的觀測值的影響越大。DFBETA指標值反映了某個樣品被刪除後logistic回歸系數的變化,變化越大(即DFBETA指標值越大),表明該觀測值的影響越大。如果模型中檢查出有特異點、高杠桿點或強影響點,首先應根據專業知識、數據收集的情況,分析其產生原因後酌情處理。如來自測量或記錄錯誤,應剔除或校正,否則處置就必須持慎重態度,考慮是否採用新的模型,而不能只是簡單地刪除就算完事。因為在許多場合,異常點的出現恰好是我們探測某些事先不清楚的或許更為重要因素的線索。
7. 回歸系數符號反常與主要變數選不進方程的原因:
① 存在多元共線性;
② 有重要影響的因素未包括在內;
③ 某些變數個體間的差異很大;
④ 樣本內突出點上數據誤差大;
⑤ 變數的變化范圍較小;
⑥ 樣本數太少。
8. 參數意義
① Logistic回歸中的常數項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應指標發生與不發生事件的概率之比的對數值。
② Logistic回歸中的回歸系數(bi)表示,其它所有自變數固定不變,某一因素改變一個單位時,效應指標發生與不發生事件的概率之比的對數變化值,即OR或RR的對數值。需要指出的是,回歸系數β的大小並不反映變數對疾病發生的重要性,那麼哪種因素對模型貢獻最大即與疾病
追問:
聯系最強呢? (InL(t-1)-InL(t))三種方法結果基本一致。
③ 存在因素間交互作用時,Logistic回歸系數的解釋變得更為復雜,應特別小心。
④ 模型估計出OR,當發病率較低時,OR≈RR,因此發病率高的疾病資料不適合使用該模型。另外,Logistic模型不能利用隨訪研究中的時間信息,不考慮發病時間上的差異,因而只適於隨訪期較短的資料,否則隨著隨訪期的延長,回歸系數變得不穩定,標准誤增加。
9. 統計軟體
能夠進行logistic回歸分析的軟體非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。
㈡ 線性回歸異常值檢驗car函數使用
這個函數來自R語言car package
是用於檢驗線性回歸中的異常數值的。
你可以使用help(car),以及example(car)依次查看幫助文件以及例子文件
㈢ SPSS線性回歸結果解讀以及杠桿效應展示
先看 R方=0.984 說明模型的擬合效果不錯,根據系數表 得到方程為
人均衛生費用=醫療保障支出*1.441+388.509
㈣ spss非線性回歸分析,anova表無殘差項,不能顯示相關系數,怎麼解決
SPSS軟體內的一個smaple t檢驗和單因素方差分析測試這兩個並不適用於你的數據,你應該先使用密度和導熱系數散點圖檢查之間的關系(線性或非線性關系)的存在的可能性,如果有是密度和傳熱系數之間存在一定的線性關系,可以用SPSS來看看它們之間的相關性是關繫到數字的強度:
二元...後
相關分析完成後,你仍然需要檢查散點圖,看不出有什麼異常值或極端值?扭曲你的相關系數。如果您懷疑異常值或極端值?可能會扭曲你的相關系數,則需要使用SPSS線性回歸檢驗庫克的距離和杠桿值,數據點對於那些較大的Cook距離以及杠桿值?可他們考慮重新之前刪除 - 分析。
如果散點圖顯示了可能存在的非線性關系,你先檢查,看看是否有沒有公式專業書籍在這方面,如果是的話,你可以看看非線性回歸採用SPSS之間它們多少是有關的強度;如果沒有公式,這個問題比較復雜,可以考慮請專業的專家的幫助。
如果散點圖顯示的密度和傳熱系數之間的相關性不強,你能相信這兩者之間沒有任何關系。
從我的答案,你可以看到,散點圖的結果是非常重要的,有種你的問題,這是沒有統計模型無法替代的。
㈤ MATLAB多元線性回歸剔除異常點的代碼
你畫的是哪個變數的殘差圖,不是有3個變數嗎,異常值的標準是什麼,這些你都沒說清。
㈥ 如何用統計方法去除一組數中的異常值
可以選擇以下方法。用線性回歸的辦法求得某一點到直線最遠,去除這一點即可。異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。
要是一般地說,可以用公式計算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
(6)線性回歸異常點杠桿點擴展閱讀:
計算統計量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——樣本平均值;
s——樣本標准差;
Gn——格拉布斯檢驗統計量。
確定檢出水平α,查表(見GB4883)得出對應n,α的格拉布斯檢驗臨界值G1-α(n)。當Gn>G1-α(n),則判斷Xn為異常值,否則無異常值。給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值,應剔除。