顯示具有 技術心得 標籤的文章。 顯示所有文章
顯示具有 技術心得 標籤的文章。 顯示所有文章

2010年1月12日 星期二

不完整空間資料之鄰近矩陣選取

前言
當我們在處理空間資料分析時,經常會遇到一種情況是,無法蒐集到所有的空間資料(如下圖),可能由於資料蒐集的難度,或是需要很多的經費支出,因此在經費不足下,只能做抽樣調查,有時候可能是資料的遺失。當我們要探討這些資料的空間延遲模型時,就必然會面臨處理空間鄰近矩陣的問題,我們熟知的空間鄰近矩陣有四種,Rook、Queen、Distance和K_nearest,在面臨空鄉鎮資料的情況下,選擇任何一種做為臨近矩陣,都可能會影響其分析結果。
資料選取
研究資料選擇2000年民進黨相對國民黨得票率當依變數,選取8各社經變數EDU456、Income89、AGRI89、INDUS89、Serveice89、NoMove89、Work89及NoWork89作為自變數,第一組為完整的358鄉鎮資料,第二組為扣除100各鄉鎮,共258各鄉鎮資料,兩組分別選擇4個空間鄰近矩陣做空間延遲模型,比較AIC與空間延遲參數的值,來探討在資料缺乏下,哪一個鄰近矩陣具有較佳的解釋能力。

鄰近矩陣討論
第一組Full_data,在Rook of order 1下的鄰居數呈現常態分佈(如下圖),眾數為5各鄰居,在Queen of order 1下亦是呈現常態分佈,眾數為5各鄰居,Distance threshold設定在15km(cite from 空間迴歸的殘差分析 http://utopia1234.blogspot.com/2009/11/blog-post_19.html),鄰居數的眾數為11,因此在Full_data這組K_nearest的K值選擇為3者相加取平均值,得K等於7。第二組Lack_data的Rook眾數有4各鄰居 ,Queen有4各鄰居,Distance_15km有6各鄰居,因此K_nearest的K為三者相加取平均為5。


結果
兩組的鄰近矩陣決定之後,開始分析空間延遲模型,我使用兩個指標來探討四個鄰近矩陣的優劣,一個是Akaike info criterion(下圖),一個是空間延遲參數(下下圖)。由下圖可以看到,Full_data的AIC都比Lack_data低,表示Full_data所跑出的結果,更接近真實的情況,這一點不難理解,本來缺少資料就比較不如完整的資料,而且其中使用Rook或是Queen並沒有太大的差別,但使用Distance及K_nearest作為鄰近矩陣時,解釋效果則較差;但是在Lack_data時,情況就有不同,Distance反而優於其他三個鄰近矩陣,其AIC值不但最低且變化的幅度也是最小的,Rook與Queen則次之,使用K_nearest最不好。第二個指標空間延遲參數(下下圖),也看到一樣的情況,Lack_data在使用Distance的鄰近矩陣下,非常接近Full_data的參數值,近似效果較佳,而其餘三者均差異過大。因此推論在分析缺少完整的空間資料下,宜使用距離做為鄰近矩陣。




R97228024 黃宜庭
資料來源:中央選舉委員會














2009年11月19日 星期四

空間迴歸的殘差分析

使用迴歸模型時, 為了檢驗模型的正確性,會做殘差分析,若模型的殘差圖相當亂,沒有特別的圖案,則認為此模型對依變數的解釋是合理的。同理,在作空間迴歸時,也可以看殘差 圖,如果殘差圖是隨機分佈的,那麼此空間迴歸模型就是好的模型,若殘差圖有空間上的聚集,那麼表示尚有未考慮到的變數未加入模型中。
以2004年民進黨相對國民黨得票率當依變數,選取8各社經變數EDU456、Income92、AGRI89、INDUS89、Serveice89、NoMove89、Work89及NoWork89作為自變數,作迴歸分析,R2僅達到0.2483,檢驗其殘差圖,並計算殘差的Moran’s I =0.5155,表示殘差項並非隨機分佈,且呈現正的聚集,高數值與低數值分別群聚(下圖,Bandwidth 0 km),表示依變數有正的空間自相關,因此模式應修正為空間迴歸模型: Y=ρWY+Xβ+ε。
不過在使用空間迴歸模型時,必須考量空間權重矩陣(spatial weighting matrix)有不同的選擇型式,有離散型(Discrete)與連續型(Continuity)兩類,離散型還可分為鄰近矩陣(Contiguity Matrix)、距離矩陣(Distant Matrix)、次序矩陣(Order Matrix)等,鄰近矩陣可再細分為Rook Contiguity與Queen Contiguity,每一鄰近矩陣可再定義第幾個order的鄰近關係;距離矩陣可設Bandwidth=d,如果小於d則權重為1(wij=1 if dij,其餘為0(wij=0 otherwise);次序矩陣則可定義N個最近的鄰近單元以內權重為1,其餘為0。連續型矩陣的變化又更多了, wij=exp(-0.5(dij/b)2) 或 wij=[1-(dij/b)2] if dij,隨著定義的方程式不同,權重就會有變化。
因此究竟要如何選擇適宜的空間權重矩陣,就成為一個問題。
若以距離矩陣為例,取Bandwidth 5km、10km、20km…100km與150km製作空間權重矩陣,分別跑空間迴歸,檢驗個別的殘差圖(上圖),在Bandsidth=10km時,其殘差圖是最不規則的,因此若以10km為bandwidth跑出的迴歸模型會是最能解釋依變數的模型。


但肉眼的判斷過於主觀,若求不同bandwidth下之殘差值的Moran’s I(以Queen of first order為空間矩陣),並作圖(上圖),可以看到Bandwidth在10km~20km之間具有最小的Moran’s I,因此若選取此間距(10~20km)內的值為Bandwidth作空間迴歸,可以得到最佳(optimal)的模型。

r97228024 黃宜庭
參考書籍:Geographically Weighted Regression the analysis of spatially varying relationships
A. Stewart Fotheringham , Chris Brunsdon, Martin Charlton
John Wiley & Sons, LTD