2010年1月12日 星期二

不完整空間資料之鄰近矩陣選取

前言
當我們在處理空間資料分析時,經常會遇到一種情況是,無法蒐集到所有的空間資料(如下圖),可能由於資料蒐集的難度,或是需要很多的經費支出,因此在經費不足下,只能做抽樣調查,有時候可能是資料的遺失。當我們要探討這些資料的空間延遲模型時,就必然會面臨處理空間鄰近矩陣的問題,我們熟知的空間鄰近矩陣有四種,Rook、Queen、Distance和K_nearest,在面臨空鄉鎮資料的情況下,選擇任何一種做為臨近矩陣,都可能會影響其分析結果。
資料選取
研究資料選擇2000年民進黨相對國民黨得票率當依變數,選取8各社經變數EDU456、Income89、AGRI89、INDUS89、Serveice89、NoMove89、Work89及NoWork89作為自變數,第一組為完整的358鄉鎮資料,第二組為扣除100各鄉鎮,共258各鄉鎮資料,兩組分別選擇4個空間鄰近矩陣做空間延遲模型,比較AIC與空間延遲參數的值,來探討在資料缺乏下,哪一個鄰近矩陣具有較佳的解釋能力。

鄰近矩陣討論
第一組Full_data,在Rook of order 1下的鄰居數呈現常態分佈(如下圖),眾數為5各鄰居,在Queen of order 1下亦是呈現常態分佈,眾數為5各鄰居,Distance threshold設定在15km(cite from 空間迴歸的殘差分析 http://utopia1234.blogspot.com/2009/11/blog-post_19.html),鄰居數的眾數為11,因此在Full_data這組K_nearest的K值選擇為3者相加取平均值,得K等於7。第二組Lack_data的Rook眾數有4各鄰居 ,Queen有4各鄰居,Distance_15km有6各鄰居,因此K_nearest的K為三者相加取平均為5。


結果
兩組的鄰近矩陣決定之後,開始分析空間延遲模型,我使用兩個指標來探討四個鄰近矩陣的優劣,一個是Akaike info criterion(下圖),一個是空間延遲參數(下下圖)。由下圖可以看到,Full_data的AIC都比Lack_data低,表示Full_data所跑出的結果,更接近真實的情況,這一點不難理解,本來缺少資料就比較不如完整的資料,而且其中使用Rook或是Queen並沒有太大的差別,但使用Distance及K_nearest作為鄰近矩陣時,解釋效果則較差;但是在Lack_data時,情況就有不同,Distance反而優於其他三個鄰近矩陣,其AIC值不但最低且變化的幅度也是最小的,Rook與Queen則次之,使用K_nearest最不好。第二個指標空間延遲參數(下下圖),也看到一樣的情況,Lack_data在使用Distance的鄰近矩陣下,非常接近Full_data的參數值,近似效果較佳,而其餘三者均差異過大。因此推論在分析缺少完整的空間資料下,宜使用距離做為鄰近矩陣。




R97228024 黃宜庭
資料來源:中央選舉委員會














沒有留言:

張貼留言