柏拉圖的空間想像: 不完整空間資料之鄰近矩陣選取

2010年1月12日星期二

不完整空間資料之鄰近矩陣選取

前言
當我們在處理空間資料分析時，經常會遇到一種情況是，無法蒐集到所有的空間資料(如下圖)，可能由於資料蒐集的難度，或是需要很多的經費支出，因此在經費不足下，只能做抽樣調查，有時候可能是資料的遺失。當我們要探討這些資料的空間延遲模型時，就必然會面臨處理空間鄰近矩陣的問題，我們熟知的空間鄰近矩陣有四種，Rook、Queen、Distance和K_nearest，在面臨空鄉鎮資料的情況下，選擇任何一種做為臨近矩陣，都可能會影響其分析結果。

資料選取
研究資料選擇2000年民進黨相對國民黨得票率當依變數，選取8各社經變數EDU456、Income89、AGRI89、INDUS89、Serveice89、NoMove89、Work89及NoWork89作為自變數，第一組為完整的358鄉鎮資料，第二組為扣除100各鄉鎮，共258各鄉鎮資料，兩組分別選擇4個空間鄰近矩陣做空間延遲模型，比較AIC與空間延遲參數的值，來探討在資料缺乏下，哪一個鄰近矩陣具有較佳的解釋能力。

鄰近矩陣討論
第一組Full_data，在Rook of order 1下的鄰居數呈現常態分佈(如下圖)，眾數為5各鄰居，在Queen of order 1下亦是呈現常態分佈，眾數為5各鄰居，Distance threshold設定在15km(cite from 空間迴歸的殘差分析 http://utopia1234.blogspot.com/2009/11/blog-post_19.html)，鄰居數的眾數為11，因此在Full_data這組K_nearest的K值選擇為3者相加取平均值，得K等於7。第二組Lack_data的Rook眾數有4各鄰居，Queen有4各鄰居，Distance_15km有6各鄰居，因此K_nearest的K為三者相加取平均為5。

結果
兩組的鄰近矩陣決定之後，開始分析空間延遲模型，我使用兩個指標來探討四個鄰近矩陣的優劣，一個是Akaike info criterion(下圖)，一個是空間延遲參數(下下圖)。由下圖可以看到，Full_data的AIC都比Lack_data低，表示Full_data所跑出的結果，更接近真實的情況，這一點不難理解，本來缺少資料就比較不如完整的資料，而且其中使用Rook或是Queen並沒有太大的差別，但使用Distance及K_nearest作為鄰近矩陣時，解釋效果則較差；但是在Lack_data時，情況就有不同，Distance反而優於其他三個鄰近矩陣，其AIC值不但最低且變化的幅度也是最小的，Rook與Queen則次之，使用K_nearest最不好。第二個指標空間延遲參數(下下圖)，也看到一樣的情況，Lack_data在使用Distance的鄰近矩陣下，非常接近Full_data的參數值，近似效果較佳，而其餘三者均差異過大。因此推論在分析缺少完整的空間資料下，宜使用距離做為鄰近矩陣。

R97228024 黃宜庭

資料來源:中央選舉委員會

柏拉圖的空間想像

2010年1月12日星期二

不完整空間資料之鄰近矩陣選取

沒有留言:

張貼留言

參訪人數

文章類別

版主的話

發佈文章

訪客地圖

搜尋此網誌

網誌存檔

柏拉圖的空間想像

2010年1月12日 星期二

不完整空間資料之鄰近矩陣選取

沒有留言:

張貼留言

參訪人數

文章類別

版主的話

發佈文章

訪客地圖

搜尋此網誌

網誌存檔

2010年1月12日星期二