W niniejszej analizie wykorzystano zarówno zwykłą regresję liniową (OLS), jak i dwa modele z zakresu ekonometrii przestrzennej.


Ekonometria przestrzenna

Ekonometria przestrzenna pozwala na uwzględnienie zależności przestrzennych między obserwacjami. Jest ona podobna do analizy szeregów czasowych, ale procesy zachodzące między obserwacjami są bardziej złożone, ponieważ mają one miejsce w przestrzeni dwuwymiarowej, a nie jednowymiarowej jaką jest czas. W ekonometrii przestrzennej, na daną jednostkę wpływają jednostki sąsiednie, ale ona również ma na nie wpływ. Z tego powodu modele przestrzenne szacuje się metodą największej wiarygodności lub dwustopniową KMNK, a nie w pojedynczym kroku jak ma to miejsce w standardowej metodzie najmniejszych kwadratów (KMNK/OLS).

W analizie wykorzystano dwa modele przestrzenne: model przestrzennej autoregresji (SAR) oraz model przestrzennej autokorelacji składnika losowego (SEM). Przyjmują one odpowiednio następujące postacie:

\[ \begin{aligned} SAR: \quad y_i = \alpha + x_i \beta + \rho W y_{j \neq i} + \varepsilon_{i} \end{aligned} \]

\[ \begin{aligned} SEM: \quad y_i = \alpha + x_i \beta + \mu_{i} \\ \mu_{i} = \lambda W \mu_{j \neq i} + \varepsilon_{i} \end{aligned} \]

Model SAR można traktować jako odpowiednik procesu AR w szeregach czasowych, zaś SEM jako MA. W przypadku gdy prawdziwa postać zależności przestrzennych przyjmuje formę autoregresyjną, to nieuwzględnienie istotnej zmiennej jaką są obserwacje \(y_{j \neq i}\) powoduje obciążenie estymatorów w modelu regresji liniowej (OLS). Gdyby zależność przyjmowała faktycznie postać przestrzennej autokorelacji składnika losowego, to teoretycznie oszacowania OLS byłyby przez cały czas nieobciążone, ale nieefektywne. Oznacza to że zawyżone byłoby odchylenie standardowe poszczególnych oszacowań, co mogłoby doprowadzić do odrzucenia zmiennej, która jest istotna.

Dużo więcej informacji na temat modeli przestrzennych można znaleźć na stronie Andrzeja Torója w zakładce Ekonometria przestrzenna, który prowadzi na SGH zajęcia między innymi z ekonometrii przestrzennej.


Macierz W

We wzorach modeli przestrzennych pojawiła się macierz \(W\), która sprowadza macierz zależności przestrzenne między obserwacjami do wektora. Bez użycia macierzy W równanie modelu przestrzennego byłoby nieidentyfikowalne, ze względu na liczbę parametrów do oszacowania większą od liczby obserwacji.

Standardowo macierze W wyznacza się na podstawie kryterium sąsiedztwa lub na podstawie odległości między obserwacjami. W tej analizie, modele przestrzenne zostały oszacowane przy użyciu macierzy, gdzie wagami połączeń między obserwacjami jest odwrotność odległości między geograficznymi środkami powiatów (centroidami). W przypadku gdy powiaty są odległe o ponad 100 km, waga połączeń między nimi przyjmuje zero.


Test Morana

Test Morana jest testem statystycznym, który mierzy czy reszty z danego modelu są skorelowane przestrzennie, czyli bada czy mamy do czynienia z czynnikiem przestrzennym, który może zaburzać oszacowania lub ich istotność. Hipoteza zerowa testu mówi o braku autokorelacji przestrzennej reszt. Tym samym przy niskim p value tę hipotezę należy odrzucić na rzecz alternatywnego założenia o występowaniu czynnika przestrzennego.


Wynik PiS w 2019

Na podstawie tabeli z wynikami modeli można zaobserwować, że w danych rzeczywiście występuje ukryte zjawisko przestrzenne, ponieważ p value testu Morana dla modelu OLS przyjmuje w zaokrągleniu zero. Co więcej, model autoregresji przestrzennej (SAR) jest niewystarczający do wyeliminowania ukrytych zależności. Dopiero model SEM pozwala na uwzględnienie procesu przestrzennego i poprawną estymację parametrów.

Jedynie w modelu SEM zmienna 500+ staje się istotna, tym samym można zauważyć że posługując się zwykłą regresją liniową moglibyśmy dojść do błędnego wniosku, że program 500+ nie wpływa na poziom poparcia PiS.

Warto również zwrócić uwagę na to że nieistotna w modelu SEM jest m.in. Powódź. Zmienna ta przyjmuje jeden dla powiatów, w których był ogłoszony stan alarmowy lub wystąpiły lokalne podtopienia. Może to wskazywać to na to, że wbrew głosom mówiącym o tym że obecność polityków PiS na wałach przeciwpowodziowych zwiększyła ich poparcie, taki efekt nie wystąpił lub był pomijalny statystycznie.

Ponadto, statystycznie nieistotne okazały się następujące zmienne: Zarobki, Zaludnienie oraz Osoby 60+.

Skrót log po nazwie niektórych zmiennych, oznacza że w modelu wykorzystano zlogarytmizowaną zmienną. Empiryczny poziom istotności (p value) podano pod oszacowaniem parametru.


Wyniki modeli
Zmienna objaśniana:
Poparcie PiS 2019
OLS spatial spatial
autoregressive error
OLS SAR SEM
Bezrobocie 0,331*** 0,153** 0,149**
p = 0,0002 p = 0,041 p = 0,045
Zarobki log 2,681 1,528 3,443
p = 0,356 p = 0,543 p = 0,129
Wykształcenie 0,817*** 0,763*** 0,652***
p = 0,000 p = 0,000 p = 0,000
Zaludnienie log 0,809* 0,163 0,314
p = 0,051 p = 0,653 p = 0,415
Frekwencja 0,228*** 0,147** 0,170**
p = 0,004 p = 0,028 p = 0,025
Powódź 3,339*** 1,353 1,188
p = 0,004 p = 0,173 p = 0,287
Partnerzy log -12,749*** -9,004*** -9,250***
p = 0,000 p = 0,000 p = 0,000
500+ 0,225 0,027 1,285***
p = 0,429 p = 0,914 p = 0,00001
Osoby 60+ 0,177 -0,153 0,093
p = 0,228 p = 0,243 p = 0,436
Stała -4,808 0,762 -11,864
p = 0,848 p = 0,972 p = 0,557
Moran pvalue 0 0 0.101
R2 0,840
Adjusted R2 0,836
sigma2 19,455 15,208
Akaike Inf. Crit. 2,234,586 2,168,719
Poziomy istotności p<0,1; p<0,05; p<0,01



Zmiana poparcia PiS

W drugim zestawie modeli zmienną objaśnianą była zmianę poparcia PiS między wyborami parlamentarnymi z 2015, a ostatnimi wyborami do PE. Również tutaj można zobaczyć, że uwzględnienie zależności przestrzennych wpływa na zmianę istotności statystycznej poszczególnych zmiennych oraz ich parametry. Podobnie jak wcześniej jedynie model SEM pozwolił wyeliminować ukryty czynnik przestrzenny.

Analizując wyniki modeli, warto zwrócić uwagę na wartość parametrów stojących przy zmiennych PSL 2015 oraz Kukiz 2015. Parametr o wartości \(0,435\), stojący przy zmiennej PSL 2015, oznacza że 1 pkt. proc. poparcia PSLu w 2015 r. przełożył się na wzrost poparcie PiS o 0,435 pkt. proc.

W modelu nieistotny okazał się wpływ programu 500+, co w połączeniu z wyniami pierwszej części analizy może sugerować, że tzw. efekt 500+ wystąpił w wyborach parlamentarnych z 2015 i trwa do tej pory na stałym poziomie, a wprowadzenie dodatkowego świadczenia na pierwsze dziecko nie przełożyło się na dodatkowy wzrost poparcia obozu rządzącego.


Wyniki modeli
Zmienna objaśniana:
Zmiana poparcia PiS
OLS spatial spatial
autoregressive error
OLS SAR SEM
Bezrobocie -0,103*** -0,104*** -0,042
p = 0,005 p = 0,004 p = 0,230
Zarobki log -3,828*** -3,796*** -2,691**
p = 0,002 p = 0,002 p = 0,013
Wykształcenie 0,059 0,066 0,123***
p = 0,175 p = 0,127 p = 0,006
Zaludnienie log -0,338* -0,350** -0,073
p = 0,059 p = 0,047 p = 0,686
Frekwencja -0,248*** -0,241*** -0,271***
p = 0,000 p = 0,000 p = 0,000
Powódź 0,244 0,216 -0,017
p = 0,609 p = 0,645 p = 0,975
PSL 2015 0,416*** 0,407*** 0,435***
p = 0,000 p = 0,000 p = 0,000
Kukiz 2015 0,473*** 0,466*** 0,354***
p = 0,000 p = 0,000 p = 0,00000
Partnerzy log -1,605*** -1,537*** -1,469***
p = 0,000 p = 0,000 p = 0,00000
500+ 0,044 0,029 0,125
p = 0,735 p = 0,819 p = 0,330
Osoby 60+ 0,221*** 0,200*** 0,153***
p = 0,001 p = 0,002 p = 0,009
Stała 41,767*** 41,097*** 31,782***
p = 0,0002 p = 0,0001 p = 0,001
Moran pvalue 0 0 0.397
R2 0,795
Adjusted R2 0,789
sigma2 4,442 3,366
Akaike Inf. Crit. 1,673,151 1,588,912
Poziomy istotności p<0,1; p<0,05; p<0,01


 

Jakub Kubajek

jkubajek.github.io