Parlamentné voľby 2012 a lineárna algebra

"Experimentovanie so singulárnym rozkladom"

Táto stránka slúži na ilustráciu metód lineárnej algebry, ktoré sa dajú úspešne (?) použiť pri analýze volebných dát (úspešnosť otestujeme v noci zo soboty na nedeľu). Prednostne je určená poslucháčom kurzu MAT-160 na FMFI UK, ale môže byť zaujímavá aj pre iných návštevníkov.

Analýzou dostupných volebných dát z rokov 1998 až 2010 sa pokúsime získať informácie o zložení voličskej základne v SR. Populáciu voličov rozdelíme na rôzne faktory (alebo komponenty) a odhadneme ich zastúpenie v jednotlivých obciach Slovenska. Počas volebnej noci z 10. 3. 2012 na 11. 3. 2012 bude Štatistický úrad v reálnom čase zverejňovať volebné výsledky v jednotlivých obciach. Na základe takýchto čiastkových dát sa pokúsime odhadnúť ako sa z hľadiska volieb správali jednotlivé faktory (komponenty). Cieľom tohto experimentovania nie je predpovedať výsledok volieb pred desiatou hodinou v sobotu 10. 3. 2012, ale predpovedať konečný výsledok na základe čiastkových dát lepšie ako obyčajným kumulovaním (toto bude robiť Štatistický úrad a budú o tom hovoriť rôzni ujovia v telke). Sekundárnym cieľom bude zistenie medzivolebnej dynamiky - t.j. presuny voličov medzi stranami, presuny k nevoličstvu a pod., otestovanie spoľahlivosti našej metódy (typ konvergencie, jej rýchlosť, prekvapivé výkyvy), posúdenie štandardnosti resp. neštandardnosti volieb 2012 a pod.

Na stránke Štatistického Úradu SR sa dá dopátrať ku konzistentným dátam s výsledkami nasledujúcich celoštátnych volieb a referend: Parlament 1998, Parlament 2002, Parlament 2006, Parlament 2012, Prezident 1999, Prezident 2004, Prezident 2009, EuroParlament 2004, Europarlament 2009, Referendum 2000 (predčasné voľby HZDS), Referendum 2003 (vstup do EÚ)), Referendum 2004 (Predčasné voľby KOZ), Referendum 2010 (3 otázky SaS). Tieto dáta idú na úroveň obcí (tých je zhruba 2920, medzi voľbami sa čísla menia vzhľadom na občasné zlučovanie a rozdeľovanie obcí). Z parlamentných volieb v rokoch 2006 a 2010 sú výsledky dostupné dokonca na úrovni okrskov (spolu s preferenčnými hlasmi - krúžkami), čo by sa dalo použiť pre podrobnejšiu analýzu volebného správania vo veľkých obciach, mestách a mestských častiach. Analýza takýchto dát by si však vyžadovala veľa práce navyše - počty, čísla a hranice okrskov sa medzi jednotlivými voľbami spravidla odlišujú.

Okrskové komisie po sčítaní hlasov a spísaní volebnej zápisnice oznámia výsledok volieb vo svojom okrsku Štatistickému úradu. Ten ich (snáď) zverejní na volebnej stánke Voľby 2012 (táto stránka môže byť počas volebnej noci preťažená a spadnúť). Keďže nepoznám formát, v akom budú údaje zverejňované, bude potrebné ich priebežné manuálne sťahovanie a ukladanie vo formáte vhodnom na ďaľšie spracovanie (help wanted and needed).

Tu bude teória ...

Do tabuľky Volebne data 1998 - 2010 si dáme dostupné dáta z predchádzajúcich volieb zo Štatistického úradu, vznikla veľkolepá matica X typu 2925 x 1xx.

V štatistickom programe R (viac tu) nájdeme jej singulárny rozklad, vlastné hodnoty, vlastné vektory. Výsledky predbežnej analýzy budú niekde tu: Súbory k voľbám.

Do tabuľky Voľby 2012 budeme vkladať údaje z jednotlivých obcí, z ktorých pripravené vzorce (metóda najmenších štvorcov), budú priebežne počítať odhady parametrov a celkových volebných výsledkov: celkovej účasti voličov, hlasov pre jednotlivé strany.

Zatiaľ "under construction", sledujte novinky v priebehu týždňa.