Táto stránka slúži na ilustráciu metód lineárnej algebry, ktoré sa dajú úspešne (?) použiť pri analýze volebných dát (úspešnosť otestujeme v noci zo soboty na nedeľu). Prednostne je určená poslucháčom kurzu EFM-160 na FMFI UK, ale môže byť zaujímavá aj pre iných návštevníkov.
Ciele
Analýzou dostupných volebných dát z rokov 1998 až 2012 sa pokúsime získať informácie o zložení voličskej základne v SR. Populáciu voličov rozdelíme na rôzne faktory (alebo hlavné komponenty) a odhadneme ich zastúpenie v jednotlivých obvodoch/okresoch/obciach/okrskoch Slovenska. Počas volebnej noci z 15. 3. 2014 na 16. 3. 2014 (resp. z 29. 3. 2014 na 30. 4. 2014 v druhom kole) bude Štatistický úrad v reálnom čase zverejňovať čiastkové volebné výsledky. Na základe takýchto čiastkových dát sa pokúsime odhadnúť ako sa z hľadiska volieb správali jednotlivé faktory (hlavné komponenty) a odhadnúť konečné výsledky skôr ako sa sčítanie skončí. Cieľom tohto experimentovania nie je predpovedať výsledok volieb pred desiatou hodinou v sobotu 15. 3. 2014 (resp. 29. 3. 2014), ale predpovedať konečný výsledok na základe čiastkových dát lepšie ako obyčajným kumulovaním (toto bude robiť Štatistický úrad a budú o tom hovoriť rôzni ujovia v telke). Niečo podobné sme spravili v počas parlamentných volieb v roku 2012, chyba odhadu po spočítaní zhruba polovice hlasov bola pre väčšinu strán menšia ako 0,1%, väčsšie odchýlky sme mali pre SMER, SMK a Most, veľkú chybu sme mali v odhadovaní počtu hlasov a účasti.
Dostupné dáta
Na stránke Štatistického Úradu SR sa dá dopátrať ku konzistentným dátam s výsledkami nasledujúcich celoštátnych volieb a referend: Parlament 1998, Parlament 2002, Parlament 2006, Parlament 2012, Prezident 1999, Prezident 2004, Prezident 2009, EuroParlament 2004, Europarlament 2009, Referendum 2000 (predčasné voľby HZDS), Referendum 2003 (vstup do EÚ)), Referendum 2004 (Predčasné voľby KOZ), Referendum 2010 (3 otázky SaS). Tieto dáta idú na úroveň obcí (tých je zhruba 2925, medzi voľbami sa čísla menia vzhľadom na občasné zlučovanie a rozdeľovanie obcí). Z parlamentných volieb v rokoch 2006 a 2010 boli výsledky pred rekonštrukciou webu ŠÚ SR dostupné dokonca na úrovni okrskov (spolu s preferenčnými hlasmi - krúžkami), čo by sa dalo použiť pre podrobnejšiu analýzu volebného správania vo veľkých obciach, mestách a mestských častiach. Analýza takýchto dát by si však vyžadovala veľa práce navyše - počty, čísla a hranice okrskov sa medzi jednotlivými voľbami spravidla odlišujú.
Okrskové komisie po sčítaní hlasov a spísaní volebnej zápisnice oznámia výsledok volieb vo svojom okrsku Štatistickému úradu. Ten ich, po obvodoch, zverejní na volebnej stánke Voľby 2014 (táto stránka môže byť počas volebnej noci preťažená, počas posledných pár volieb však nespadla a fungovala). V prvom kole sme nepoznali formát zverejňovaných výsledkov, preto bolo nutné ich priebežné manuálne sťahovanie a ukladanie. Pre druhé kolo sa podarilo získať podobný prístup ako majú médiá - priebežne obnovované dáta po obvodoch budú v súbore typu CSV. (ak by niekto vedel prinútiť Google spreadsheet aby si rozumel s nejakou SQL databázou a webom ŠÚ SR, help wanted and needed).
Popis metódy, matematické pozadie
Ak chceme matematicky popísať volebné správanie, rýchlo narazíme na problém mnohorozmernosti, resp. množstvo dát, ktoré sa na pozorovateľa zvalí môže byť ohromujúce.
Výsledok volieb v každej obci (obvode), tých je cca. 2926 (49), môžeme reprezentovať n-ticou čísel. Takto získame 2926 (49) vektorov v R^n. V prvom kole sme mali n=16, štrnásť zložiek zodpovedá jednotlivým kandidátom, zvyšné dve označujú počet voličov a platných hlasov. Predstaviť si, uchopiť alebo analzyovať túto konfiguráciu je pravdepodobne nad ľudské sily. Ak sa obmedzíme na menšiu časť dát (napr. účasť, výsledky pre jednotlivých kandidátov alebo pre viacero kandidátov spoločne) relatívne rozumne sa dajú zobraziť štvorrozmerné dáta. (obvody, obce)
Alternatívne sa na volebné výsledky možno pozrieť po "stranách" - takto by sme získali 16 vektorov, z ktorých každý má 2926 (49) zložiek, teda leží v R^2926 (R^49). Vizualizovať takéto vektory v zásade možné je, dá sa to vidieť napríklad tu. Numerickú hodnotu zložky vektora reprezentujeme graficky (farbou, krúžkom, intenzitou farby a pod.) a umiestnime na mapu. Pri takomto pohľade si môžeme všimnúť rôzne pozoruhodnosti. Napríklad konzistentne zvláštne správanie sa voličov v obci Sútor (2002 HZD, 2006 HZD, 2010 SMK, 2012 SDKÚ, 2014 Šimko) si v tabuľke všimne málokto, na mape však pri prezeraní si jednotlivých dát udrie do očí.
Lineárna algebra nám však hovorí, že štandardná báza nie je vždy nutne najlepšia, a vhodnou zmenou súradníc sa dá získať lepší vhľad do dát. Otázky potom sú: "Ktoré bázy R^n, resp. R^2926 (R^49) sú pre popísanie a pochopenie volebného správania najvhodnejšie? Aká informácia sa z tabuľky 16 x 2926 (16 x 49) dá nahliadnuť, abstrahovať a prípadne zobraziť? Je vhodné použitie spektrálnych metód (vlastné hodnoty, PCA, faktorová analýza)? Existuje báza R^2926 (R^49), ktorá je univerzálne vhodná pre všetky voľby a obsahuje v sebe informáciu o 'vzorcoch volebného správania'? Ako ju nájsť, alebo overiť, že sme takú našli?"
Dobrým nástrojom na analýzu maticových dát je Singulárny rozklad (SVD), preto sa od začiatku núkal ako prirodzený kandidát. Výpočty v roku 2012 a 2014 (I. kolo) boli založené na singulárnom rozklade matice historických dát (po obvodoch). Výsledky odhadov možno posúdiť v príslušných tabuľkách a komentároch - stĺpce Q zodpovedajú novej báze R^49. Výpočty pre obce sme nerealizovali kvôli neprístupnosti dát, ale pravdepodobne by boli schopné lepšie odhaliť vhodnosť/nevhodnosť metódy vzhľadom na dimenzionalitu problému.
Volebné dáta však majú pozoruhodnú vlastnosť - vždy ide o nezáporné čísla, rozhodujúce sú nielen absolútne čísla ale aj rôzne pomery (účasť, percentuálny zisk, relatívna sila kandidáta v danom regióne). Takéto dáta sa nazývajú kompozičné dáta a existuje viacero príkladov, v ktorých sa ukazuje nevhodnosť klasickej PCA a SVD analýzy takýchto dát. Ak sa na volebné dáta treba pozerať ako na kompozičné dáta, potrebujeme zvoliť iné metódy (pracovne nazvané logSVD, logPCA) a zistiť či fungujú lepšie ...
Technická realizácia
Do vhodnej tabuľky si dáme dostupné dáta z niekoľkých predchádzajúcich volieb získané zo Štatistického úradu, vznikne viacero veľkolepých matíc X typu 49 x 102 (obvody), 75 x 102 (okresy), 2925 x xxx (obce).
V nejakom softvéri (Octave, R, Mathematica) nájdeme ich singulárny rozklad, singulárne hodnoty, singulárne vektory. Výsledky predbežnej analýzy budú niekde tu: Súbory k voľbám.
Do tabuľky Voľby 2014, I. kolo a Voľby 2014, II. kolo budeme priebežne vkladať údaje z jednotlivých obvodov, z ktorých pripravené vzorce (metóda najmenších štvorcov), budú priebežne počítať odhady parametrov a celkových volebných výsledkov: celkovej účasti voličov, hlasov pre jednotlivých kandidátov.
"Under construction and developement", sledujte priebežne novinky.
Mapky
Študenti aplikovanej informatiky spravili stránku, kde sa dajú pozrieť výsledky volieb na úrovni obcí z niektorých minulých volieb. (skript je pomalý, treba trpezlivosť a pomerne rýchle pripojenie)
Linky