About Christopher Kullenberg | CV and publications

Archive

SOUernas geografi 2

För några månader sedan extraherade jag alla ortsnamn ur Statens offentliga utredningar i ett försök att skapa en bild av utredningarnas geografiska "räckvidd". Men jag körde fast när det kom till att visualisera denna datamängd. Jag visste inte hur jag skulle gå vidare för att lägga "data på karta".

Men under sommaren har jag haft som hobbyprojekt att lära mig programmeringsspråket Python. Jag kan verkligen rekommendera alla som vill öka sin digitala bildning att lära sig ett programmeringsspråk. Om man vill göra något som går utöver de formpressade och anpassade verktygen är det en sann frihet att kunna skriva sina egna små program och skript. Det är inte alltid det finns en "app" för det problem man vill undersöka, och även om det finns en app är det inte säkert att man kan bryta ned i minsta detalj vad den gör (vilket är ett krav om man vill arbeta vetenskapligt, dvs. "metodredovisning).

Trots att jag verkligen inte har blivit särskilt "bra" på Python, kan jag med väldigt enkla medel göra massor av saker som tidigare begränsade mig. Till exempel följande.

De hundra mest frekvent omnämnda ortsnamnen i alla SOUer 1922-1996 ser ut så här på en världskarta:

Vi zoomar lite:

Lite till:

För att till sist landa i Sverige:

Jag har begränsat mig till de hundra mest omnämnda platserna (ladda ned både filen med ortnamn (SOU100utf.txt) och pythonskriptet (soukarta.py) från min Github-sida).

Det mest uppenbara är att topp 100-listan för var någonstans SOUerna gör nedslag följer ungefär de områden som är mest befolkade. Nu gör denna karta ingen skillnad mellan att Stockholm nämns tio gånger oftare än Umeå (ett framtida projekt).

Skriptet som jag skrev för att skapa denna karta har vissa begränsningar. Det läser först in en lista med ortnamn från en fil och skickar sedan namnet till Googles databas över orter som returnerar longitud och latitud. Här är man alltså begränsad av att Google i sin tur har en lika hög "upplösning" som "staten" (kanske är Google en ny stat?). Dessutom har Google en begränsning hur många anrop man får göra per dygn och per sekund. Således är detta första test begränsat till hundra platser.

Hur går man vidare härifrån? Finns det andra intressanta visualiseringar man kan göra? Fler orter? (det går att fixa så att skriptet tuggar mot Googles maxgräns vecka ut och vecka in). Andra visualiseringsformer? Kommentera gärna!

Uppdatering: Gustaf Nelhans har gjort en liknande visualisering.