Söka i SOU via Linköpings universitet

Linköping University Electronic Press har gjort SOU-materialet sökbart i fulltext. Sökresultaten levereras i form av länkar till fulltext-pdferna på Kungliga Bibliotekets hemsida.

Testa sökverktyget här.

I en kommentar av signaturen MartLenn föreslogs programmet Solr som ett bra sökverktyg, vilket ledde till att Anders Fåk satte upp en testversion, som nu gjorts mera permanent tillgänglig.

Tjänsten är väldigt smidig för att snabbt hitta till rätt utredning, som genast blir tillgänglig. Att jämföra detta med att släpa sig ned till hyllorna för SOUer på biblioteket snuddar vid det bisarra. Detta gör det tusen gånger enklare att söka ofta och mycket.

\\

När det kommer till sökfunktionaliteter finns det ju många ingångar. Själv har jag mest jobbat med olika varianter av Grep för att även kunna inkludera sökträffarnas “sammanhang”, alltså, för att få fram hela kontexten som ett ord figurerar i.

Men sökningar i textfiler som ligger på en hårddisk är långt ifrån optimalt. Mina programmeringskunskaper är ännu inte riktigt där, men snart tänkte jag bygga något som har ungefär den här funktionaliteten:

  • Läser in alla SOUer och sparar dem i en databas eller hashtabell som kan hållas i datorns minne. Exempelvis borde SQLite fungera bra.
  • Tillåter sedan sökningar både med enkla ord och reguljära uttryck.
  • Returnerar resultat dels som länkar till pdf-filerna (som ovan) men även som direkta textsjok ur plaintext-databasen.
  • Ovanpå detta bygger man ett gränssnitt som går att lägga ut på webben.

Funderingar kring detta?

Jag har en kraftfull maskin på GUs nät som kan användas för att göra en sådan söktjänst permanent tillgänglig för allt och alla.

Internetövervakning som metod

I senaste pappersutgåvan av tidskriften Ikaros har jag en text med titeln Internetövervakning som metod. Här diskuterar jag hur datafloden som genereras av världsväven kan göras tillgänglig för samhällsforskare (och humanister) med utgångspunkt i en idé som Gabriel de Tarde formulerade för hundra år sedan:

…föreställde sig Tarde att människor, ur samhällsvetenskapernas synvinkel, optimalt sett levde i ”glashus” så att sociologerna kunde se rakt in i varje hem, ned i varje byrålåda och in i varje garderob. På så sätt kunde man föra statistik över varje liten detalj av människors liv och kartlägga vilka färger på strumpor som var populära, vilken sorts mjöl som fanns i påsarna i skafferiet och, inte minst, vilka böcker som stod i bokhyllorna. Dessa ändlösa detaljer betydde inget som isolerade enheter. Det är först, menade Tarde, när man ser dem som imitativa beteendemönster som de blir intressanta.

Glashusspekulationen finner man in Imitationens lagar (1895) på sidorna 112-113 i denna pdf-utgåva. Citatet (som är en del av ett större resonemang) lyder:

I mean a precise and complete house-to-house inventory of all the furniture in a given country and the annual numerical variations in all of its different kinds of furniture. This would give us an excellent photograph of our social condition; it would be somewhat analogous to the admirable pictures of extinct civilisations which the delvers into the past have made in their careful inventories of the contents of the tombs, the houses of the dead, of Egypt, Italy, Asia Minor, and America.

Vem kommer närmast att veta vilka möbler som finns i “landet”? Troligtvis den som har tillgång till IKEA Family-databasen. Vem vet vad som finns i kylskåpen? Min gissning: Coop och ICAs kundkortsregister. På folks tallrikar? Instagram. Osv. osv. Vad jag vill framhäva med denna tanke är en reflektion över vilka data om “det sociala” som är möjliga (givet ny teknik) och för vem de är möjliga. Det känns som att samhällsvetenskaperna och humaniora kanske borde ställa sig den frågan, eller vad säger ni?

SOUernas geografi 2

För några månader sedan extraherade jag alla ortsnamn ur Statens offentliga utredningar i ett försök att skapa en bild av utredningarnas geografiska “räckvidd”. Men jag körde fast när det kom till att visualisera denna datamängd. Jag visste inte hur jag skulle gå vidare för att lägga “data på karta”.

Men under sommaren har jag haft som hobbyprojekt att lära mig programmeringsspråket Python. Jag kan verkligen rekommendera alla som vill öka sin digitala bildning att lära sig ett programmeringsspråk. Om man vill göra något som går utöver de formpressade och anpassade verktygen är det en sann frihet att kunna skriva sina egna små program och skript. Det är inte alltid det finns en “app” för det problem man vill undersöka, och även om det finns en app är det inte säkert att man kan bryta ned i minsta detalj vad den gör (vilket är ett krav om man vill arbeta vetenskapligt, dvs. “metodredovisning).

Trots att jag verkligen inte har blivit särskilt “bra” på Python, kan jag med väldigt enkla medel göra massor av saker som tidigare begränsade mig. Till exempel följande.

De hundra mest frekvent omnämnda ortsnamnen i alla SOUer 1922-1996 ser ut så här på en världskarta:

Vi zoomar lite:

Lite till:

För att till sist landa i Sverige:

Jag har begränsat mig till de hundra mest omnämnda platserna (ladda ned både filen med ortnamn (SOU100utf.txt) och pythonskriptet (soukarta.py) från min Github-sida).

Det mest uppenbara är att topp 100-listan för var någonstans SOUerna gör nedslag följer ungefär de områden som är mest befolkade. Nu gör denna karta ingen skillnad mellan att Stockholm nämns tio gånger oftare än Umeå (ett framtida projekt).

Skriptet som jag skrev för att skapa denna karta har vissa begränsningar. Det läser först in en lista med ortnamn från en fil och skickar sedan namnet till Googles databas över orter som returnerar longitud och latitud. Här är man alltså begränsad av att Google i sin tur har en lika hög “upplösning” som “staten” (kanske är Google en ny stat?). Dessutom har Google en begränsning hur många anrop man får göra per dygn och per sekund. Således är detta första test begränsat till hundra platser.

Hur går man vidare härifrån? Finns det andra intressanta visualiseringar man kan göra? Fler orter? (det går att fixa så att skriptet tuggar mot Googles maxgräns vecka ut och vecka in). Andra visualiseringsformer? Kommentera gärna!

Uppdatering: Gustaf Nelhans har gjort en liknande visualisering.