About Christopher Kullenberg | CV and publications

Archive

Sorlet från Statens Offentliga Utredningar

Kungliga biblioteket har nu digitaliserat alla Statens offentliga utredningar från 1922 till 1996. Detta material är ju väldigt intressant för alla som vill förstå samhället. Men i formen av pappersböcker har möjligheterna för att söka I SOUer varit mycket begränsade. I min avhandling analyserar jag exempelvis fyra SOUer som handlar om samhällsvetenskaper och statistik. Men, en fråga som man ibland ställer sig, och som ibland infinner sig med en tonalitet av ångest är; om jag hade kunnat söka i fulltext i ALLA utredningar hade jag kanske hittat något mera, någonting avgörande.

Eftersom SOUerna numera är inskannade som pdf-filer och dessutom är OCR-behandlade är det bara en fråga om lite digital handpåläggning för att göra allt som är digitaliserat sökbart. Datan finns, men den måste förbehandlas för att det ska gå att söka med det allra mest kraftfulla sättet att söka på: reguljära uttryck.

Jag tänkte i denna post lägga ut lite av det material jag hittills har skapat, i tid- och bandbreddssparande syfte, ifall att någon vill experimentera. SOUerna finns även tillagda i Korp, men då med ett annat sökgränssnitt.

Jag började med att ladda hem alla SOUer från KBs servrar med hjälp av ett litet pythonskript som jag fick skickat till mig på IRC och som finns att hämta på Github. Eftersom hela materialet väger in på cirka 400Gb rekommenderar jag att man tänker efter i termer av att bandbreddsbesparingar innan man ger sig på detta. Om målet är att bara skapa textfiler så delar jag med mig av dessa nedan.

När detta var klart (2 dagar senare) så körde jag det lilla programmet pdftotext på alla filer och väntade ytterligare några timmar. Pdftotext gör precis vad det säger, det konverterar de tunga pdf-filerna till textfiler. Jag är osäker på om det finns mera exakta konverterare, så om ni känner till några, kommentera gärna.

Här är ett exempel på en enskild utredning som ren text-fil.

Att söka inne i en pdf-fil kan vara användbart om man vet vilken SOU man ska arbeta med. Men för att söka i alla SOUer är det klumpigt.

Så, här kommer det råa output från textkonverteringen i tre olika "klumpar".

Textversionerna är för det första inte helt exakta. Detta hänger samman med hur Kungliga bibliotekets robot skannade in dem och hur själva OCR-hanteringen gick till. Sedan borde det finnas någon form av felkälla i pdftotext. Oavsett vilket är det nu möjligt att tillämpa avancerade sökningar i hela materialet, behandla det hur man vill och göra statistik hur man vill.

Jag gillar att använda 70-talsprogrammet grep (med alternativet -E för att expandera de reguljära uttrycken) för att söka i filer med. Man kan såklart ladda in i en texteditor, men hela textmassan är 2.7Gb stor, så det är ganska körigt med minne osv. Grep är bra för att det inte behöver ladda allt till datorns minne. Men ha ändå överseende med att vissa sökningar kan dröja.

Nu kan man börja få väldigt intressanta resultat. Här ett exempel från den stora filen (det går att köra mitt lilla kommando i terminalen på ett Unix-system, ex. Linux, MacOs):

grep -Eoi 'knark.*' SOUtxtAllBigFile.txt

Så får man följande poetiska resultat (utdrag):

knarkklubbar.
knarkarkvart
knarkarkvarf”.
knarkarkvartar
knarkotikamissbruket
knarkare eller
knarkarnästen
knarkarna en dominerande
knark.
knarkare visar
knarkas inte vid kiosken, utan på andra
knarkhärvan i Växjö
knarkligan» eller »ungdomsligan» och uppgav att några
knarkade sista gången» ganska kort tid före intervjun.
Knarkar du för närvarande?» med nej och
knarket verkar. Till övervägande del tycks de ha positiva förväntningar
knarkets förmodade effekt, att de
Knarkhäktningar på löpande band
Knarkares far klagar hos JO
Knarkkliniker planeras i H-borg och Lund
knarkande. Ett exempel:
Knarkargrupper» bildas. Narkomanenernas

Ofta anklagas SOUer för att innehålla ett torrt språk. Dessa kreativa kombinationer bevisar motsatsen.

Så här långt har jag kommit. Är det någon som har bra förslag på vad nästa steg ska vara? Vilket gränssnitt kan man bygga? Vilka analyser kan man göra? Vad är intressant att göra statistik på?

Bryt facebookdriften och kommentera!

\\

Uppdatering, 2015-06-01

Det enklaste sättet att söka verkar vara att ladda ned alla utredningar som individuella textfiler. Dels kommer datorn att indexera filerna. Men framförallt får man ut filnamnet, och därmed utredningens titel, när man kör en rekursiv grep. Då kan man ställa sig i katalogen med de uppackade filerna och köra exempelvis denna söksträng för att upptäcka på vilka olika sätt begreppet "tredje uppgiften" har använts på:

$ grep -r -Eio '.{10,100}tredje uppgift.*.{0,100}' *

30tal/Utredning rörande flottans fartygstyper m. m. - SOU 1937:25.txt:Till dessa uppgifter anslöt sig sedermera 1907 års försvarskommitté, med undantag av att i den tredje uppgiften tillfogades »i den mån sådant är behövligt och möjligt». 3
40tal/1940 års skolutrednings betänkanden och utredningar. - SOU 1947:34.txt:»Studentexamen», fortfar skolöverstyrelsen, »har emellertid ännu en tredje uppgift.
40tal/Kommunal upplysningsverksamhet - SOU 1947:76.txt:uppgiften gäller informations- och studieverksamheten bland nyvalda förtroendemän. Den tredje uppgiften gäller information för innehavare av
50tal/Kristidspolitik och kristidshushållning i Sverige under och efter andra världskriget - SOU 1952:49.txt:surserna och att på ändamålsenligaste sätt tillvarataga och fördela förefintliga varutillgångar. En tredje uppgift slutligen — vilken dock väsentligen var av handelspolitisk natur — var att till det yttersta begagna de
50tal/Högertrafik - SOU 1954:30.txt:kostnad och materialkostnader. Från karosDen tredje uppgiften har varit att med
60tal/Skoglig yrkesutbildning - SOU 1967:38.txt:huvuddelen av eleverna kommer att rekryteras. En tredje uppgift för nämnden
60tal/1960 års gymnasieutredning. - SOU 1963:42.txt:av gymnasiets mål betonade skolutredningen gymnasiets tredje uppgift, den
70tal/TRU:s försöksverksamhet 1967-1972 - SOU 1973:19.txt:den första och tredje uppgiften, eftersom man
70tal/Invandrarutredningen. - SOU 1971:51.txt:deltagande i den allmänna vuxenutbildningen. En tredje uppgift är åtgärder för att
70tal/Trafikpolitik - behov och möjligheter - SOU 1975:66.txt:skall ske. Den tredje uppgiften
70tal/Abortfrågan - SOU 1972:39.txt:Kommitténs tredje uppgift gällde att utreda frågan om samhällets åtgärder i abortförebyggande syfte samt att överväga, hur
80tal/Skolforskning och skolutveckling - SOU 1980:2.txt:att ta på sig en tredje uppgift, att svara för den
90tal/Dagspressen i 1990-talets medielandskap - SOU 1994:94.txt:fram. Det är uppenbart att den tredje uppgiften kritisk granskning har sina
90tal/Löneskillnader och lönediskriminering - SOU 1993:7.txt:ekonomiska incitamenten för kvinnor jämfört med män.--- En tredje uppgift
90tal/Kvalitet och dynamik - SOU 1993:102.txt:Hur väl fakulteterna löser högskolans s.k. tredje uppgift, dvs. att sprida


Uppdatering 2: Gustav Holmberg har bloggat om sina sökningar i materialet samt Copyriot.