Kungliga biblioteket har nu digitaliserat alla Statens offentliga utredningar från 1922 till 1996. Detta material är ju väldigt intressant för alla som vill förstå samhället. Men i formen av pappersböcker har möjligheterna för att söka I SOUer varit mycket begränsade. I min avhandling analyserar jag exempelvis fyra SOUer som handlar om samhällsvetenskaper och statistik. Men, en fråga som man ibland ställer sig, och som ibland infinner sig med en tonalitet av ångest är; om jag hade kunnat söka i fulltext i ALLA utredningar hade jag kanske hittat något mera, någonting avgörande.
Eftersom SOUerna numera är inskannade som pdf-filer och dessutom är OCR-behandlade är det bara en fråga om lite digital handpåläggning för att göra allt som är digitaliserat sökbart. Datan finns, men den måste förbehandlas för att det ska gå att söka med det allra mest kraftfulla sättet att söka på: reguljära uttryck.
Jag tänkte i denna post lägga ut lite av det material jag hittills har skapat, i tid- och bandbreddssparande syfte, ifall att någon vill experimentera. SOUerna finns även tillagda i Korp, men då med ett annat sökgränssnitt.
Jag började med att ladda hem alla SOUer från KBs servrar med hjälp av ett litet pythonskript som jag fick skickat till mig på IRC och som finns att hämta på Github. Eftersom hela materialet väger in på cirka 400Gb rekommenderar jag att man tänker efter i termer av att bandbreddsbesparingar innan man ger sig på detta. Om målet är att bara skapa textfiler så delar jag med mig av dessa nedan.
När detta var klart (2 dagar senare) så körde jag det lilla programmet pdftotext på alla filer och väntade ytterligare några timmar. Pdftotext gör precis vad det säger, det konverterar de tunga pdf-filerna till textfiler. Jag är osäker på om det finns mera exakta konverterare, så om ni känner till några, kommentera gärna.
Här är ett exempel på en enskild utredning som ren text-fil.
Att söka inne i en pdf-fil kan vara användbart om man vet vilken SOU man ska arbeta med. Men för att söka i alla SOUer är det klumpigt.
Så, här kommer det råa output från textkonverteringen i tre olika "klumpar".
- Alla utredningar som individuella textfiler (zip) (877Mb) Ladda ned denna för att enkelt indexera i Spotlight på OSX
- Alla utredningar som 8 stora filer baserade på vilket decennium de är publicerade (zip) (873Mb)
- Alla utredningar som en enda stor textfil (zip) (872 Mb)
Textversionerna är för det första inte helt exakta. Detta hänger samman med hur Kungliga bibliotekets robot skannade in dem och hur själva OCR-hanteringen gick till. Sedan borde det finnas någon form av felkälla i pdftotext. Oavsett vilket är det nu möjligt att tillämpa avancerade sökningar i hela materialet, behandla det hur man vill och göra statistik hur man vill.
Jag gillar att använda 70-talsprogrammet
grep (med alternativet -E
för att
expandera de reguljära uttrycken) för att söka i filer med. Man kan
såklart ladda in i en texteditor, men hela textmassan är 2.7Gb stor, så
det är ganska körigt med minne osv. Grep är bra för att det inte behöver
ladda allt till datorns minne. Men ha ändå överseende med att vissa
sökningar kan dröja.
Nu kan man börja få väldigt intressanta resultat. Här ett exempel från den stora filen (det går att köra mitt lilla kommando i terminalen på ett Unix-system, ex. Linux, MacOs):
grep -Eoi 'knark.*' SOUtxtAllBigFile.txt
Så får man följande poetiska resultat (utdrag):
knarkklubbar.
knarkarkvart
knarkarkvarf”.
knarkarkvartar
knarkotikamissbruket
knarkare eller
knarkarnästen
knarkarna en dominerande
knark.
knarkare visar
knarkas inte vid kiosken, utan på andra
knarkhärvan i Växjö
knarkligan» eller »ungdomsligan» och uppgav att några
knarkade sista gången» ganska kort tid före intervjun.
Knarkar du för närvarande?» med nej och
knarket verkar. Till övervägande del tycks de ha positiva förväntningar
knarkets förmodade effekt, att de
Knarkhäktningar på löpande band
Knarkares far klagar hos JO
Knarkkliniker planeras i H-borg och Lund
knarkande. Ett exempel:
Knarkargrupper» bildas. Narkomanenernas
Ofta anklagas SOUer för att innehålla ett torrt språk. Dessa kreativa kombinationer bevisar motsatsen.
Så här långt har jag kommit. Är det någon som har bra förslag på vad nästa steg ska vara? Vilket gränssnitt kan man bygga? Vilka analyser kan man göra? Vad är intressant att göra statistik på?
Bryt facebookdriften och kommentera!
\\
Uppdatering, 2015-06-01
Det enklaste sättet att söka verkar vara att ladda ned alla utredningar
som individuella
textfiler.
Dels kommer datorn att indexera filerna. Men framförallt får man ut
filnamnet, och därmed utredningens titel, när man kör en rekursiv grep.
Då kan man ställa sig i katalogen med de uppackade filerna och köra
exempelvis denna söksträng för att upptäcka på vilka olika sätt
begreppet "tredje uppgiften" har använts på:
$ grep -r -Eio '.{10,100}tredje uppgift.*.{0,100}' *
30tal/Utredning rörande flottans fartygstyper m. m. - SOU
1937:25.txt:Till dessa uppgifter anslöt sig sedermera 1907 års
försvarskommitté, med undantag av att i den tredje uppgiften
tillfogades »i den mån sådant är behövligt och möjligt». 3
40tal/1940 års skolutrednings betänkanden och utredningar. - SOU
1947:34.txt:»Studentexamen», fortfar skolöverstyrelsen, »har emellertid
ännu en tredje uppgift.
40tal/Kommunal upplysningsverksamhet - SOU 1947:76.txt:uppgiften
gäller informations- och studieverksamheten bland nyvalda förtroendemän.
Den tredje uppgiften gäller information för innehavare av
50tal/Kristidspolitik och kristidshushållning i Sverige under och efter
andra världskriget - SOU 1952:49.txt:surserna och att på
ändamålsenligaste sätt tillvarataga och fördela förefintliga
varutillgångar. En tredje uppgift slutligen — vilken dock
väsentligen var av handelspolitisk natur — var att till det yttersta
begagna de
50tal/Högertrafik - SOU 1954:30.txt:kostnad och materialkostnader. Från
karosDen tredje uppgiften har varit att med
60tal/Skoglig yrkesutbildning - SOU 1967:38.txt:huvuddelen av eleverna
kommer att rekryteras. En tredje uppgift för nämnden
60tal/1960 års gymnasieutredning. - SOU 1963:42.txt:av gymnasiets mål
betonade skolutredningen gymnasiets tredje uppgift, den
70tal/TRU:s försöksverksamhet 1967-1972 - SOU 1973:19.txt:den första och
tredje uppgiften, eftersom man
70tal/Invandrarutredningen. - SOU 1971:51.txt:deltagande i den allmänna
vuxenutbildningen. En tredje uppgift är åtgärder för att
70tal/Trafikpolitik - behov och möjligheter - SOU 1975:66.txt:skall ske.
Den tredje uppgiften
70tal/Abortfrågan - SOU 1972:39.txt:Kommitténs tredje uppgift gällde
att utreda frågan om samhällets åtgärder i abortförebyggande syfte samt
att överväga, hur
80tal/Skolforskning och skolutveckling - SOU 1980:2.txt:att ta på sig en
tredje uppgift, att svara för den
90tal/Dagspressen i 1990-talets medielandskap - SOU 1994:94.txt:fram.
Det är uppenbart att den tredje uppgiften kritisk granskning har
sina
90tal/Löneskillnader och lönediskriminering - SOU 1993:7.txt:ekonomiska
incitamenten för kvinnor jämfört med män.--- En tredje uppgift
90tal/Kvalitet och dynamik - SOU 1993:102.txt:Hur väl fakulteterna löser
högskolans s.k. tredje uppgift, dvs. att sprida
Uppdatering 2: Gustav Holmberg har bloggat om sina sökningar i materialet samt Copyriot.