Sommer-2009 versionen af Folkets Ting inkludere information om §20 spørgsmål, de spørgsmål folketingsmedlemmer kan stille til regeringens ministre. Den feature blev vi desværre nød til at sløjfe da Folketinget fik ny hjemmeside. Den nye hjemmeside indeholder nemlig ikke svar på spørgsmål i klar-tekst, men som pdf’er eller Word dokumenter.  Det er vigtigt for mig at understrege det er genialt at det offentlige frigiver dokumenter af alle slags, også pdf’er. Når det er sagt, så er pdf- og word-formaterne enhver screen-scrapers værste fjende, meget værre end login-systemer eller skramlet html faktisk.

Svarerne martrede mig længe, og jeg prøvede faktisk at lave en parser der kunne skille dokumenterne ad. Desværre bruger hvert ministerium deres egen dokumenttemplate når de skal skrive svar for deres minister, så jeg skulle stort set skrive en parser for hvert ministerium. Til opdateringen af Folkets Ting strakte jeg derfor våben og lod Scribd stå for svar-dokumenterne. Resultatet kan f.eks. ses på spørgsmål Om sikkerheden ved brug af NemID.dk. Løsningen er ikke særlig perfekt: Scribd har somme tider problemer med at behandle dokumenter fra Folketinget (skriv gerne hvis du finder spørgsmål med problemer), vores søgning kan ikke søge i svarerne (dette kunne nok løses med mere arbejde) og det er heller ikke rigtigt muligt at kommentere dem.

De relevante informationer er tilgængelige via API’et således at svardokumenter også kan benyttes af API-brugere.

Med opdateringen har politiker-profiler også fået word clouds. F.eks. kan det ses på Ida Aukens profil at hun for nyligt har talt meget om “partikler”, “miljøklagenævnet”, “grænseværdier” og “filtre”. Det hænger meget godt sammen med at Ida er miljøordfører for Socialistisk Folkeparti. Skyerne genereres ved at tage en klump af politikerens seneste taler, strippe fyldord ud (f.eks. “og”) og tælle forekomsten af hver ord. Google Visualization Toolkit har en dims der kan rendere en word cloud baseret på denne data.

Bookmark and Share

Leave a Reply