10 000 fågelarter på svenska

Wikipedia blir aldrig komplett. Det finns oändligt många artiklar att skriva, men inte oändligt många människor med oändligt mycket tid för artikelskrivande. Drömmen om en värld där varje människa fritt kan ta del av all världens kunskap förblir därför en dröm.

En som ser till att vi kommer lite närmare att förverkliga drömmen är Sverker Johansson, på Wikipedia känd som Lsj, som tagit tekniken till hjälp. Vi lämnar ordet till honom:

Sverker
Sverker Johansson

Inom vissa begränsade områden kan vår dröm faktiskt uppnås. Om det finns många snarlika artiklar att skriva inom ett område, så kan enkla standardiserade artiklar skapas av en robot, ett litet datorprogram som automatredigerar Wikipedia. Artiklarna blir inga litterära mästerverk, men de innehåller basfakta om artikelämnet och länkar till vidare läsning. En sådan artikel är betydligt bättre än ingen artikel alls, och kan bli en grund när en människa så småningom vill skriva vidare om ämnet.

Jag har just slutfört ett första experiment med robotskapande av artiklar i större skala på svenska Wikipedia. Detta inspirerades av liknande experiment som genomförts på nederländska Wikipedia, och föregicks av en lång diskussion på Bybrunnen. Det finns många olika åsikter om robotskapande. En del wikipedianer hade principiella eller känslomässiga invändningar, medan andra var mer bekymrade för kvaliteten på artiklarna. Många kunde dock se potentialen i robotskapande, hur det skulle kunna föra oss närmare drömmen om den kompletta encyklopedin.

Det ligger i sakens natur att robotar inte är lika kreativa som människor, utan bara upprepar samma standardformuleringar. Å andra sidan ligger det också i sakens natur att robotar mer pålitligt än människor kan skapa den formella strukturen i en artikel, med korrekt faktabox och liknande. Det blir inga lyriska höjder i artiklarna, men heller inga slarvfel. Kärnfrågan i debatten kretsade kring om en sådan tråkig minimal artikel med korrekta basfakta är bättre eller sämre än ingen artikel alls. För vi ska inte tro att det finns något annat alternativ för den stora majoriteten potentiella artikelämnen. Det finns mer än en miljon olika insekter på jorden. Under överskådlig framtid så har vi antingen inga artiklar alls om 99% av dessa, eller så har vi robotskapade artiklar. Att människor skulle skriva artiklar om en miljon småkryp finns inte på kartan, så det är inte meningsfullt att ställa robotartiklar mot människoartiklar, den korrekta jämförelsen är robotartiklar mot rödlänkar. Vilket är minst dåligt?

Tamarisksparv Tamarisksparv har nu fått en robotskapad artikel på Wikipedia.

Hur som helst, så småningom nåddes tillräcklig konsensus om att det här var värt ett försök. Jag hade varit drivande i diskussionen, och tyckte att det hela lät kul, så jag gav mig på att försöka skapa en robot för artikelskapande. Det område som jag valde att börja med är fågelarter. Fåglarna är lämpliga för för ett sådant här robotprojekt av flera skäl:

  • Databaser med basfakta om alla fåglar finns öppet tillgängliga och nedladdningsbara.
  • Det finns tillräckligt många fåglar för att det ska bli ett seriöst test av robotens kapacitet, men tillräckligt få för att det ska vara hanterbart.
  • Fåglar är ett område som intresserar ganska många människor, men svenska Wikipedia hade ändå stora luckor bland fåglarna. Innan jag började hade vi artiklar om ungefär 1200 av världens 10000 fågelarter.

Ett första test med en handfull artiklar ledde till vidare diskussioner om hur mycket man egentligen skulle försöka få med i artiklarna. Att göra artiklar som bara innehåller taxonomi skulle vara enkelt och idiotsäkert men ganska trist. Det skulle bli mycket trevligare artiklar om man kunde få med bilder, utbredningsområde, och annat smått och gott. Men samtidigt skapar detta problem. En robot kan plocka upp bilder på rätt fågel från Wikimedia Commons, förutsatt att de är korrekt kategoriserade där, men en robot kan inte välja ut trevliga bilder av god kvalitet utan måste plocka på måfå. Därför kan det lätt bli konstiga eller dåliga bilder. Utbredningsområde finns bara tillgängligt på engelska, och då kommer vi till den stora stötestenen för robotar: maskinöversättning. Det är hopplöst att få till god svenska med maskinöversättning. Det bästa som en robot kan åstadkomma är text som är begriplig och som en människa kan skriva om till god svenska utan att gå till originalkällan. Utbredningsområdet tillför värdefull information till artiklarna, men den oundvikligen klumpiga svenskan ger samtidigt robotmotståndare vatten på sin kvarn. En viktig fråga för framtida robotprojekt är därför vilken ambitionsnivå man vill ha. Enkla artiklar som inte innehåller något konstigt men heller inget kul, eller mer ambitiösa och informativa artiklar som samtidigt löper större risk att bli fel?

Vi landade i att göra fågelartiklarna åt det ambitiösa hållet, med all information som gick att få ihop, men samtidigt med en viss felprocent i bildval och översättningar. Då infann sig nästa diskussionsfråga – hur snabbt skulle roboten köra på med artikelskapandet? Fick den lov att köra för fullt, eller skulle den gå i strypkoppel så att människor hann med att kolla artiklarna lika snabbt som de skapades? Där var vi inte helt överens, men det slutade med att roboten körde ganska sakta någon vecka i början, medan vi letade fel och jag trimmade in programkoden. Sedan fick boten sätta fart, och de sista 5000 fåglarna skapades i full robotfart på 36 timmar. Alla robotskapade artiklar samlas i kategorin Robotskapade fågelartiklar för att förenkla kontrolläsning och finputs. I skrivande stund finns det 6938 artiklar där, gå gärna dit och kontrollera en artikel!

En liten restpost med fåglar återstår där olika källor motsäger varandra. Olika källor kanske placerar samma art i olika släkten, eller är oense om ifall en viss fågel är en egen art eller bara en underart till en annan. Sådant kan inte en robot lösa. Därför har jag bara skapat de 8000 nya fåglar som källorna är överens om.

Vad det tekniska beträffar så har jag använt MS Excel för att hantera databaser och sätta samman faktauppgifter till artikeltext. Själva artikelskapandet gjordes sedan med pywikipedia. Excel är smidigt på många sätt, men tyvärr tänjer det här projektet på Excels kapacitet och när man slår i taket så hanteras det inte snyggt av Excel. Man kan fylla på mer och mer data i ett Excel-ark utan att den klagar – men är det för mycket så vägrar den sedan att spara. Jag förlorade en del arbete på det sättet. Pywikipedia är däremot väldigt trevligt att jobba med, ett utmärkt verktyg för den som vill robotredigera Wikipedia.

Sammantaget så uppfattar jag det här som ett lyckat experiment. Artiklarna är inte perfekta, men många användare har skrivit att de är över förväntan. Och nog är det väl värt något att svenska Wikipedia har gått från drygt 10% täckning av världens fåglar till nära nog 100%.

Vill du göra samma sak själv inom ett annat ämne? Låter det krångligt? Läs Wikipediaanvändaren Naskos fantastiska och enkla steg-för-steg guide till hur man gå till väga!

2 thoughts on “10 000 fågelarter på svenska

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s