Tiotusen boksidor korrekturlästa i svenska Wikisource

Pallas Athena väntar på din insats
Pallas Athena väntar på din insats. Ur Illustrerad Verldshistoria (1875)



Tillväxten av gröna och gula sidor i svenska Wikisource.

Måndagen 11 april passerade den svenskspråkiga grenen av Wikisource, det fria biblioteket, en viktig milstolpe. Man hade då korrekturläst texten av inte mindre än 10.000 boksidor utifrån inscannade bilder. Detta firades med (bilder av) tårtor och fyrverkerier på Mötesplatsen, som är projektets centrala diskussionssida.

Passande nog inträffade firandet i samma vecka som Världsbokdagen, som i år infaller på onsdag 13 april. Den firas normalt 23 april, men är i år flyttad för att inte krocka med påskhelgen.

Wikisource är ett systerprojekt till Wikipedia, som återger text ur äldre böcker och tidningar, baserat på samma wiki-teknik. I likhet med andra digitaliseringsprojekt, började det med att återge själva texten, men har senare lagt till inscannade bilder av boksidorna för korrekturläsning. Det gör att Wikisource har två mått på sin storlek, dels antalet wikisidor, dels antalet boksidor. Milstolpar av bägge slagen noteras på sidan Tillkännagivanden. Svenska Wikisource har 5600 wikisidor och är enligt det måttet det 22:a största språket inom Wikisource-familjen. Men antalet korrekturlästa boksidor har nu nått 10.000 och enligt det måttet intar svenska 7:e platsen. Den norska grenen av Wikisource ligger hack i häl med 9800 korrekturlästa sidor.

Svenskspråkiga Wikisource är ett litet projekt med färre än tio aktiva medarbetare under en typisk månad. De arbetar typiskt med varsitt projekt och träffas på mötesplatsen för att utbyta erfarenheter. Här finns sedan gammalt en stor samling av psalmtexter, från det numera avsomnade psalmboksprojektet. Många texter om Norge och av norska författare (i svensk översättning) har kommit från norska Nasjonalbibliotekets stora projekt att digitalisera all norsk litteratur. På startsidan uppmärksammans Amtmannens döttrar (1854-1855) av Camilla Collett. Från svenska Kungliga biblioteket kommer på samma sätt Post- och Inrikes Tidningar, där hela januari 1836 finns korrekturläst och början av februari. Andra böcker är sådana som digitaliserats av Internet Archive eller Google Books, men där Wikisource bidrar med att korrekturläsa texten och göra den fullt sökbar. Charles Darwins Om arternas uppkomst (svensk översättning 1871) har sällskap med flera titlar om biologi och evolution. Ett av de större projekten är Peter Fjellstedts svenska bibelöversättning från 1890-talet, som är tryckt i frakturstil.

Vid korrekturläsningen utgår man från inscannade bilder och en text som automatiskt har tolkats fram av ett OCR-program. Beroende på tryckets och bildens kvalitet innehåller OCR-texten olika många fel, som måste rättas för hand. Varje sida kodas med olika färger, som ett trafikljus, för att markera textens tillstånd. Ännu inte skapade sidor är blanka. Sidor som har konstaterats sakna text markeras med grått. Sidor med rå OCR-text är röda. Efter första korrigeringen ändras detta till gult. När ytterligare en person har läst igenom och validerat samma sida, ges den grön färg. Många sidor stannar på gult och det kan vara gott nog. I dagsläget finns 6000 gula och 4000 gröna sidor, vilket tillsammans utgör milstolpen 10.000 korrekturlästa sidor.

En specialsida listar de mest bearbetade böckerna, där en bok får en poäng för varje gul och två poäng för varje grön sida. Darwins Om arternas uppkomst ligger där på sjätte plats med sina 420 sidor, varav de flesta är gula och några få gröna. Den översiktssidan är alltså en bra ingång för den som vill hitta ett lämpligt projekt att hjälpa till med. Välj någon bok som bara har några få röda sidor kvar.

Wikisource grundades hösten 2003 och den svenskspråkiga grenen startade strax därefter i januari 2004. Korrekturläsningen kom igång på svenska i november 2008 och efter 17 månader i april 2010 uppnåddes 2500 korrekturlästa sidor. Det följande sommarhalvåret 2010 korrekturlästes ytterligare 5000 sidor, men under det gångna vinterhalvåret har bara 2500 ytterligare sidor tillkommit. Annars kunde man ju tro att vintern är bästa tiden att sitta inne och korrekturläsa gamla böcker. Men projektet är ännu så litet, att variationer i arbetstakten beror helt på de individuella medarbetarnas vanor. Projektet har plats för många fler medhjälpare. Det finns gott om digitaliserad litteratur som behöver korrekturläsas för att bli fullt sökbar och återanvändbar. Man väljer själv vilka ämnen, författare och tidsåldrar man vill arbeta med. Förutsatt, förstås, att böckerna är så gamla att upphovsrätten har löpt ut.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s