Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Wikimania 2017 – en återblick

Det här är ett gästinlägg från Jan Ainali, mångårig Wikimedian och tidigare ordförande och verksamhetschef för Wikimedia Sverige, samt nästan lika mångårig Wikimaniadeltagare. Åsikter och kommentarer som nämns nedan reflekterar inte automatiskt åsikterna från Wikmedia Sverige.

I somras for många Wikimedianer till Montreal i Kanada för att delta på Wikimania, den årliga konferensen för Wikimediarörelsen, och jag var en av dem – med lite stöd från Wikimedia Sverige. Wikimania har över åren växt så utöver de tre huvuddagarna är det två dagar med olika aktiviteter som är mer specialiserade. Jag deltog främst på Hackathonet under de dagarna. Men redan innan hackathonet började hann jag diskutera en idé med Susanna Ånäs som hon bollat med mig på mail, men som jag inte riktigt förstått. Efter bara fem minuters samtal hade jag kunnat förklara vad jag inte förstod och hon kunde säga det på ett annat sätt som var mycket tydligare. Redan där började resan kännas värd den stora ansträngningen, för det lossade flera knutar och vi kom fram mycket långt i den följande diskussionen. Det hade varit knepigt att göra per mail och nu hann vi med det redan innan konferensen hade öppnat dörrarna.


Gruppfoto av VGrigas (WMF) [CC BY-SA 4.0], via Wikimedia Commons

Väl inne på hackathonet jobbade jag mest för att förstå hur man i Wikidata bör märka upp tidningar och andra tidskrifter (detta relaterade såklart till min lightning talk nedan). Till min hjälp fanns många Wikidatakunniga personer, varav några bibliotekarier, och till slut fick vi till en modell som kändes användbar. Utöver det jobbade jag med att anpassa två Wikidatarelaterade mallar från engelska Wikipedia till svenska. Till slut fick vi Mall:Etikett och Mall:Q att fungera. På det sättet kan man enklare hämta etiketten för återanvändning i andra mallar samt enklare diskutera om enskilda objekt och egenskaper. Jag hann också följa upp ett antal ärenden i Phabricator som hade väntat på min input och tack vare diskussioner med närvarande personer kunde jag nu ge bra svar.

Under själva konferensen var det många intressanta sessioner och jag deltog själv i en panel om läget för video och gav en lightning talk om hur vi använt Wikipedia och Wikidata i samband med Post- och inrikes tidningar. Jag deltog också i flera av sessionerna som handlade om strategin för 2030. Det som jag tog med mig mest ifrån de mer traditionella föreläsningarna var hur många av dem som på något sätt berörde Wikidata, och hur några få språkversioner, till exempel katalanska, ligger mycket långt fram och redan på allvar börjar dra nytta av dess möjligheter. Det stod också klart att det fortfarande är lite tekniskt krångligt att få till det på ett bra sätt. Vilket också visar på vikten av att kunna dela med sig av sina erfarenheter på en sådan här konferens.

Wikimania är ju också ett utmärkt läge att stärka de kontakter man har haft med personer on-wiki och runt fikapauserna, luncherna och efter sessionerna så blev det många samtal med gamla och nya vänner. Arrangemanget i Montreal löpte på bra, lokalerna höll måttet väl. Förbättringspunkter är väl framför allt att alla sessioner borde filmas.

Nu ser jag fram emot ett Wikimania i Kapstaden i sommar, men framför allt ett Wikimania 2019 i Sverige!

Hoten mot Wikipedia

https://commons.wikimedia.org/wiki/File:Wikidata_Map_October_2015_Big.png, Addshore, CC0

Det här är texten till en 12-minuterspresentation som Lennart Guldbrandsson höll under konferensen ReadMe den 13 april 2016. Rubriken i programmet var ”Wikipedias särställning i faktalandskapet – kommer den att bestå?” Bilderna finns här.

Varje månad har Wikipedia en halv miljard besökare. Det är den enda informationssajten på världens tio mest besökta webbplatser.

De som läser tar Wikipedia på allvar. Journalister citerar Wikipedia. Politiker fattar beslut baserade på Wikipedia. Pubquiz avgörs av det som står på Wikipedia.

Och som vi brukar säga: När Wikipedia ligger nere då blir hemtentorna försenade.

Snacka om vilket ansvar vi har, att det blir rätt.

Men det finns några hot och utmaningar.

Först tänkte jag bara visa de här bilderna:


https://commons.wikimedia.org/wiki/File%3ACarcharodon_carcharias.jpg, Sharkdiver.com, public domain, https://commons.wikimedia.org/wiki/File%3A20140805_liege12.JPG, Jean Housen, CC BY- SA 4.0

Vilken är farligast?

Det är lätt att tro att hajen är farligast. Med den där hemska musiken…

I själva verket är godisautomaterna dubbelt så farliga.

Inte nog med att godisautomater kan falla över en eller ge en stötar. De är dessutom fulla med godis…

Anledningen till att jag tar upp det här är att det finns en hel del exotiska faror som kanske egentligen inte är så farliga.

Innan vi kommer till verkliga hoten ska vi därför titta på fem saker som folk brukar tro är de stora hoten, men som egentligen inte är det.

Går det att lita på Wikipedia?

Uppenbarligen.

Media ställer den frågan hela tiden, men allmänheten fortsätter att använda Wikipedia. Jag tror att det beror just på att vi wikipedianer sätter ut de där skyltarna om att det till exempel saknas källor.

Folk gillar att man säger till när man inte vet.

Ironiskt sett visar det sig att de som är mest kritiska till Wikipedia, det är faktiskt de som skriver på Wikipedia.

Vi skriver helt enkelt för att göra något åt bristerna.

Är klotter ett hot?

När folk hör att vem som helst kan skriva på Wikipedia brukar de alltid undra om det blir mycket klotter.

Visst klottrar folk, men i genomsnitt tas klottret bort på 1-2 minuter.

Det går så snabbt eftersom vi har automatiska filter. Lite har vi ju lärt oss genom åren.

Dessutom finns det många frivilliga som bevakar det som händer.

Risken att man stöter på klotter är alltså mycket liten.

Vi har helt enkelt löst problemet med de elaka kommentarsfälten.

Hur är det med alla som vill marknadsföra sig på Wikipedia då?

En del företag och politiker betalar folk för att skriva positiva Wikipedia-artiklar.

Det här tar nästan lika kort tid att upptäcka. Resultatet blir en blockering för att ha brutit mot Wikipedias regler. Eller att media får reda på det.

Castle_reflecting_in_the_water_-_Gustave_Le_Gray
https://commons.wikimedia.org/wiki/File:Castle_reflecting_in_the_water_-_Gustave_Le_Gray.jpg, Gustave Le Gray, public domain

Är upphovsrätt ett problem?

Nyligen kom ett beslut från Högsta Domstolen – och jag ska inte gå in på det i detalj, men det kunde låta som att vi på Wikipedia stjäl bilder. Det gör vi verkligen inte.

Wikipedia är i själva verket en av de mest upphovsrättsmedvetna sajterna.

All text ligger under en fri licens.

Alla bilder är fria att använda, så länge man anger källa, skapare och licens, så att nästa person kan hitta bilden och använda den.

Alla ofria bilder raderas.

Det här gör att vi får massor av bilddonationer från arkiv, bibliotek och museer runt om i världen.

Fotografiet här ovan exempelvis har vi fått från Regionarkivet i Göteborg. Det är ett exempel på tidig bildmanipulering, från någon gång på 1850-talet.

Är Wikipedias programvara föråldrad?

Vi vet att de flesta tänker på Wikipedias programvara som lite utdaterad, jämfört med hur enkelt det är att twittra eller facebooka.

Men testa den nya redigeringsfunktionen! Du kommer nog att bli positivt överraskad. Det är ungefär som att skriva i ett vanligt ordbehandlingsprogram.

Och man får gärna lägga till bilder och filmer. Det vet vi att det saknas. Så länge de är fritt licensierade, vill säga.

Wikipedia har dessutom många verktyg som få andra av de stora webbplatserna har: Vår sökfunktion har massor av möjligheter.

Och det finns massor av extrafunktioner.

Men vi är alldeles för blygsamma för att göra en stor sak av det. Det kanske är det som är problemet.

Därmed kommer vi in på vad de verkliga hoten mot Wikipedia är. Vilka är godisautomaterna?

Jag ska ta upp tre sådana stora hot.

Nybörjarna vs veteraner

Ni har säkert hört om det här. Någon har försökt att redigera på Wikipedia för första gången och kraschat rakt in i några av våra veteraner.

Det här är naturligtvis inte kul för nybörjarna. Många slutar efter sina första försök och kommer inte tillbaka.

Det är inte kul för veteranerna heller. De står mitt i floden av skolklotter. Kanske har de inte tid att förklara reglerna för femtionde gången den dagen.

Risken är att vi skrämmer bort alldeles för många nybörjare. Vem ska då hjälpa till att ta hand om alla artiklar?

Än så länge är det ingen överhängande fara, men vi behöver ändra på det här nu.

Skrivstuga i Göteborg i juni 2014, Lennart Guldbrandsson, public domain
Skrivstuga i Göteborg i juni 2014, Lennart Guldbrandsson, public domain

Ett grepp för att få bort den här motsättningen är att välkomna nybörjarna in i gemenskapen och se till så att de stannar tillräckligt länge för att lära sig systemet.

Engelskspråkiga Wikipedia startade en sida där nybörjarna får ställa frågor i lugn och ro. Där har de faddrar som hjälper dem tillrätta.

De som började på den här sidan fortsatte oftare att redigera Wikipedia.

I Sverige har vi istället satsat på skrivstugor.

I Göteborg där jag bor har vi haft skrivstugor en gång i veckan i över två år vid det här laget.
Där hör vi hela tiden hur intressant det är för besökarna att få ansikten på någon som skriver på Wikipedia. Och någon som pushar en att fortsätta skriva. Som en personlig tränare.

Dessutom får man fika.

Wikipedia är inte globalt

Det andra hotet, eller godisautomaten om man så vill, är lite lättare att se.

https://commons.wikimedia.org/wiki/File:Wikidata_Map_October_2015_Big.png, Addshore, CC0
https://commons.wikimedia.org/wiki/File:Wikidata_Map_October_2015_Big.png, Addshore, CC0

På den här bilden har vi placerat ut alla artiklar (på Wikidata) som har koordinater i sig.

Det ser väldigt tunt ut på vissa ställen, va? Om inte Wikipedia kan minska bristen på information där den behövs som bäst, då är det ett ganska meningslöst projekt.

Vi är med andra ord inte särskilt globala, utan skriver om sådant som finns omkring oss. Alltså samma problem som Blankspot försöker lösa.

En del av lösningen är att ta hjälp av program som tar information från öppna databaser och sen skriver artiklar.

Det visar sig att artiklarna lockar både läsare och nya skribenter.

Framför allt är det här en utmärkt hjälp till små språkversioner där det inte finns så många wikipedianer. Och kanske inte så många uppslagsverk heller.

På det sättet kan vi ge flera miljarder människor den information de behöver.

Det här problemet kräver förstås att fler får tillgång till internet, men vi har ett så gott rykte att folk vill hjälpa oss. Så vi är hoppfulla där.

Kvinnounderskottet

Nu kommer vi till det sista övergripande problemet.

Det är inte bara personer utanför USA och Europa som inte bidrar till Wikipedia. Den största gruppen som är frånvarande är kvinnor.
10 män 1 kvinna utan Elsa-page001

Våra bästa undersökningar tyder på att bara omkring en av tio som skriver på Wikipedia är en kvinna.

Man har alltså mer än dubbelt så stor chans att stöta på en kvinnlig säkerhetsvakt än en kvinnlig wikipedian.

De flesta är överens om att det här påverkar innehållet på olika sätt.

  • I dagsläget är det bara en av fyra biografier som handlar om en kvinna.
  • Artiklar om kvinnor blir oftare raderade för att männen inte känner till dem.
  • Artiklarna om kvinnor fokuserar mer på deras familjer än på deras prestationer.

Vad vi kan se är den här vinklingen oftast inte gjord av illvilja, utan bara av gammal vana.

Därför har vi ägnat tid åt att göra folk uppmärksamma på den här skevheten.

Men problemet försvåras av att Wikipedia nästan alltid är en spegling av samhället.
Vi är bland annat styrda av vilka källor som finns. Och media skriver mer om män än om kvinnor. Den saken kan vi alltså inte lösa på egen hand.

Det som är positivt i den här frågan är att folk tenderar att överskatta hur stort problemet är.

Jag sa nyss att det bara är en av tio som är kvinna. Men hur många är de där tio egentligen?

10 män 1 kvinna-page001I Sverige föds det ungefär 750 flickebarn varje år som får namnet Elsa.

Om lika många kvinnor hade gjort fem redigeringar per månad hade det varit jämnt med männen.

Det är allt. 750 kvinnor som gör mer än 5 redigeringar per månad. Det är lite som att se jordens atmosfär. Det är bara en tunn hinna som skyddar jorden.

På engelskspråkiga Wikipedia behövs det 30 000 kvinnor som gör mer än 5 redigeringar i månaden. Men de har omkring en halv miljard kvinnor att ta av.

5 redigeringar på en månad. Det motsvarar en halvtimme om dagen, högst.

Det mest framgångsrika sättet att lösa kvinnounderskottet är de studentprogram vi har i USA, där mer än hälften av alla som deltar är kvinnor.

De får lära sig hur Wikipedias system fungerar och att komma in i gemenskapen, som en del i universitetsutbildningen. De älskar det.

Nu hoppas vi bara att de ska fortsätta att redigera när de slutar, för då kommer problemet att vara löst.

Så småningom. De har ju mer än ett dussin år att ta ikapp.

Så där har ni de tre stora hoten mot Wikipedia: veteranerna och nybörjarna som krockar, den globala snedfördelningen och kvinnounderskottet.

Alla de här hoten är alltså mycket större än klotter och försök att vinkla artiklarna.

Men det vi uppfattar som hot säger också något om oss själva.

Många gånger innebär hotet nämligen att vi måste ändra på oss.

Det kan handla om att vi måste byta inställning, som i krocken mellan nybörjare och veteraner.

Eller så kan det handla om att vi måste försöka fokusera på någon annan, utanför vårt vanliga intresseområde, som i behovet av att göra Wikipedia mer globalt.

Eller så kan det handla om att öppna ögonen för sina egna fördomar eller våga testa något nytt, som i fallet med kvinnounderskottet.

Om vi gör det, tror jag att vi kan göra något större.

Wikipedia står på giganters axlar. Men vi vill hitta fler giganter i hela världen så att nästa generation har ännu högre axlar att stå på.

Det vore fantastiskt om ni hjälpte till.

Tack.