Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Information om Wikimedia Sveriges ekonomiska situation

Idag skickade vi följande meddelande till våra medlemmar:

Wikimedia Sverige går igenom ett omtumlande år just nu, med både stora projekt och stora händelser. Den största händelsen var att domen i målet mot Bildupphovsrätt i Sverige (BUS) gick emot oss. Detta medförde en stor kostnad i form av ersättning för rättegångskostnaderna. Med de ytterligare ersättningskraven från BUS, för de bilder vi har visat på offentlig konst, har det nu uppkommit ännu en stor utgift.

Under året har vi avslutat Kopplat Öppet Kulturarv och vid årsskiftet avslutas Wikispeech, två stora projekt som tillsammans har stått för ungefär två tredjedelar av vår budget. Vi har goda förhoppningar om att projekten kommer att fortsätta under 2018 i något förändrad form. Vi har dock nyligen fått information från finansiärerna att fortsatta projekt tidigast kommer att komma igång under våren eller början av sommaren, jämfört med att vi tidigare fått information om att projekten skulle kunna starta under vintern.

Under sommaren och hösten som varit har även flera utlysningar vi planerat för att söka pengar i uteblivit eller försenats p.g.a. förändringar hos finansiärerna. Detta har gjort att vi inte kunnat starta en del projekt vi tidigare räknat med.

BUS-domen, i kombination med ovanstående gör att vi behöver se över våra kostnader och minska personalstyrkan tills vi är säkra på att projekten kommer igång och att utbetalningar kommer in. Det innebär även att vi måste ändra tidsplanerna för en del av våra projekt.

Om du har funderat på att donera pengar till Wikimedia Sverige är det extra värdefullt just nu. Om du vet någon som vill bli medlem för att stötta föreningen och bidra till vårt arbete så tipsa dem nu. Sprid gärna ordet i dina kanaler!

Du kan donera via:

Swish: 123 269 269 7

Bankgiro: 5822-9915

Mer information om hur du kan donera pengar finns på vår webbplats.

Jag vill tacka er för att ni stödjer vårt arbete. Om ni har några frågor eller funderingar är ni välkomna att kontakta mig.

Vänligen, John Andersson, Verksamhetschef, Wikimedia Sverige.

Om schibboleth, förkortningar och förvirring

Även fast det bara är tre bokstäver från m till p i alfabetet ställer det både till förvirring och kräver en del förklaring när jag pratar om skillnaden mellan Wikimedia och Wikipedia. Som tur är har fantastiska Johan Jönsson skrivit om det så bra att jag klipper in det rakt av här.

 

On shibboleths, abbreviations and confusion. And Wikipedia. Mostly Wikipedia.

 

The Wikimedia Foundation is an American non-profit that owns and operates Wikipedia and other Wikimedia projects (Wiktionary, Wikimedia Commons, Wikiversity, Wikibooks and so on). Wikimedia Sweden is a Swedish non-profit that supports free knowledge, with a strong but not exclusive focus on Wikimedia projects. It’s one of the Wikimedia Foundation’s local chapters, but a legally independent entity.

 

In their relationship to Wikipedia, they are two very different beasts. The Wikimedia Foundation owns Wikipedia. It’s not involved in the day-to-day business of running the different language versions, which is done by the communities who edit them, but deals with much of e.g. the technical development, runs the servers, deals with fundraising and so on. Wikimedia Sweden is more of a supporter club, so to speak. It reaches out to get more people to edit, organises edit-a-thons, supports editors by trying to give them tools to write articles or lend them equipment to create better illustrations and so on. As an organisation, it has no voice in how Wikipedia is run (though the individuals involved might have in their capacity as Wikipedia editors, of course), at least no more than any other organisation that supports the Wikipedia project and has time and resources to spend on initiatives they think will make it better.

This means that ”Wikimedia” is something of a shibboleth. Those active in the Wikimedia movement will never or rarely use the term ”Wikimedia” as an abbreviation for the Wikimedia Foundation or Wikimedia Sweden, because they know it’s not obvious what they refer to. The Wikimedia movement, including the Foundation, all chapters, user groups, Wikimedia projects and everyone involved in editing them? The Wikimedia Foundation? A specific chapter? We specify: the Wikimedia movement, the Wikimedia Foundation, Wikimedia Sweden. We abbreviate in different ways: the WMF, WMSE.

 

(Likewise, most Wikipedia editors shudder internally every time someone refers to Wikipedia as ”Wiki”. A wiki is the technology used. It feels like referring to the BBC as ”Broadcasting Corporation” or to Girl Genius Online as ”Online”. If we need to abbreviate Wikipedia, it’s WP.)

 

So… Now you know why I look confused the next time you say something about ”Wikimedia”, which has happened a lot over the last few weeks: I always need to do a quick mental calculation and figure out what you actually meant.

Så… Nu har jag ett bra ställe att hänvisa till nästa gång nån skriver Wikipedia men menar Wikimedia, eller skriver Wiki och menar svenskspråkiga Wikipedia.