Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Vi arrangerade Wikimedia Diversity Conference 2017

Wikimedia Diversity Conference 2017 – Group Pic by AbhiSuryawanshi [CC BY-SA 4.0], via Wikimedia Commons
Tidigare denna månad hade vi det stora nöjet att få stå som arrangör av Wikimedia Diversity Conference 2017. Konferensen hölls i Stockholm och samlade 80 wikimedianer från 43 länder och nästan 30 olika språk.

Likvärdighet i fri kunskap

Konferensen var en mötesplats för wikimedianer som verkar inom olika delar av wikimediarörelsen med frågor som rör ökad mångfald och inkludering av perspektiv utifrån kön, språk, könsidentitet, geografisk spridning och andra variabler. Den rörelseomfattande diskussionen som pågått inom Wikimedia sedan mars 2017 har utmynnat i en strategisk riktningsförklaring där likvärdighet i fri kunskap fått en framträdande roll. Konferensen var ett sätt för deltagarna att knyta an till den aktuella diskussionen, i synnerhet genom WikiCaféet. Utfallet från konferensen kommer dels att användas som underlag i planeringen för fas två av Wikimedias internationella strategiarbete. Därtill kommer konferensdeltagarna att kunna agera ambassadörer utifrån konferensens tema inom sina respektive Wikimediagemenskaper.

Hur gjorde vi?

Eric med Afifa från Bangladesh och Hana från Israel.
WikiDivCon 2017, Nov 5, 2017 71 by Afifa Afrin [CC BY-SA 4.0], via Wikimedia Commons
Detta var den första interantionella Wikimediakonferensen som vi har organiserat och planeringen påbörjades redan i början året. Eric Luth ansvarade för logistiska uppgifter såsom att se till att deltagare i behov av visum fick rätt stöd. Det var centralt att kunna bjuda in deltagare från alla kontinenter. Ulrika Eklund tog sig an uppgiften att planera mötets koreografi och facilitering.

2017-11-04 Stockholm, Diversity Conference, People at Diversity Conference (07) (freddy2001)
Ulrika som facilitator för hela konferensen.
Freddy2001 – Wikimedia Commons [CC BY-SA 3.0], via Wikimedia Commons
Vi vill framföra ett stort tack till de 14 volontärer som tog på sig uppgiften att göra konferensen så smidig som möjligt genom att filma, fota, dokumentera, guida, ladda upp, svara på frågor, lösa kriser och visa gästvänlighet.

Ta del av konferensen i efterhand

2017-11-04 Wikimedia Diversity Conference, Katherine Maher (01) (freddy2001)
Katherine Maher under öppningstalet.
Freddy2001 – Wikimedia Commons [CC BY-SA 3.0], via Wikimedia Commons
Konferensen öppnades av Katherine Maher, Executive Director på Wikimedia Foundation (se video), där hon bland annat tog upp en grupp frågor som ramverk för att tänka kring inkludering för likvärdighet.

Mer dokumentation i form av filmade presentationer, bildmaterial, arbetsmaterial och andra resultat finns på Wikimedia Commons och tillgängligt via konferensportalens dokumentationssida.

Wikimedianer från Tunisien, Ghana, Egypten och Stockholm.
Day 1 – WikiDivCon (13) by Rehman Abubakr [CC BY-SA 4.0], via Wikimedia Commons
Konferensen genomfördes med stöd från Wikimedia Foundation, Wikimedia Norge, Wikispeech och Livrustkammaren.

Dr. Nawar Halabi – the Arabic voice on Wikipedia?


One of our largest projects, at the moment, is the open source-based speech synthesiser Wikispeech, which, e.g., will be used on Wikipedia. Wikispeech will be released in Swedish, English and Arabic. Dr. Nawar Halabi, at University of Southampton, has released a large part of the material needed, to make it possible to release it it in Arabic, under a free license.  We decided to ask him a couple of questions.


Having Wikipedia with an Arabic Speech Synthesiser would encourage editors to correct and diacritise Arabic script on Wikipedia for it to be automatically read in a better way. This would make available more data for researchers to use in building their systems for Speech Synthesis and drive the technology forward.
                           – Nawar Halabi

500px-wikispeech_logo_proposals_v1_logo_3-svg
Logotype of Wikispeech

 

– Nawar, what is your background, academic and personal?

– I was born in Aleppo, Syria 26 years ago. I lived there for 22 years of my life. I have went to school there and done my computer science degree. I also received two degrees in Classical Guitar performance. in 2012 I moved to Southampton, UK to start my MSc (Masters) in Web Technologies, then I started my PhD in 2013 and finished in September 2016. I worked as a research assistant on several projects along side my PhD.

– How come you started working on a speech synthesis project, and why do you think this kind of projects is important?

– I worked with the Assistive Technologies Group at the School of Electronics and Computer Science at the University of Southampton for 3 years. This has grown my interest in developing technologies to help empower and include people. This is not only for people with special needs but for everyone and speech synthesis was my way of doing this. Also, Speech Synthesis has a lot of interesting scientific knowledge around it. Machine Learning, Artificial Intelligence, Mathematics, Signal Processing etc. All of which are subjects of interest to me.

– My interest in machine intelligence started when I was young but I only found out about speech synthesis when I came to Southampton.

– For what reasons did you decide to make your work available under a free license?

– It is a struggle for every PhD student to find purpose for their work and to make other researchers find and reuse their work. Working with Wikimedia is certainly a way for me to spread the word about my work and leaving part of my work for free gives me the joy of feeling that I’m helping someone and encourages people to use my work.

– For those planning to release their work under a free license, what are the lessons you would like to give?

– DO IT.
– Having a widely used free tool increases your employablity and puts your name out there.
– Make sure you inform your sponsoring institution early on. As many institutions are very defensive of the work done at their premises.

– What are your expectations on the future of Wikispeech?
– I would like to see wikispeech deployed on Wikipedia, specifically in Arabic, and I would personally love to work for them in the future. Having Wikipedia with an Arabic Speech Synthesiser would encourage editors to correct and diacritise Arabic script on Wikipedia for it to be automatically read in a better way. This would make available more data for researchers to use in building their systems for Speech Synthesis and drive the technology forward.

eric_luth_28wmse29
Eric Luth
Project Administrator,
Wikimedia Sverige
+46765 55 50 95
eric.luth@wikimedia.se