Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Dr. Nawar Halabi – den arabiska rösten på Wikipedia?


Ett av våra största projekt just nu går ut på att ta fram en talsyntes på öppen källkod, som kommer användas på Wikipedia. Syntesen kommer lanseras på svenska, engelska och arabiska. Dr. Nawar Halabi, från University of Southampton, har gett oss en stor del av det material som gör det möjligt för oss att lansera den på arabiska. Vi bestämde oss för att ställa några frågor till honom.


”Med en arabisk talsyntes på Wikipedia skulle redigerare uppmuntras till att förbättra, korrigera och diakritisera arabisk skrift på Wikipedia för att det automatiskt ska läsas upp på ett bättre sätt. Det skulle i sin tur tillgängliggöra mer data för forskare när de bygger sina system för talsynteser, och driva tekniken framåt.”

                      – Nawar Halabi

Nawar, vad har du för bakgrund?

500px-wikispeech_logo_proposals_v1_logo_3-svg
Wikispeechs logga.

– Jag föddes i Aleppo i Syrien för 26 år sedan. I 22 år av mitt liv har jag bott där. Jag gick i skola där, och fick min examen i datavetenskap där. Jag tog även två examina i klassisk gitarr-performance där. 2012 flyttade jag till Southampton i Storbritannien för att påbörja en master i webbteknologi, och 2013 påbörjade jag min doktorsgrad. Den blev klar i september 2016, samtidigt som jag har arbetat med flera projekt som forskningsassistent.

Hur kommer det sig att du började arbeta på ett talsyntesprojekt? Varför är den typen av projekt viktiga?

– I tre år arbetade jag i en grupp för tekniska hjälpmedel vid fakulteten för elektronik och datavetenskap på Southamptons universitet. Därigenom växte mitt intresse för att utveckla teknologi som kan få människor stärkta och inkluderade. Att utveckla sådan teknologi är inte bara viktigt för människor med specialbehov, utan för alla, och talsyntes var mitt sätt att bidra i det arbetet. Dessutom finns det mycket intressant vetenskap kring talsyntes. Maskininlärning, artificiell intelligens, matematik, signal processing och så vidare. Ämnen som alla ligger nära mitt hjärta.

– Mitt intresse för maskinintelligens började redan som ung, men det var först i Southampton som jag upptäckte talsyntesen.

– Hur kommer det sig att du valde att släppa ditt arbete under en fri licens?

 Varje doktorand kämpar med att hitta ett syfte för sitt arbete, och för att få andra forskare att hitta och återanvända deras verk.  Att arbeta med Wikimedia är verkligen ett sätt för mig att sprida ordet om mitt arbete, och att lämna delar av mitt verk fritt ger mig glädjen att kunna känna att jag hjälper någon och uppmuntrar människor att använda mitt verk.

– För de som funderar över att släppa sitt arbete under en fri licens, vilka tips och erfarenheter skulle du vilja ge?

Gör det!
– Att ha ett fritt och välanvänt verktyg ökar dina möjligheter till anställning, och skapar dig ett namn.

– Men se till att informera den institution som sponsrar dig tidigt. Eftersom många institutioner är väldigt defensiva när det kommer till det arbete som utförs på deras domäner.

– Vad har du för förväntningar på Wikispeechs framtid?

– Jag skulle vilja se Wikispeech användas på Wikipedia, framförallt på arabiska, och personligen skulle jag älska att arbeta för dem i framtiden. Med en arabisk talsyntes på Wikipedia skulle redigerare uppmuntras till att förbättra, korrigera och diakritisera arabisk skrift på Wikipedia för att det automatiskt ska läsas upp på ett bättre sätt. Det skulle i sin tur tillgängliggöra mer data för forskare när de bygger sina system för talsynteser, och driva tekniken framåt.

eric_luth_28wmse29
Eric Luth
Projektadministratör,
Wikimedia Sverige
+46765 55 50 95
eric.luth@wikimedia.se

Läget för video på Wikipedia 2016

Detta är ett gästinlägg av Jan Ainali. Åsikter och kommentarer som nämns nedan reflekterar inte automatiskt åsikterna från Wikimedia Sverige.

För tre år sedan hade vi en genomgång i bloggen med instruktioner för hur man laddar upp en video på Wikimedia Commons. Vad har hänt sedan dess? Under våren har jag laddat upp ett trettiotal filmer och tänkte dela med mig av lite av mina tips och tricks.

Det började egentligen med att jag upptäckte att den video som jag kunde spela in med min mobil höll ganska hög kvalitet. Det har hänt en hel del med tekniken de senaste åren och filerna man kan få ut är högupplösta och i de senare mobilmodellerna är även bildstabiliseringen mycket bättre än tidigare. En video kan säga väldigt mycket mer än vad en stillbild kan göra. Jämför till exempel dessa två. Precis efter att jag hade tagit stillbilden hörde jag tåget närma sig stationen och började filma. Det ger ett helt annat liv till en annars ganska tråkig bild.

Tips: Ibland vill man klippa filmen innan man laddar upp den. För det kan jag rekommendera Androvid för Android. Har ni andra tips så lämna de gärna som en kommentar!

Ösmo station 1
Ösmo station av Ainali [CC BY-SA 3.0], via Wikimedia Commons

Ösmo station av Ainali [CC BY-SA 3.0], via Wikimedia Commons

Videoconvert

Filmen är alltså inspelad med min mobil och uppladdad till Wikimedia Commons utan att använda mig av en dator. För att ladda upp videofiler måste de ju vara i formaten webm eller ogv, så hur gör jag då? Jo, det finns ett verktyg som heter Videoconvert som fungerar alldeles utmärkt för detta. Du godkänner först att verktyget får ladda upp via ditt konto (det är det som kallas Oauth). Ladda sedan upp en eller flera filer genom att välja dem med den översta knappen. OBS! Lämna inte sidan medan uppladdningen pågår, för då avbryts den, gå inte ens in för att fylla i mer information om filmerna. När filmen har laddats upp trycker du på den mörkblå knappen vid varje fil för att starta konverteringen av den. Denna process pågår i bakgrunden och nu kan du börja fylla i filinformation på den ljusblå knappen. Om du använder den ljubslåa knappen ovanför de uppladdade filerna (user options) kommer denna att användas till att förifylla nya uppladdade filer, något som är praktiskt om du har flera saker som ska vara likadana. Ladda om sidan för att se om det har konverterat klart När så är fallet är det bara att publicera till Wikimedia Commons med den gröna knappen. Klart!

Nedan kan du se vilka användarinställningar (user options) jag använder för att få in en del smarta kategorier som gör att filmerna lättare hittas.

== {{int:filedesc}} ==
{{Information
|Description=
{{sv|1=.}}
|Source={{own}}
|Date=2016-06-03
|Author= [[User:Ainali|Jan Ainali]]
|Permission=
|other_versions=
|other_fields=
}}

== {{int:license-header}} ==
{{self|cc-by-sa-4.0}}

[[Category:Videos from Sweden]]
[[Category:June 2016 in Sweden]]
[[Category:]]

Efter 1= skriver man in filbeskrivningen. Observera att jag inte lägger till någon mall för koordinater. Eftersom att jag tillåter kameran att spara dem i filmfilen så sköts det av en bot efter att jag har laddat upp filen på Commons.

Alternativ väg – video2commons

Ett annat verktyg är video2commons som jag använde till att ladda upp denna film.

Kulturarvsdagen 2015 – Riksantikvarie Lars Amréus Av Riksantikvarieämbetet [CC BY 3.0], via Wikimedia Commons

Till det så klistrar du helt enkelt in en länk till videon, men det kräver att den redan är publicerad någon annanstans först. Det behöver inte vara ett problem, då många videotjänster redan har appar som gör det väldigt enkelt att ladda upp filmer från mobilen. Den har också fördelen att den kan ta bort ljudet eller bilden om du skulle vilja samt ladda upp eventuella undertexter. Även denna tjänst kräver i början att du låter den använda ditt konto för uppladdningen.

Förbättringar i Wikimedia Commons

När det förra blogginlägget skrevs kunde man max ladda upp 500 MB stora filer, och man var tvungen att hitta en kryptisk användarinställning för att aktivera det. Numera kan alla ladda upp 2 GB stora filer rakt av så om det har varit ett problem för dig förut så kan du testa igen nu.

Vilka filmer passar?

Ja, vad ska man filma och ladda upp? Eftersom utbudet idag är så skralt (det finns mindre än 500 filer i kategorin Videos from Sweden) så gör nästan varje video något gott. Du kan dels tänka att det är något som rör sig, ett skeende, där en stillbild inte skulle göra objektet rätta.

Något så enkelt som en enkel film på en damm, ger en uppfattning om hur mycket vatten som flödar.

Dammen i Augerum By Jan Ainali (Own work) [CC BY-SA 4.0], via Wikimedia Commons

Det kan också vara ett komplicerat objekt, där du genom att röra på kameran kan göra det mer lättförståeligt.

Placeringen av gäddtrappan gjorde det svårt att ta en överblicksbild, men genom att panorera kunde hela fångas.

Överblick av gäddtrappa Av Jan Ainali (Own work) [CC BY-SA 4.0], via Wikimedia Commons

Du kan förmodligen i din vardag finna objekt som ännu inte har blivit filmade, men som ger en mycket djupare förståelse av objektet.

Denna skalbagge landade på min hatt, och man kan se hur den rör antenner, huvud och ben samtidigt som den tredimensionella förståelsen ökar med videons hjälp.

Bug on hat Av Jan Ainali (Own work) [CC BY-SA 4.0], via Wikimedia Commons

Så sätt igång, tryck på inspelningsknappen på mobilen och hjälp till att berika Wikimediaprojekten med rörliga bilder!