Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

15-årskalas i Göteborg

Detta är ett gästinlägg av Per A.J. Andersson. Åsikter och kommentarer som nämns nedan reflekterar inte automatiskt åsikterna från Wikimedia Sverige.

Söndagen den 15 maj 2016 åt jag tårta. Men jag var inte ensam. Den dagen samlades 28 personer på Göteborgs litteraturhus för att fira svenskspråkiga Wikipedias första 15 år.

Göteborgs litteraturhus används till konferenser, årsmöten, boksläpp och andra litterära och kulturella evenemang. Denna söndag hade Wikipedia-rörelsen i Göteborg bokat lokalen, för ett evenemang som både var tårtkalas, konferens och mötesplats kring Wikipedia.

1063px-15_c3a5r_15_maj_e28093_wikipedia_pc3a5_svenska_28panelen2c_detalj29
Paneldeltagare, Foto: Per A.J. Andersson, CC BY-SA 4.0, via Wikimedia Commons

Paneldebatt

Efter en inledande tillbakablick bjöd vi besökarna på en paneldebatt med fem inbjudna namn. Där fanns en fackboksförfattare (Peter Olausson, bekämpare av ”faktoider”), en arkivarie (Stefan Högberg, även projektledare på kulturarvskonferensen Digikult), en universitetschef (Ulla Sätereie, prefekt på journalistutbildningen vid Göteborgs universitet) och en wikiansvarig (Magnus Sörell, redaktör på Seriewikin). Panelen avrundades med Mattias Blomgren, Wikimedia Sveriges ordförande. Alla fem skulle ge sin bild av hur Wikipedia påverkat deras vardag, och de skulle debattera omkring Wikipedias fördelar och nackdelar.

Åtminstone var det tänkt så. Någon hätsk debatt blev det dock inte, eftersom de flesta verkade överens om att Wikipedia i stort sett var en bra sak. Peter Olausson använder ofta Wikipedia – främst varianten på engelska – som källa när han reder ut moderna myter. Stefan Högberg är som arkivarie glad att Wikipedia är med och sprider kunskapen om vårt kulturarv långt utanför väggarna på museer och arkiv. Ulla Sätereie har barn som är uppvuxna med Wikipedia och ser själv uppslagsverket som en stor tillgång (att situationen för den traditionella journalistiken blivit hårdare kan inte Wikipedia lastas för utan informationssamhället i stort, menade hon).

Magnus Sörell såg å sin sida Wikipedia som en förebild i sitt eget skrivande på Seriewikin, ett ställe där man bara ägnar sig åt tecknade serier. Det var lika svårt att klämma fram kritik mot Wikipedia från Wikimedias ordförande (om någon trodde något annat…).

Kanske är det så, att Wikipedia är något man tar för givet. Kanske är Wikipedias belackare mer tunnsådda än förr. Som en påminnelse om att uppslagsverket ännu inte blivit lastgammalt fick panelmedlemmarna som avslutning varsin T-tröja, med budskapet ”Känner mig som 15” väl synligt.

1024px-15_c3a5r_15_maj_e28093_wikipedia_pc3a5_svenska_28690429
Alicia visar Senaste ändringarna, Foto: Per A.J. Andersson, CC BY-SA 4.0, via Wikimedia Commons
1024px-15_c3a5r_15_maj_e28093_wikipedia_pc3a5_svenska_28691229
Tårtstund, Foto: Per A.J. Andersson, CC BY-SA 4.0, via Wikimedia Commons

Minipresentationer och tårta

Därefter följde en halvtimme med minipresentationer av ett antal pågående projekt och fenomen på Wikipedia. Kopplingen till OpenStreetMap förklarades (och hur cykelvägar i Vårgårda kan synas på Wikipedia), liksom den årliga konferensen Wikimania, klottersanering, konflikter och Projekt Göteborg. I det sistnämnda projektet både skrivs och fotograferas det, så att hus, gator och göteborgare presenteras bättre.

Sedan var den officiella delen av evenemanget över, och vi kunde äntligen hugga in på pastasallad och de två tårtorna. Det var tänkt att eftermiddagen skulle avslutas med en skrivstuga, där det skulle skrivas på Wikipedia. Datorer var framställda, och informationsfoldrar delades ut. Vi ägnade oss dock mest åt nätverkande och trivsamma meningsutbyten. Det språkades bland annat om Bokmässan, wikifikor, fotosafarier, samarbeten med kommunen och med universitetet. Samt om de regelbundna skrivstugorna i samma lokal.

Vad de projekten handlar om kan vi ta en annan dag. Wikihälsningar, tack och hej!

Per A.J. Andersson, ”Paracel63” på Wikipedia – sedan 2007

Wikipedialäger i Molkom:­ Att gå ifrån att veta om till att veta hur

I dag berättar vår gästskribent Sandra Abi-Khalil om sin upplevelse av Wikipedialägret i Molkom i början av juli. /AT

sandra_molkom
Sandra (i mitten) fördjupar sig i Wikipedia. Foto: Hannibal. Licens: CC by-sa 4.0 International.

Sedan flera år tillbaka använder jag Wikipedia nästan dagligen. I teorin är det ett fantastiskt koncept och i praktiken är det en lika fantastisk kreation. Jag kan inte ens minnas när jag först förstod att Wikipedia byggs upp, ut och om av vem som helst, men det var många år sedan. Därför är det lustigt att jag själv aldrig tog tag i några av de brister jag råkade på. Särskilt som jag är en ganska pedantisk och perfektionistisk typ. Men det kändes på något sätt aldrig riktigt lämpligt – antingen var anledningen till att jag alls befann mig på Wikipedia att jag var mitt uppe i något projekt eller så kändes det bara lite för stort att ta på mig själv att editera någon annans bidrag.

När jag så råkade få se en annons om ett Wikipedialäger kändes det genast lockande. När jag såg att det var riktat till enbart kvinnor och med fokus på kvinnor blev det ännu mer lockande. För att inte nämna att lägret dessutom skulle gå av stapeln i en liten ort i Värmland mitt i sommaren, vilket ju lät som en lisa för själen bara det. Så, jag ansökte och blev såklart superpepp när jag några veckor senare fick veta att jag kommit in. Det var dock ingenting jämfört med hur lyrisk jag var efter en vecka på plats.

Det går sällan att sätta fingret på exakt allt som gör vissa upplevelser så positiva men några faktorer som definitivt gjorde Wikipedialägret till en härlig upplevelse var:

1) Deltagarna
Gruppen var en härlig blandning av personer i olika ålder och med olika intressen och erfarenheter, men med vissa avgörande saker gemensamma, framför allt massor med passion för kunskap.

2) Ledarna
Mer engagerade och uppriktigt välkomnande ledare skulle inte gå att önska sig. Och vilket tålamod! Om de blev enerverade på gruppens alla frågor, och vår ständiga fallenhet för att råka springa vidare till ämnen som var avsedda att avhandlas lite senare, så var det i alla fall inget som märktes. Eller så ignorerade vi det kanske bara, lite lagom bekvämt.

3) Omgivningarna
Lugnet i lilla Molkom var avslappnande, vädret under första veckan i juli var härligt och livet i allmänhet på en folkhögskola var ett fascinerande fenomen. Det var som en aldrig sinande ström av mat: morgon, middag och kväll, samt ett par gånger däremellan, skulle det ätas. Till en början var det nästan enerverande att behöva slita sig från sitt aktuella projekt istället för att bara knattra på i timtal, men efter bara ett par dagar så hade en vant sig vid dessa avbrott och kunde till och med erkänna att de hade sina fördelar.

Och sist, men verkligen inte minst:

4) Ämnet
Att få djupdyka in i den helt egna värld som Wikipedia utgör var otroligt spännande. På många sätt påminde det mig om när jag skulle gå en steppkurs ­ det är en vanlig sak att slänga ur sig att det är svårt att steppa men det var inte först när jag började försöka som jag insåg riktigt hur sant det var. Jag tror att de flesta av oss var på det klara med att Wikipedia var mer mångfacetterat än bara en artikel per ämne men ingen av oss var nog förberedd på riktigt hur omfattande och intrikat det var. Att kunna ta ett snabbspår in i allt detta var både utmattande och uppfriskande på samma gång, men framför allt kändes det som en enorm förmån att få sig så mycket kunskap till skänks.

Så, hur summera denna upplevelse, denna vecka i det lilla Molkom och på det stora Wikipedia? Det var en munter, smått överväldigande, utmanande men samtidigt lättsam, otroligt intressant och spännande tillställning, som lämnade mig med känslan av att ha tagit de första stegen mot att bli en wikipedian.

Sandra Abi-Khalil