Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Wikimedia Sverige och Dataskyddsförordningen (GDPR)

Ni har säkert hört om Dataskyddsförordningen (General Data Protection Regulation (GDPR)) som snart träder i kraft. Denna nya lagstiftning får en stor påverkan på många organisationers arbete med data och kräver i många fall stora insatser. I detta blogginlägg gör Mattias Blomgren, ordförande i Wikimedia Sverige, en genomgång av det arbete som Wikimedia Sverige har gjort som en del av förberedelserna.

Dataskyddsförordningen, är ett EU-direktiv, vilket gäller från och med den 25 maj 2018, och som ersätter Personuppgiftslagen (PUL). Dataskyddsförordningen innebär gemensamma regler i 31 länder (EU/EES), och strängare regler än vad PUL gjort. Ett av syftena med Dataskyddsförordningen är att skydda enskildas grundläggande rättigheter och friheter, särskilt deras rätt till skydd av personuppgifter.

Dataskyddsförordningen innebär följande:

  • Den gäller för alla företag och organisationer som hanterar data om EU-medborgare,
  • Den innebär att man skall uppfylla den, men också kunna uppvisa att organisationen uppfyller den.
  • Syftet med insamling av data skall anges, men det omfattar även var data lagras, vilka som har tillgång till data, med vilka tredje parter data utbyts och var de håller till etc.
  • Datasäkerhet skall byggas in i systemen och lämpliga organisatoriska och tekniska åtgärder skall vidtas för att säkerställa lämplig säkerhet i förhållande till risken.
  • En riskanalys och konsekvensbeskrivning av systemen skall göras.
  • Säkerhetsincidenter skall rapporteras till myndigheter och till dem som omfattas av datauppgifterna.
  • Att inte uppfylla reglerna kan leda till omfattande böter.

Wikimedia Sverige anser att integritetsfrågor är viktiga och har därför arbetat intensivt med att förbereda föreningens verksamhet inför Dataskyddsförordningens ikraftträdande. Bland åtgärderna märks:

  • Utarbetande av en ny integritetspolicy, med tillhörande förklarande sidor. I enlighet med föreningens transparens, redovisar vi hur vi har arbetat med Dataskyddsförordningen, och hur vi kommer att arbeta för att följa den framöver.
  • Införande av ett nytt medlemsregister, som uppfyller Dataskyddsförordningens regler.
  • Tecknande av personuppgiftsbiträdesavtal med företag, som hanterar personuppgifter för oss.
  • Inventering av vilka personuppgifter föreningen hanterar, fastställande av rättslig grund med vilken föreningen hanterar uppgifterna och säkerhetsklassning av uppgifterna har gjorts.
  • Överflyttning av personuppgifter till servrar, som hanteras enligt Dataskyddsförordningens krav.
  • Framtagande av rutiner i det fall personuppgiftsincidenter skulle inträffa, vilket kan kräva rapportering till berörda snarast och till Datainspektionen inom 72 timmar.

Wikimedia Sveriges integritetspolicy, med tillhörande sidor, finns på föreningens wiki under fri licens. Därmed kan andra organisationer ta del av den och använda den i sina verksamheter. Wikimedia Sverige ser föreningens arbete med att uppfylla Dataskyddsförordningen som en del i spridandet av fri kunskap om integritetsfrågor. För er som inte har hunnit arbeta med detta så mycket som ni hoppats tror vi att ni genom att återanvända vårt arbete kan komma att spara en hel del tid och hjälpa er att komma i mål till den 25 maj. Om materialet var till värde för din organisation, överväg gärna att bli organisationsmedlem i Wikimedia Sverige.

Wikimedia Sverige är nu redo för Dataskyddsförordningens ikraftträdande den 25 maj 2018.

Tycker du att offentlig konst ska kunna delas online?

Tycker du att offentlig konst ska kunna delas online? På bilden syns inte Näckens polska av konstnären Bror Hjorth.På bilden syns inte konstnären K G Bejemarks staty av Nils Ferlin.

Vad krävs för att vi oinskränkt ska kunna dela digitala bilder på vår offentliga konst online – utan att bryta mot någon lag? I vår FAQ berättar vi om hur det nya domslutet begränsar detta och varför det nu behövs tydliga politiska beslut.

Domslutet kommer att kosta Wikimedia Sverige cirka 750 000 kr i rättegångskostnader plus ersättning. Nu vänder vi oss till alla som tycker att den här domen är orimlig. Ert stöd är viktigt.

Donera 50, 100, 200 kr eller valfri summa. Enklast swishar du till oss på 1232692697. Skriv BUS i kommentaren, så går pengarna oavkortat till detta arbete.

Du kan också bli medlem i den ideella föreningen Wikimedia Sverige.

Vi är tacksamma för att ni delar och sprider.

#panoramafrihet