Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Biblioteksdatahackathonet – en dag av lärdomar och erfarenhetsutbyte

Arbete pågår! Foto: Mia Jacobsson, CC BY 4.0, via Wikimedia Commons.

Om du någon gång har letat efter information på ett svenskt bibliotek – till exempel för att skriva en väl källbelagd Wikipediaartikel – så är du säkert bekant med katalogen Libris. Kungliga biblioteket (KB), som tar hand om denna ingångsport till hundratusentals böcker och tidskrifter, jobbar just nu för fullt med utvecklingen av Libris XL – ett nytt, bättre Libris som utnyttjar möjligheterna med Länkade Öppna Data (LOD). LOD möjliggör inte endast mer effektiva sökningar i materialet, utan även gör datan lättare att återanvända av såväl människor som datasystem. Genom att kombinera data från olika källor kan man skapa lösningar, som webbplatser och appar, som är mer än bara summan än beståndsdelarna. Fler och fler institutioner väljer att tillgängliggöra sina data; du kan se exempel på såväl dataset som tjänster på https://oppnadata.se/showcase/.

Denna utveckling gör detta till en ytterst spännande tid för samarbete och gemensamma insatser för att tillgängliggöra mer biblioteksdata på Wikimediaplattformarna. Det var just denna tanke som låg till grund när Wikimedia Sverige och Kungliga biblioteket ordnade ett gemensamt hackathon. Själva ordet kan låta mystiskt, för att inte säga farligt – det får dig kanske att tänka på sluga hackare som stjäl dina kreditkortsdata – men målet med evanemanget var faktiskt det motsatta. Vi skulle nämligen utveckla idéer för att sprida öppna biblioteksdata till allas gagn.

Det var med stor glädje vi välkomnade inte färre än tio KB-anställda som till vardags sysslar med Libris, metadata och katalogisering. Intresset och nyfikenheten på Wikidata var stor, och efter en kortare presentation om Wikidata och projektet Strategisk inkludering av biblioteksdata på Wikidata valde flera deltagare att fördjupa sig i denna plattform och göra sina första redigeringar där.

Att stärka kopplingarna mellan Libris och Wikidata var en röd tråd som återfanns i många av diskussionerna. Att auktoritetsdatanavet VIAF innehåller Wikidatalänkar är bevis på att Wikidata inte längre ses som en ny spännande leksak utan har tagit plats i det globala öppna data-landskapet. En idé lades fram om att även Libris skall kunna länka till författarnas Wikidataobjekt; något som säkerligen skulle glädja de många Wikimediaanvändare som använder sig av Libris.

Hur biblioteken kan använda sig av Wikimediaplattformarna för att leverera mervärde (och mer-upptäckarglädje) till sina användare var också en fråga som engagerade flera. Kan vi utnyttja Wikidatas roll som ett centralt nav i Wikimediavärlden för att hjälpa biblioteksanvändaren att hitta intressanta böcker, artiklar och multimedia om specifika ämnen? En bibliotekskatalog fungerar bäst när man vet vad man letar efter, men det ju inte alltid man gör det. Det måste bli lättare för biblioteksanvändaren att upptäcka nya resurser utifrån sina intressen.

Är Wikidata på väg att bli ett självklart tillägg i bibliotekariens verktygslåda? Det får framtiden utvisa. Den myckna entusiasmen och kreativiteten vi fick se tyder i alla fall på att vi är på god väg dit. Du kan läsa mer om hackathonets resultat på vår föreningswiki. Stort tack till alla som var med och bidrog till en produktiv och inspirerande dag!

Var i världen finns GLAM?

Hur många GLAM finns det? Var finns de? Vilka olika sorter är det?

Galleries, Libraries, Archives and Museums (ungefär motsvarande ABM) finns över hela världen, i olika storlekar, former och åldrar. En del är privata, andra offentliga, några stängda och hemliga, andra öppna och publika. En del listor och databaser finns som sammanställer information om GLAM-institutioner, men de är utspridda på olika ställen, har olika format, är uppdelade på olika sätt och har luckor mellan sig.

1280px-fire_at_museu_nacional_05
Vid en brand i Brasiliens nationalmuseum i Rio de Janeiro i september 2018 förstördes hela museet och samlingarna, väldigt lite var digitaliserat och är därmed är allt förlorat för alltid. Foto: Felipe Milanez, CC BY-SA via Wikimedia Commons

Under de kommande 15 månaderna kommer vi i projektet #FindingGLAMs, tillsammans med UNESCO och Wikimedia Foundation, med finansiering från Svenska postkodstiftelsen, att reda lite ordning bland GLAM-institutionerna.

– Att vi kommer att kunna skapa en bättre översikt över var någonstans kulturarvsinstitutionerna finns i världen kommer att vara en resurs för att planera samarbeten och hitta nya partners, samt ge beslutsfattare och andra aktörer ett bättre kunskapsunderlag. Det är en bit saknad infrastruktur som vi kommer att börja arbeta med här, säger John Andersson, verksamhetschef på Wikimedia Sverige.

Med hjälp av Wikimediaprojekten, och främst Wikidata och Wikimedia Commons kommer vi att samla in både ny och befintlig data om GLAM-institutioner och matcha den mot Wikidatas struktur så att den sedan kan användas både på Wikipedias över 300 språkversioner, samt av alla andra som är intresserade av öppna data och öppna API:er. Vi kommer även att samla in mediefiler och samlingar och göra dem tillgängliga via mediadatabasen Wikimedia Commons. Detta är extra spännande då denna håller på att byggas om för att snart bli mer sökbar genom införande av strukturerad data. Vi kommer att noggrant dokumentera arbetet i olika fallstudier som kommer att ligga till grund för en vitbok så att andra kan bygga vidare på det arbete som skett. Ett flertal evenemang kommer att ordnas för att engagera experter och allmänhet att bidra till att materialet kommer till användning.

– Vårt gemensamma kulturarv är oerhört värdefullt att vårda och skydda, särskilt på platser som är utsatta för hot. Idag saknas överblick över de institutioner som finns, samt deras samlingar, som i många fall inte finns digitaliserade. Vi är därför stolta att tillsammans med Wikimedia arbeta för att identifiera och kartlägga dessa institutioner samt även synliggöra vad som kan göras för att säkra framtida tillgänglighet till kulturarvet, säger Marie Dahllöf, generalsekreterare för Svenska Postkodstiftelsen.

På projektsidorna, både den interna och externa, kommer det att finnas information om projektet och hur du kan engagera dig.

(För den som funderar på om inte Wikimedia Sverige fått stöd av Postkodstiftelsen tidigare så stämmer det nästan. I deras förra form Postkodlotteriets Kulturstiftelse fick vi stöd för Kopplat Öppet Kulturarv som genomfördes 2016-2017 tillsammans med UNESCO, Kulturarv utan gränser och Wikimedia Italia.)