Kungliga Biblioteket och länkade öppna data – vart nu?

Moderna lösningar gör det lättare för oss att hitta de resurser vi behöver – på biblioteket och på internet. Foto: Johannes Jansson, CC BY 2.5 DK, via Wikimedia Commons.

De senaste månaderna har vi på Wikimedia Sverige åtnjutit det enorma privilegiet att jobba nära en av Sveriges mest kända och högaktade kulturarvsinstitutioner, nämligen Kungliga biblioteket. Projektet Strategisk inkludering av biblioteksdata på Wikidata lider i dagarna mot sin slut, vilket ger oss ett ypperligt tillfälle att reflektera över det spörsmål som likt en aldrig slocknande låga har belyst vårt arbete:

Vari sitter värdet i länkade öppna data för bibliotek – och för dess användare?

Något som framkom med sin tydlighet under vårt arbete med Wikidata är att det sanna värdet av denna plattform ligger inte främst i de enskilda objekten (som just nu är över 56 miljoner till antalet), utan i deras inbördes kopplingar. Varje nytt objekt ökar värdet på de objekt det länkar till. När vi laddade upp 60 000 personidentifierare och flera hundra bibliografiska poster till Wikidata öppnade vi samtidigt en dörr för användarna att inte blott söka i denna samling, utan även att kombinera poster, sökningar, sökresultat och samlingar med andra resurser.

Wikidatas styrka ligger nämligen i det stora antalet datakällor som använts för att skapa denna kunskapsdatabas. Bara inom det svenska språkområdet finns många välbekanta databaser representerade: KulturNav, Projekt Runeberg, Gravstensinventeringen, Svenskt biografiskt lexikon med mera. Genom att fungera som ett nav för externa identifierare ger Wikidata oss möjlighet att kombinera data från dessa resurser i ett och samma objekt.

Fler och fler kulturarvsinstitutioner runt om i världen har nu fått ögonen öppna för Wikidata. Att även Kungliga biblioteket fått det är särskilt spännande, då bibliotek, med sin expertis inom informationshantering och katalogisering, och med sin demokratiska uppgift, är Wikimediarörelsens meningsfränden. Genom att satsa på länkade öppna data öppnar biblioteken för nya möjligheter när det gäller att nå allmänheten med sina resurser.

Tack vare länkade öppna data och Wikidata är det möjligt att genomföra sökningar som är mer komplexa än vad som är möjligt i en vanlig katalog. Till exempel kan man hitta böcker av kvinnliga Pulitzerpristagare som finns i svensk översättning, eller finna författare som också var konstnärer och vars verk finns på museer nära mig. Ur bibliotekets synpunkt ger detta grund till att bygga mer intressanta informationstjänster och belysa sina samlingar ur nya synpunkter. De kan använda sig av informationen på Wikidata för att berika sina egna resurser, och bygga vidare på insatsen av de tusentals volontärer som finns utspridda i hela världen och som varje dag lägger upp nya fakta och skapar nya kopplingar mellan objekten.

En annan möjlighet som öppna bibliografiska data ger finns väldigt nära oss, nämligen på Wikipedia. Som alla som redigerar Wikipedia är väl medvetna om, källor är A och O i artikelskrivandet. Utan dem har uppslagsverket ingen trovärdighet. Eftersom information från Wikidata kan inkluderas på Wikipedia, ter det sig naturligt att utnyttja Wikidatas potential som en bibliografisk databas för att förvara bibliografiska uppgifter om de källor som det hänvisas till på Wikipedia. Detta skulle göra det lättare för skribenten, som skulle slippa att mödosamt skriva in och formatera artikelns notapparat, men även för den nyfikne läsaren, som skulle kunna följa Wikidatalänkarna för att upptäcka fler verk inom samma ämne eller skrivna av samma författare.

Det är inte en slump att bibliotek kan göra stor nytta med sina länkade öppna data just på Wikipedia, detta demokratiska samarbetsprojekt. För det här är nog det största värdet med länkade öppna data – dess demokratisering. En institution som öppnar sig mot Wikidata, Wikipedia och de andra Wikimediaplattformarna tar en stark ståndpunkt för samarbete och för allas lika värde. Kunskapsskapande är inte längre förbehållet elfenbenstornets elit. Det är något vi kan alla göra – genom att klicka på ‘Redigera’ på Wikidata.


Du kan läsa mer om projektet Strategisk inkludering av biblioteksdata på Wikidataföreningens wiki.

Stort engagemang i WikiGap och under WikiGap Challenge

I över 30 länder har fler än 700 engagerade och entusiastiska volontärer samlats och arbetat tillsammans för att minska gapet på Wikipedia. Deltagarna har redigerat, översatt eller skrivit nya biografier om kvinnor.

Det finns fyra gånger så många artiklar om män som om kvinnor på Wikipedia. Omkring 90 % av alla som skriver på Wikipedia är män. Genom den internationella kampanjen WikiGap arbetar vi för att förändra detta och skapa ökad representativitet av de grupper som idag är en minoritet på världens mest lästa encyklopedi. WikiGap är ett, för andra året i rad, mycket lyckat resultat av ett spännande samarbete mellan svenska Utrikesdepartementet, Wikimediaorganisationer, volontärer och olika lokala aktörer över hela världen samt Wikimedia Sverige.

Nina Wormbs inledningstalar under WikiGap på KTH 8 mars 2019 Foto: Mia Jacobsson, CC BY SA 4.0, via Wikimedia Commons

Wikigap Challenge

Tävlingen WikiGap Challenge gav i år kampanjen ytterligare en dimension. De internationella eventen bands samman och förenade tävlingsdeltagarna i en gemensam strävan efter att öka närvaron av kvinnor på Wikipedia. Sammanlagt redigerades fler än 1 440 artiklar av 90 tävlingsdeltagare – ett enastående resultat!

Vinnaren av WikiGap Challenge kommer från Ukraina och heter Andriy Grytsenko. Andriy vann efter att ha bidragit till inte mindre än 360 biografier om kvinnor.

Lina Eidmark, initiativtagare och projektledare för WikiGap 2018 på UD:

Förhoppningen med tävlingen var framför allt att uppmuntra de människor som lärt sig redigera på Wikipedia i samband med WikiGap att fortsätta engagera sig efter eventens slut. Sedan är det också ett sätt för oss att ge tillbaka till några av dem som bidrar till att öka jämställdheten på internet och behålla känslan av att man är många människor som arbetar tillsammans mot ett gemensamt mål, i det här fallet att synliggöra framstående kvinnor på Wikipedia.

Lina Eidmark, initiativtagare och projektledare för WikiGap 2018 på UD Foto: Sofia Nahringbauer / UD, CC BY SA 4.0, via Wikimedia Commons

Kampanjen fortsätter

Under 2018 väckte WikiGap ett engagemang som löpte som en röd tråd under hela året. Vi ser fram emot att få följa kampanjen och dess resultat också under 2019.

Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.