Var med och bidrag till världens största databas av kulturarvsinstitutioner!

I morgon, den 15 maj, sätter vi igång ett nytt, spännande projekt: crowdsourcingkampanjen FindingGLAMs. Vi vill uppmuntra och engagera GLAM-personal – i första hand i Sverige och senare även i resten av världen – att förbättra informationen om kulturarvsinstitutioner på Wikidata.

Att hitta rätt är första steget till kunskap. Foto: Sanwal Deen, CC0 1.0, via Wikimedia Commons.

Vad handlar det om egentligen?

Wikidata är en fri och öppen kunskapsdatabas samt ett av Wikipedias systerprojekt. Den innehåller uppgifter om allt möjligt: personer, sjöar, taxa, böcker – och GLAMs, alltså kulturarvsinstitutioner (Galleries, Libraries, Archives, Museums). Projektet FindingGLAMs, vilket vi har introducerat tidigare, går ut på att förbättra hur dessa täcks på Wikidata.

FindingGLAMs-kampanjen är ett nästa steg i detta projekt. Vi vill bjuda in GLAM-personal, alltså de som har mest aktuell kunskap inom området, till att redigera Wikidata och förbättra informationen. Man kan visserligen komma långt med att importera dataset från olika källor, men arbetet slutat inte där – sådana dataset finns ju inte alltid, och även om de gör det så kan de vara föråldrade eller innehålla luckor och brister.

Wikidatas styrka ligger i dess tusentals aktiva volontärer utspridda över hela världen som varje dag förbättrar objekten, uppdaterar och lägger till nya uppgifter och skapar kopplingar mellan dem. Vi tycker att fler GLAM-experter borde ansluta sig till dem och dela med sig av den kunskap de sitter på! Vi vill därför värva nya användare och uppmuntra dem till att förbättra informationen om kulturarvsinstitutioner på Wikidata. För att sänka tröskeln utvecklar vi ett verktyg, Monumental, som gör det enkelt för nybörjare att sätta igång utan att behöva lära sig Wikidatas gränssnitt och datamodell.

Vår förhoppning är att engagera många nya användare i hela världen, särskilt i områden där det inte finns så bra databaser över kulturarvsinstitutionerna. Vi börjar med en testupplaga av kampanjen där vi fokuserar på bibliotek i Sverige. En stor del av dessa har redan objekt på Wikidata, vilka är baserade på Kungliga bibliotekets biblioteksdatabas, och kan säkerligen förbättras. Våra erfarenheter från kampanjen och deltagarnas återkoppling kommer att hjälpa oss finslipa våra verktyg och processer innan vi utvidgar projektet till andra länder.

Varför skall jag vara med?

Vår målsättning inom projektet FindingGLAMs är att fylla Wikidata med världens alla kulturarvsinstitutioner – jo, eller åtminstone så många som möjligt. I ett större perspektiv är projektet blott en byggsten i en världsomspännande rörelse där tusentals volontärer samarbetar för att samla in all världens kunskap så att den kan komma alla till gagn. Du som bidrar blir en av oss – och gör skillnad!

Hur gör jag för att deltaga?

I korthet: gå till verktyget Monumental, logga in med ditt Wikimedia-konto och hitta ett objekt som kan förbättras. Sök till exempel efter ett bibliotek du känner till – vilket av de tomma informationsfälten kan du fylla i? Kanske bibliotekets gatuadress eller webbplats?

Mer information om hur du använder Monumental, samt om FindingGLAMs, hittar du på kampanjportalen.

Och kom ihåg att det finns många sätt att bidra till fri kunskap. Till exempel genom att förbättra Wikipedia med fler hänvisningar till pålitliga källor. Ta gärna en titt på kampanjen #1lib1ref som även den pågår nu under våren och riktar sig till bibliotekarier!

Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Inbjudan till Wikipedialäger för kvinnor

Vill du tillbringa en helg med att redigera på Wikipedia?

Wikimedia Sverige erbjuder under våren stipendier till veckoslutsläger för den som vill komma igång med att redigera på Wikipedia. Stipendierna vänder sig till dig som identifierar dig som kvinna och har ingen eller liten erfarenhet av Wikipedia. Under lägervistelsen får du helpension  på vandrarhem och vägledning i hur du kan bidra till Wikipedia, genom att redigera redan publicerade artiklar eller skapa egna.

Låter det som något för dig? Ansök senast den 15 februari. Det finns två läger att välja mellan. Du är välkommen att söka till båda lägren, men du har bara möjlighet att bli antagen till ett av dem. Här når du ansökningarna:

Tio kvinnliga lägerdeltagare tittar ut genom två fönster.
Lägerdeltagare sommaren 2018. Foto: Sofie SigrinnCC BY-SA, via Wikimedia Commons

Bakgrund

Wikipedia är en av världens mest besökta webbplatser med omkring en halv miljard besökare per månad. Wikipedias mål är att ge världen tillgång till mänsklighetens samlade kunskap. Wikimedia Sverige arbetar därför med att stödja grupper som är underrepresenterade på Wikipedia. En av dessa grupper är kvinnor. Mätningar har visat att bara någonstans mellan 9 och 23 procent av de som bidrar till Wikipedia är kvinnor. Det underskottet påverkar innehållet. Bristen på mångfald bland de som skriver artiklar gör att de ämnesområden som täcks på Wikipedia kan bli ofrivilligt homogena. Inom vissa områden saknas artiklar om kvinnor som borde ha artikel, och artiklar som främst intresserar kvinnor är kortare än dem som främst intresserar män. Detta underskott kan även styra ordval, tolkningar och vad som behandlas i ett ämne. Även om de flesta som skriver artiklar på Wikipedia gör det med ett stort engagemang och med en vilja att skriva på ett encyklopediskt sätt, så kommer underrepresentationen av kvinnor göra att artiklarna skrivs ur ett visst perspektiv.

Wikimedia Sverige har inlett flera initiativ för att uppmuntra en större mångfald bland skribenterna på Wikipedia. Ett av dessa är Wikipedialäger för kvinnor, som har anordnats sedan sommaren 2016. Här kan du läsa ett blogginlägg skrivet av en deltagare på lägret 2016.