Ett tillgängligare Wikipedia genom Wikispeech: arbetet fortsätter

500px-wikispeech_logo_proposals_v1_logo_3-svg

For the blog post in English, see below.

Wikimedia Sverige har mottagit 3 miljoner kronor i finansiering från Post- och telestyrelsen för fortsatt utveckling av mjukvaran Wikispeech. Wikispeech är en talsynteslösning som kommer att göra Wikipedia mer tillgängligt för de som av olika orsaker inte kan läsa.

Arbetet med att utveckla Wikispeech kommer att ske tillsammans med Kungliga tekniska högskolan och Södermalms talteknologiservice AB. Därtill kommer vi att samarbeta runt utvecklingen med bl.a. vår tyska systerförening Wikimedia Deutschland samt Mozilla Foundation och få värdefull återkoppling från Dyslexiförbundet.

I projektet kommer vi att utveckla verktyg som gör det enkelt för alla att bidra till att göra talsyntesen bättre samt skapa röster och lexikon på andra språk. Beroende på intresse och kunskap hos den som bidrar till projektet kan detta till exempel innebära att volontären spelar in sin egen röst eller annoterar ljudfiler med lingvistisk information.

Inspelningar av ord kan användas direkt i exempelvis Wikipedias artiklar eller i den fria ordboken Wiktionary eller som strukturerad data på Wikidata. All denna taldata kommer även att vara tillgängliga för alla som vill använda den, från forskare till produktutvecklare till språkbevarare. För att förenkla återanvändning kommer allt material att vara uppmärkt med CC0, vilket innebär att det inte ställs några krav alls på den som återanvänder vår data.

Inledningsvis, i vårt arbete inom ramen för det här projektet, fokuserar vi på svenska, men vi kommer att bygga all mjukvara så att den fungerar på alla språk.

För AI-utveckling och forskning i Sverige och internationellt kommer dessa data att vara av stort värde för att förbättra talbaserade funktioner. Talbaserade lösningar kräver tusentals timmar med talinspelningar med viss lingvistisk information. Att samla in dessa data är dyrt, vilket är anledningen till att kommersiella aktörer bara erbjuder talbaserade lösningar på ett fåtal språk.

Eftersom vårt projekt kommer att nyttja crowdsourcing kan vi dock samla in stora mängder data, inte bara för de språk som är mest lönsamma för kommersiella produkter utan även för olika hotade språk och minoritetsspråk. Genom det stora globala nätverket av Wikimedia-volontärer kommer vi att kunna samla in data för språk som har få eller inga resurser idag. Att kunna lansera projektet i år, under Det internationella året för ursprungsspråk, känns därför extra kul.

Vi kommer också att arbeta för att ha en variation av talare även inom språken. Med hjälp av denna resurs kommer det att vara möjligt att skapa produkter som kommer kunna användas av så många som möjligt. Detta är centralt för att olika talbaserade system inte skall vara diskriminerande (och exempelvis bara fungera för manliga röster med Stockholmsdialekt).

Making Wikipedia accessible through Wikispeech: the work continues

Wikimedia Sverige has received a 3,000,000 SEK (ca. $322,000 or €285,000) grant from the Swedish Post and Telecom Authority for further development of the Wikispeech software. Wikispeech is a speech synthesis solution that’s going to make Wikipedia more accessible to people who for various reasons cannot read.

We are going work on Wikispeech together with the KTH Royal Institute of Technology in Stockholm and Södermalms talteknologiservice AB, a speech technology company. We are also going to collaborate with Wikimedia Deutschland, our sister chapter in Germany, and the Mozilla Foundation, among others. The Swedish Dyslexia Association is going to provide valuable feedback.

In this project we are going to build tools that make it easy for everyone to contribute and improve the speech synthesis and to create voices and glossaries in other languages. Depending on the contributor’s interests and knowledge, it could mean e.g. recording their own voice or annotating audio files with linguistic information.

The word recordings will be available for direct use e.g. in Wikipedia articles, in the free dictionary project Wiktionary or as structured data in Wikidata. The collected data will also be made available to anyone who wants to use it: from researchers to product developers to language preservers. All the data will be released under the CC0 Public Domain Dedication in order to make it as simple as possible to access and re-use – without any requirements imposed on the user.

Initially, within the scope of this project, we are focusing on Swedish, but all the tools we develop are going to be language-agnostic.

The collected data is going to be very valuable for AI researchers and developers in Sweden and internationally as they work on improving speech-based solutions. Those require thousands of hours of speech recordings, as well as certain linguistic information. Collecting all this data is expensive; as a consequence, commercial developers only provide speech-based solutions for a small number of languages.

However, because our project is going to make use of crowdsourcing, we will be able to collect large amounts of data – not only for the languages that rake in the most money for commercial actors, but also for minority languages and languages in danger of extinction. By tapping into the global network of Wikimedia volunteers, we will be able to collect data for languages that today have few, if any resources. That’s why launching the project during the International Year of Indigenous Languages feels especially appropriate.

We are going to strive for a diversity of speakers within any given language as well. That way, our resources will be useful for building products that can be used by as many people as possible. This is a key factor for developing speech-based systems that do not discriminate – such as by only recognizing male voices with a General American accent.

Bilder är information och kunskap – när de används

Kopplat Öppet Kulturarv (KÖK) – syftar till att synliggöra vårt kulturarv. Helmer Gustavson utför en imålning av runorna på Rökstenen. (Observera att det är ett arbete som endast får göras av Riksantikvarieämbetets experter, med tillstånd och kunskap i ämnet.) Foto: Bengt A Lundberg CC BY 2.5, via Wikimedia Commons.
Kopplat Öppet Kulturarv (KÖK) – syftar till att synliggöra vårt kulturarv. Helmer Gustavson utför en imålning av runorna på Rökstenen. (Observera att det är ett arbete som endast får göras av Riksantikvarieämbetets experter, med tillstånd och kunskap i ämnet.) Foto: Bengt A Lundberg CC BY 2.5, via Wikimedia Commons.

Riksantikvarieämbetet har tillgängliggjort ca 10 000 bilder på fornminnen och kulturminnesbyggnader. Dessa fotografier ligger nu fria för användning på mediabanken Wikimedia Commons. Med en öppen och fri licens är detta kulturarv redo att kopplas till artiklar om kulturarvet på Wikipedia – ett Kopplat Öppet Kulturarv.

Det ligger i Riksantikvarieämbetets uppdrag och intresse att se till att de bilder som visar vårt kulturarv används och sprids. Genom att skanna in gamla fotografier samt tillgängliggöra dem digitalt med en öppen och fri licens, en så kallad Creative Commons-licens, är det möjligt att till exempel använda dem för relevanta artiklar på Wikipedia.

– Vi på Riksantikvarieämbetet har länge arbetat för få fler att se och använda sig av våra bilder. Ett delmål i den pågående processen är att ytterligare tillgängliggöra och synliggöra det kulturarv som ligger i vår databas med kulturmiljöbilder, berättar Jan Ainali, verksamhetsutvecklare på Riksantikvarieämbetet.

Kopplat Öppet Kulturarv

Arbetet med att tillgängliggöra kulturmiljöbilderna sker inom ramen för projektet Kopplat Öppet Kulturarv (KÖK) som drivs av Wikimedia Sverige med stöd av Postkodlotteriets Kulturstiftelse tillsammans med UNESCO, Wikimedia Italia och Kulturarv utan Gränser. Genom att sammanställa information om världens hotade kulturarv och tillgängliggöra bilder, mediafiler och strukturerad data, digitalt för allmänheten på en plattform som många redan känner till, ökar tillgängligheten. Det blir med andra ord användbart, tillgängligt och bevarat digitalt. Vårt kulturarv blir härmed sök- och länkbart.

– För oss är det viktigt att de digitala bilderna används, att det kopplas till relevanta sammanhang och sprids. Det är först när objekten på fotografierna kopplas samman med korrekt information i ett relevanta kontext som de gör sitt jobb som information- och kunskapsspridare, på Wikipediaartiklar, utställningar med mera, menar Jan Ainali.

Ales stenar en skeppssättning från Vendeltiden. Foto: Bengt A Lundberg CC BY 2.5, via Wikimedia Commons.
Ales stenar en skeppssättning från Vendeltiden. Foto: Bengt A Lundberg CC BY 2.5, via Wikimedia Commons.

För att kunna tillgängliggöra fotografierna och möjliggöra fri- och öppen licens krävdes det ett grundligt förarbete, fotografens rättigheter måste vara utredda och tydliga. Med en genomtänkt strategi och med ett långsiktigt mål har det varit möjligt att genomföra. De flesta bilderna är tagna av Riksantikvarieämbetets anställda, som har fotograferat och dokumenterat vårt kulturarv.

Fotografier med bra metadata först ut

Det första steget var att hitta de fotografier som var uppmärkta med specifik metadata, med exakt information om vad de föreställer. Marcus Smith, verksamhetsutvecklare på enheten för digital förmedling på Riksantikvarieämbetet, gjorde de initiala sökningarna och filtrerade fram bilder med specifika objekt som till exempel en identifierad kyrka eller ett byggnadsminne. Sedan gav han listan med objekten till André Costa på Wikimedia Sverige som laddade upp alla de tusentals bilderna till Wikimedia Commons.

– Vårt samarbete med Wikimedia Sverige har hjälpt oss med vår vision och arbete att tillgängliggöra, nu är nästan 10 000 bilder av de cirka 200 000 bilderna från vår databank med kulturmiljöbilder, fria att användas, berättar Jan Ainali.

Vi vet att bilden föreställer Eketorps borg, men den tillgängliga information om när bilden är tagen är mycket vag: “Bilden troligen från mitten av 1970-talet”. Foto: Pål-Nils Nilsson CC BY 2.5, via Wikimedia Commons.

Vi vet att bilden föreställer Eketorps borg, men den tillgängliga information om när bilden är tagen är mycket vag: “Bilden troligen från mitten av 1970-talet”. Foto: Pål-Nils Nilsson CC BY 2.5, via Wikimedia Commons.

I höst laddas det upp fler bilder

Arbetet med att digitalisera och tillgängliggöra bilder på vårt kulturarv fortsätter, ytterligare omgångar med ännu fler motiv är planerade för uppladdning på Wikimedia Commons. Senare i höst behöver RAÄ hjälp av frivilliga med att identifiera innehållet i bilderna. Ett stort antal av dem föreställer kyrkor med information om vilken socken de är tagna i, plus en del fritext, men saknar strukturerad data om till exempel vilken kyrka det är bilden föreställer.

Men redan nu är mycket vunnet, berättar Jan Ainali:

– Som bonus under arbetet med att reda ut vad bilderna föreställer och vem som har tagit dem, har vi redan nu kunnat rätta till felaktig information. Det har inneburit en klar kvalitetshöjning för vår bilddatabas. Samtidigt som vi har tillgängliggjort våra bilder, har vi gjort vår egen metadata bättre och mer funktionell för oss själva. Jag vill starkt rekommendera andra myndigheter att göra ett arbete liknande det vi har gjort, för att få bättre databaser med aktuell och användbar metadata.

Samtliga av Riksantikvarieämbetets kulturmiljöbilder, som är uppladdade, hittar du här på Wikimedia Commons.

Den som är intresserad av att hjälpa till att värna vårt hotade kulturarv är hjärtligt välkommen till någon av Wikipedias skrivstugor. Det är ett bra tillfälle att ställa frågor, lära sig att redigera och att skriva artiklar på världens största uppslagsverk.

Text: Gitta Wilén

Wikidata – Snart på en meny nära dig

Logotypen för Wikidata Menu Challenge.

Ordspråket ”Äta bör man, annars dör man” har ni säkert hört. Att veta vad man äter är dock inte heller helt ointressant. Inte minst om du är vegan, har någon matallergi, av religiösa skäl inte vill äta vissa ingredienser eller bara är lite kräsmagad. När man är på resande fot kan det ofta vara lite krångligt att veta vad man beställer. Vi på Wikimedia Sverige gillar mat och resande och vi gillar öppna data och vi började spåna runt hur detta skulle kunna lösas. Det mynnade ut i projektet ”Restauranger och Wikidata 2015” där vi hoppades kunna visa på vad öppna data möjliggör i alla tänkbara branscher. Vi kunde förverkliga det hela tack vare stöd genom Vinnovas satsning på Nordic Open Data Week.

För ett par månader sedan initierat vi ett samarbete med matfestivalen Smaka på Stockholm och från dem fick vi 30 av restaurangmenyer i förväg. Ur menyerna plockade vi ut 300 olika ord och under tre veckor i maj genomförde vi tävlingen Wikidata Menu Challenge där volontärer från hela världen bjöds in till att översätta ingredienser, tillagningssätt och maträtter samt koppla ihop dem med lämpliga bilder respektive ljudinspelningar där modersmålstalare uttalar orden.

Statistiken före, under och efter Menu Challenge.

Allt detta arbete gjorde vi öppet och tillgängligt på webbplatsen Wikidata.org. Wikidata är en samling av strukturerad data som kan redigeras av både människor och datorer och som är lätt för datorer att förstå. Därmed kan den lätt inkluderas i olika produkter. Ett huvudfokus är så klart Wikipedia, men möjligheterna är enorma vilket var vad vi ville visa med det här projektet. Alla de här översättningarna och all media plockas nämligen automatiskt ut från Wikidata och paketerades om till trevliga flerspråkiga menyer.

Totalt redigerades de 300 objekten av 183 personer under tävlingen. De bidrog med ytterligare 4 700 översättningar tillagda på Wikidata, samt 102 bilder och 1 140 inspelningar av uttal. Totalt redigerades det 9 057 gånger, vilket kan jämföras med 493 gånger månaden innan. Hela 1 832 120 byte lades till under tävlingen. Eftersom arbete redan skett tidigare fanns totalt 19 274 översättningar på 349 olika språk och 284 av de 300 orden hade bilder kopplade till sig och nästan alla hade ljudinspelningar på åtminstone ett språk när vi började förevisa menyerna.

Vårt fina tält på Smaka på Stockholm.
Vårt fina tält på Smaka på Stockholm.

Parallellt med detta arbetade vi med att utveckla menyernas design, baserat på User:Denny ursprungliga design, samt göra det möjligt att visa både bilder och ljud. Vi hade god hjälp av Midas Nouwens som satte upp en design som både var tilltalande och enkel att använda samt Stefan Elfving och Arild Vågen som identifierade bakgrundsbilder att använda i menyerna. Torsdagen den 4 juni slog vi upp vårt tält på Smaka på Stockholm. Vi skulle komma att stå där i fyra dagar och hade laddat upp med mängder av broschyrer, planscher, pennor, klistermärken och mycket annat. På de deltagande restaurangernas tält hade vi satt upp QR-koder som länkade till deras översatta menyer. Utöver oss i personalen så deltog Jonatan Glad som volontär och vår praktikant Lydia Lindeberg-Lindvet med att ställa i ordning allt, ta bilder och fixa i ordning QR-koder m.m.

QR-koderna på restaurangerna sätts upp.

Samsung hade varit snälla nog att låna ut en hel hög med surfplattan Tab 4 åt oss på vilka vi kunde förevisa menyerna för besökarna och låta dem själva testa möjligheterna. Under de fyra dagarna passerade tusentals personer vårt tält. Att någon skulle stå där och prat om Wikipedia och Wikidata var inte vad folk förväntade sig och det fick folk att stanna till och höra sig för. Det faktum att vi inte var väntade blev i sig en dörröppnare. Det ledde även till att vi nådde grupper som vi vanligtvis missar. Vi förde mer än 220 samtal om öppna data och Wikimedias projekt och hur man kan bidra. Ett resultat vi är mycket nöjda med! Mottagandet var mycket gott och det ställdes mängder av frågor. Folk var imponerande och flera undrade om hur restaurangägare de kände kunde införa detta och hur de kunde översätta de ord som saknades på sina språk. En del personer stannade och pratade i en närmare en halvtimme. Vi fick en handfull nya medlemmar och även ett par utvecklare som kom förbi och som vill börja volontärarbeta med liknande projekt. Då allt material är öppna data, fritt innehåll eller fri programvara kan menyerna nu användas av andra restaurangägare som vill göra sina menyer mer lättförståeliga för turister med flera. Ta en titt du också och se om det passar för din verksamhet! Tillsammans kan vi med hjälp av öppna data göra resande ännu lite enklare och trevligare.

John Andersson, projektledare Wikimedia Sverige


English

Knowing what you stuff your face with is something a lot of people are interested in, especially if you are a vegan, have a food allergy, avoid some ingredients for religious reasons or if you are just a bit picky. However, when traveling it is often tricky to know what you are ordering. At Wikimedia Sverige we like food and traveling and we most certainly like open data. We started contemplating what we could do to make life a bit easier for the frequent flyer. What we ended up with was the project ”Restaurants and Wikidata 2015” where we hoped to show what open data can bring to all kind of different sectors. We were able to make it all happen thanks to Vinnova’s investment in the Nordic Open Data Week.

A couple of months ago we initiated a cooperation with the food fair Smaka på Stockholm (”Taste of Stockholm”) and from them we received 30 menus from participating restaurants in advance. From these menus we identified roughly 300 different food related terms and during three weeks in May we hosted the Wikidata Menu Challenge where volunteers from all over the world were invited to translate ingredients, cooking methods and dishes and pair them with appropriate images and sound recordings of native speakers pronouncing the words.

All this was done in the open and was accessible from the start through Wikidata.org. Wikidata is a collection of structured data that can be edited by computers and people alike. The knowledgebase is easy for computers to understand and therefore the information can easily be included in various products. A main focus is of course Wikipedia, but the possibilities are unlimited, which was what we wanted to show with this project. All these translations and all the media were then automatically pulled from Wikidata and repackaged into nice multilingual menus.

Overall 183 people edited the 300 items on Wikidata and added a whooping 4,700 translations, as well as 102 images and 1,140 recordings of pronunciations. In total there were 9,057 edits, which can be compared with 493 edits the month before. A full 1 832 120 bytes were added during the Challenge. Since the items had also been worked on prior to the Challenge a total of 19,274 translations in 349 languages existed by the time we started showing the menus at the food fair. Additionally 284 of the 300 items had images and almost all had audio recordings in at least one language.

In parallel with the challenge we also worked on developing the design of the menus, based on the initial design by User:Denny, and make it possible to display both images and sound on them. We had good help from Midas Nouwens who created a layout that was both appealing and easy to use as well as from Stefan Elfving and Arild Vågen who both helped with identifying images to use as backgrounds. Thursday, June 4, we opened up our tent at Smaka på Stockholm. We would stand there for four days and had loaded up with lots of brochures, posters, pens, stickers and more. On the tents of participating restaurants we had set up QR codes that linked to their translated menus. In addition to the staff Jonathan Glad participated as a volunteer and our intern Lydia Lindeberg-Lindvet helped to set everything in order, take photos, preparing QR codes, etc.

Samsung had been kind enough to lend us a bunch of Tab 4 tablets on which we could demonstrate the menus to visitors and allow them to try them out for themselves. During the four days, thousands of people passed by our tent. That someone would stand at the food fair and talk about Wikipedia and Wikidata was not what the visitors expected and their surprise made a lot of people stop and ask us what was going on. The fact that we were not expected was in itself an ice breaker. Thanks to this we could also reach groups that we usually don’t reach. Overall we had more than 220 conversations about open data and the Wikimedia projects, and how to contribute to these. A result we are very pleased with! The reception was very good and there were lots of questions. People were impressed with the menus and there were a few that knew restaurant owners that they thought would love to implement this. Others noticed that some words were not translated in thier language and wondered how they could help to complete them. Some people stopped and talked with us for close to half an hour. The chapter got a handful of new members and we even had a couple of developers who came past and wanted to start volunteering on similar projects. As all the material is open data, free-content or free software the menus can now be used by any other restaurant owners who want to make their menus more easily understandable for tourists and others.

Take a look and see if they would be a good addition to your business! With the help of open data we can make traveling even more easy and enjoyable together.

John Andersson, Project Manager Wikimedia Sverige