Dr. Nawar Halabi – the Arabic voice on Wikipedia?


One of our largest projects, at the moment, is the open source-based speech synthesiser Wikispeech, which, e.g., will be used on Wikipedia. Wikispeech will be released in Swedish, English and Arabic. Dr. Nawar Halabi, at University of Southampton, has released a large part of the material needed, to make it possible to release it it in Arabic, under a free license.  We decided to ask him a couple of questions.


Having Wikipedia with an Arabic Speech Synthesiser would encourage editors to correct and diacritise Arabic script on Wikipedia for it to be automatically read in a better way. This would make available more data for researchers to use in building their systems for Speech Synthesis and drive the technology forward.
                           – Nawar Halabi

500px-wikispeech_logo_proposals_v1_logo_3-svg
Logotype of Wikispeech

 

– Nawar, what is your background, academic and personal?

– I was born in Aleppo, Syria 26 years ago. I lived there for 22 years of my life. I have went to school there and done my computer science degree. I also received two degrees in Classical Guitar performance. in 2012 I moved to Southampton, UK to start my MSc (Masters) in Web Technologies, then I started my PhD in 2013 and finished in September 2016. I worked as a research assistant on several projects along side my PhD.

– How come you started working on a speech synthesis project, and why do you think this kind of projects is important?

– I worked with the Assistive Technologies Group at the School of Electronics and Computer Science at the University of Southampton for 3 years. This has grown my interest in developing technologies to help empower and include people. This is not only for people with special needs but for everyone and speech synthesis was my way of doing this. Also, Speech Synthesis has a lot of interesting scientific knowledge around it. Machine Learning, Artificial Intelligence, Mathematics, Signal Processing etc. All of which are subjects of interest to me.

– My interest in machine intelligence started when I was young but I only found out about speech synthesis when I came to Southampton.

– For what reasons did you decide to make your work available under a free license?

– It is a struggle for every PhD student to find purpose for their work and to make other researchers find and reuse their work. Working with Wikimedia is certainly a way for me to spread the word about my work and leaving part of my work for free gives me the joy of feeling that I’m helping someone and encourages people to use my work.

– For those planning to release their work under a free license, what are the lessons you would like to give?

– DO IT.
– Having a widely used free tool increases your employablity and puts your name out there.
– Make sure you inform your sponsoring institution early on. As many institutions are very defensive of the work done at their premises.

– What are your expectations on the future of Wikispeech?
– I would like to see wikispeech deployed on Wikipedia, specifically in Arabic, and I would personally love to work for them in the future. Having Wikipedia with an Arabic Speech Synthesiser would encourage editors to correct and diacritise Arabic script on Wikipedia for it to be automatically read in a better way. This would make available more data for researchers to use in building their systems for Speech Synthesis and drive the technology forward.

eric_luth_28wmse29
Eric Luth
Project Administrator,
Wikimedia Sverige
+46765 55 50 95
eric.luth@wikimedia.se

Dr. Nawar Halabi – den arabiska rösten på Wikipedia?


Ett av våra största projekt just nu går ut på att ta fram en talsyntes på öppen källkod, som kommer användas på Wikipedia. Syntesen kommer lanseras på svenska, engelska och arabiska. Dr. Nawar Halabi, från University of Southampton, har gett oss en stor del av det material som gör det möjligt för oss att lansera den på arabiska. Vi bestämde oss för att ställa några frågor till honom.


”Med en arabisk talsyntes på Wikipedia skulle redigerare uppmuntras till att förbättra, korrigera och diakritisera arabisk skrift på Wikipedia för att det automatiskt ska läsas upp på ett bättre sätt. Det skulle i sin tur tillgängliggöra mer data för forskare när de bygger sina system för talsynteser, och driva tekniken framåt.”

                      – Nawar Halabi

Nawar, vad har du för bakgrund?

500px-wikispeech_logo_proposals_v1_logo_3-svg
Wikispeechs logga.

– Jag föddes i Aleppo i Syrien för 26 år sedan. I 22 år av mitt liv har jag bott där. Jag gick i skola där, och fick min examen i datavetenskap där. Jag tog även två examina i klassisk gitarr-performance där. 2012 flyttade jag till Southampton i Storbritannien för att påbörja en master i webbteknologi, och 2013 påbörjade jag min doktorsgrad. Den blev klar i september 2016, samtidigt som jag har arbetat med flera projekt som forskningsassistent.

Hur kommer det sig att du började arbeta på ett talsyntesprojekt? Varför är den typen av projekt viktiga?

– I tre år arbetade jag i en grupp för tekniska hjälpmedel vid fakulteten för elektronik och datavetenskap på Southamptons universitet. Därigenom växte mitt intresse för att utveckla teknologi som kan få människor stärkta och inkluderade. Att utveckla sådan teknologi är inte bara viktigt för människor med specialbehov, utan för alla, och talsyntes var mitt sätt att bidra i det arbetet. Dessutom finns det mycket intressant vetenskap kring talsyntes. Maskininlärning, artificiell intelligens, matematik, signal processing och så vidare. Ämnen som alla ligger nära mitt hjärta.

– Mitt intresse för maskinintelligens började redan som ung, men det var först i Southampton som jag upptäckte talsyntesen.

– Hur kommer det sig att du valde att släppa ditt arbete under en fri licens?

 Varje doktorand kämpar med att hitta ett syfte för sitt arbete, och för att få andra forskare att hitta och återanvända deras verk.  Att arbeta med Wikimedia är verkligen ett sätt för mig att sprida ordet om mitt arbete, och att lämna delar av mitt verk fritt ger mig glädjen att kunna känna att jag hjälper någon och uppmuntrar människor att använda mitt verk.

– För de som funderar över att släppa sitt arbete under en fri licens, vilka tips och erfarenheter skulle du vilja ge?

Gör det!
– Att ha ett fritt och välanvänt verktyg ökar dina möjligheter till anställning, och skapar dig ett namn.

– Men se till att informera den institution som sponsrar dig tidigt. Eftersom många institutioner är väldigt defensiva när det kommer till det arbete som utförs på deras domäner.

– Vad har du för förväntningar på Wikispeechs framtid?

– Jag skulle vilja se Wikispeech användas på Wikipedia, framförallt på arabiska, och personligen skulle jag älska att arbeta för dem i framtiden. Med en arabisk talsyntes på Wikipedia skulle redigerare uppmuntras till att förbättra, korrigera och diakritisera arabisk skrift på Wikipedia för att det automatiskt ska läsas upp på ett bättre sätt. Det skulle i sin tur tillgängliggöra mer data för forskare när de bygger sina system för talsynteser, och driva tekniken framåt.

eric_luth_28wmse29
Eric Luth
Projektadministratör,
Wikimedia Sverige
+46765 55 50 95
eric.luth@wikimedia.se

En ny programmerare presenterar sig

SONY DSC
Foto: Erik Vasaasen, CC BY-SA 4.0

Jag heter Alicia Fagerving och är sedan december 2016 anställd som programmerare på Wikimedia Sverige. Jag är göteborgare, sverigefinne i hjärtat (som idogt och med varierande resultat kämpar med att lära sig språket) och icke-binär transperson.

Jag ingår i det team som arbetar med Kopplat Öppet Kulturarv – ett projekt med syfte att tillgängliggöra information om kulturarv i olika länder via Wikidata, Wikimedias plattform för öppna data. Projektet är nu i full gång och data har samlats in från bland annat Syrien och Georgien, länder med fascinerande men samtidigt kanske inte så välkänt kulturarv. Nu har jag fått möjligheten att tillsammans med andra eldsjälar se till att så många som möjligt kan lära sig om dessa, inte sällan hotade, platser, byggnader och monument.

Att arbeta med att göra kunskap tillgänglig för flera känns naturligt för mig som har en lång bakgrund inom Wikimediarörelsen. Som en av svenskspråkiga Wikipedias administratörer har jag både skrivit nya artiklar och fått inblick i gemenskapens arbetssätt och värderingar. Samtidigt har jag kunnat inse uppslagsverkets begränsningar i att hantera strukturerad data, så som listor och tabeller som kräver regelbunden uppdatering. Det är där som Wikidata, Wikipedias senaste systerprojekt, kommer in i bilden. All information på Wikidata kan användas av Wikipedias alla språkversioner och är dessutom strukturerad för att lätt kunna genomsökas och bearbetas av dataprogram.

I mitt arbete kommer jag med andra ord kunna förena min engagemang för fri kunskap med mitt intresse för programmering och databearbetning. Jag är nyfiken på det mesta och har en hyfsat brokig utbildningsbakgrund inom både humaniora och data, med tyngdpunkt på engelska respektive webbutveckling. Förutom Wikipedia omfattar mina intressen bland annat litteratur, konsthistoria och språkvetenskap. Tack vare Wikipedia har jag kunnat både utöka mina kunskaper inom dessa ämnen och dela med mig av dem med andra. Nu ser jag fram emot att ta nästa steg och ägna mig åt ett världsomfattande projekt för att göra mer kunskap fri och öppen.

Alicia Fagerving
Programmerare,
Wikimedia Sverige
alicia.fagerving@wikimedia.se