Allmän rösträtt

Text: Eva Wisten

När Theodore Twombly, deprimerad skribent på BeautifulHandwrittenLetters.com blir förälskad i operativsystemet Samantha i Spike Jonzes film »Her«, är det inga problem att tro på hans nya relation. Den honungsrökiga rösten som nu fyller Theodores ödsliga tillvaro är minst lika uttrycksfull som ett ansikte. Scarlett Johanssons ansikte. För även om skådespelerskan bara lånar historien sin röst, är hennes närvaro lika stark som om hon varit i bild.

Men är det så i allmänhet att människor matchar sina röster? Att vi faktiskt ser ut och är ungefär som vi låter? Röstforskning är ett växande fält. Det finns brottsutredare som vill veta hur en brottsling ser ut baserat på en röst. Säkerhetsföretag som försöker sälja röstanalysverktyg och lögndetektorer. Marknadsförare som undrar vilken röst som bäst säljer rakblad eller gräddglass.

Jody Kreiman, professor vid University of California i Los Angeles, har tillsammans med Diana Sidtis, professor i kommunikativa vetenskaper och sjukdomar, skrivit »Foundations of Voice Studies«, en textbok om röstforskning som sammanför studier från många olika fält.

– Det tog oss tio år att skriva boken, dels för att fältet är så brett och dels för den hastighet som röstforskningen utvecklas i just nu, säger Jody Kreiman.

Det genomgående temat i boken är att lyssnare tycker likadant i större utsträckning än de egentligen har fog för. Utöver kön och kanske ålder, säger rösten inte alls särskilt mycket om vilka vi är, om vår kompetens och personlighet. Rekryterare bör tvärtom försöka bortse från sina röstbaserade intryck.

– Datan pekar på det. Men det är förstås svårt att göra. Många fördomar som förmedlas utifrån röstkvalitet är undermedvetna, säger Kreiman.

För röstigenkänning är en grundläggande del av hur vi, och många andra djur, förhåller oss till världen. Sjölejon- och pingvinfamiljer hittar varandra på rösten i sina kolonier. Barns förmåga att känna igen sin mammas röst är på plats redan när de föds. Rösten är också en viktig del i hur vi uppfattar andra människors känslor. Sorg och ilska är lättast att identifiera, följt av rädsla och glädje. Glädje och lycka är lättare att se på ansiktet. Ilska kan vara svårt att se i ansiktet men är tydligt i rösten. Men också här finns stereotyper som inte alltid har med verkligheten att göra. En röst där man hör andetagen associeras med intimitet och sorgsenhet. En spänd röst med ilska. Knarr låter som en offerröst, någon som är desperat och behövande.

Men människor skiftar oerhört i hur mycket de uttrycker känsla i rösten, skriver Jody Kreiman i »Foundations of Voice Studies« och nämner att lyssnare bedömer talarens känslotillstånd rätt i ungefär 60 procent av fallen.
När det gäller personlighet är vi sämre på att dra korrekta slutsatser. I stället tror vi på stereotyper som kanske inte är så överraskande: en person med hög, bullrig röst uppfattas som extrovert. En mjuk, återhållsam stämma som introvert. Kraftiga, aggressiva röster bedöms ofta som dominanta ledarröster medan passiva, milda röster som undergivna.

Barnlika röster med högre tonläge förknippas med mindre makt men mer värme och tillgänglighet. En sådan röst ger en bild av en talare som är svagare, mindre bestämd, mindre kompetent, mer ömtålig men också snällare och ärligare än en talare med en mer mogen röst.

En kvinna som talar högre uppfattas som mer bestämd men mindre självsäker. Attraktiva (som mätt av en poängskala satt av lyssnare) kvinnliga röster associeras med värme och en sympatisk person. Attraktiva manliga röster med makt.

Det finns ett ganska starkt samband mellan talhastighet och lyssnarens idé om talarens kompetens. Folk som pratar snabbt upplevs som mer kompetenta men mindre vänliga. De som pratar väldigt långsamt uppfattas som mycket mindre kompetenta. Normala talhastigheter upplevs som mest övertygande och empatiska, och minst nervösa.
Lögner är svåra att upptäcka genom rösten. Beteenden som uppstår när någon ljuger varierar från person till person. Män­niskor som har professionell erfarenhet av att avgöra om någon ljuger, som brottsutredare, polygrafutredare och tullarbetare, var inte bättre än en kontrollgrupp av amerikanska studenter på att höra på rösten om någon ljuger. Däremot hade de större självförtroende.

Men även om det kan finnas stora skillnader mellan personlighet och röst är rösten viktig för vår identitet. När den amerikanske filmkritikern Roger Ebert drabbades av cancer i hakan förlorade han förmågan att äta, dricka och prata. Talet fick han först via »Alex«, en av Apples röster som översätter text till tal. Men trots att Ebert berömde Alex som både lyhörd och kapabel att skilja på frågetecken och utropstecken, kände han sig distanserad från andra människor.
Hans fru föreslog att de skulle försöka med en skräddarsydd röst. Med ljudslingor från filmkritikerns tv-inspelningar, satte skotska text-till-tal-företaget Cereproc ihop en digital version av Roger Eberts röst. Den är inte perfekt. Orden hoppar lite, flödet låter inte riktigt naturligt.

– Men det låter som Roger Ebert,  baserat på mina kommentarer om »Casablanca« och »Citizen Kane«, som han säger själv.

De två stora användningsområdena för röstforskning i dag är just röstsyntes – konstgjord produktion av mänskligt tal, som till exempel i automatiska telefonsvararsystem – och biomedicin: hur operationer i talapparaten påverkar en röst.

– Vi kan fortfarande inte förutse resultatet av operationer i röstorganen eller analysera en röst och veta hur vi kan förändra de fysiska förutsättningarna för att få ett specifikt resultat, säger Jody Kreiman, vars arbete på UCLA fokuserar på att hitta en sådan koppling.

För människor som inte har ett befintligt arkiv av sin röst finns nu Vocal ID, ett företag baserat i Boston, USA. Vocal ID tar emot röstdonationer — långa inspelningar — som företaget hackar upp till de ljud som utgör byggstenarna i tal och länkar samman dem igen till en artificiell röst som låter som donatorn. Ny teknik finns dessutom för att göra olika varianter på samma röst.

– Det är svårt, dyrt och tar lång tid, säger Kreiman. Men jag är hoppfull. Deras röster låter redan ganska bra.

Fakta | Tala som en tv-serie

I de flesta språk höjer man betoningen mot slutet av en mening för att antingen visa att man ställer en fråga eller markera att man planerar fortsätta prata. Om man avslutar varje mening i en uppåtböj pratar man som en »Valley Girl«, en tjej från området San Fernando Valley i Los Angeles eller som Cher Horowitz, Alicia Silverstones rollkaraktär i nittiotalskomedin »Clueless«. »Valleyspeak« uppstod förmodligen i Australien men blev ett fenomen i Kalifornien på 1970-talet. Valleyspeak-talaren uppfattas generellt som »osäker, bekräftelsesökande och/eller vill behålla kontrollen över samtalet och fortsätta prata«. »Valleyspeak« har nu spridits över Amerika, inkluderar båda könen och dyker upp allt högre i åldrarna.