Samtalets mystik

Text: Tobias Edlund

»Hello, HAL. Do you read me, HAL?«
»Affirmative, Dave. I read you.«
»Open the pod bay doors, HAL.«
»I’m sorry Dave, I’m afraid I can’t do that.«
»What are you talking about, HAL?«
»This mission is too important for me to allow you to jeopardize it.«

År 2001 var året då vi i rymdskepp inte bara skulle vara på väg mot Jupiter, utan dessutom göra det i sällskap med superdatorer som gick att konversera med. Tanken att vi skulle kunna prata med maskinerna – och de med oss – fanns dock redan i de stumma science fiction-filmerna i 1900-talets barndom, långt före Stanley Kubricks episka rymdäventyr.

När vi skriver 2011 är den största nyheten i Apples senaste mobiltelefon Siri, en digital assistent som med röstkommandon bland annat ska kunna skriva meddelanden och kolla upp morgondagens väder. Men borde inte detta ha kommit tidigare?

När datorerna under 1960-talet började kunna utföra alltmer komplicerade uträkningar kom optimistiska uttalanden från anrika tekniska universitetet MIT i Boston om att man inom 10–15 år skulle kunna bygga robotar liknande de i då­tidens filmer – avancerade artificiella intelligenser som bland mycket annat både kunde höra och tala. Sverige låg inte långt efter amerikanerna. Forskningen inom det som kallas talteknologi började redan på 1950-talet då pionjären Gunnar Fant grundade talkommunikationsinstitutionen på KTH i Stockholm, nyss hemkommen från två år vid just MIT. 1953 byggde han OVE I, en maskin som man kunde styra till att uttala olika vokaler. Vägen mot den talande och lyssnande datorn visade sig dock vara mycket krokigare än man först trott.

De första hindren på denna väg har varit rent akustiska – det är helt enkelt inte så lätt för en dator att ta in de läten den mänskliga arten utstöter. Hur ett ord, eller bara en bokstav, uttalas varierar beroende på vem det är som pratar och länge fick man programmera om en dator för varje ny talare.

För att anpassa systemen används så kallad maskininlärning. Det innebär att systemet matas med information om hur ett A låter när olika personer säger det tillsammans med uppgifter om bland annat vilka ord i systemets förinställda vokabulär som är vanligare än andra och i vilka ordföljder.

Tack vare flitig forskning har just denna disciplin, taligenkänningen, kommit relativt långt. Det stora problemet sitter i stället djupare i det mänskliga språket.

»I am Elektro, mightiest of all robots! My brain is bigger than yours.«

Elektro var en av de stora attraktionerna på världsutställningen i New York 1939. Den drygt 229 centimeter långa brons­röda roboten utvecklades av elektronikföre­taget Westingtonhouse som en reklam­gimmick och kunde till synes beordras att göra saker med röstkommandon. Att han genom att omvandla orden till elektriska impulser egentligen reagerade på hur många stavelser det fanns i den aktuella ordern fick den imponerade publiken aldrig veta. Han kunde på kommando bland annat röka cigaretter, räkna på fingrarna och stolt proklamera att hans 27 kilo tunga hjärna minsann var större än åskådarnas.

Roboten Elektro satte med sitt skryt ett metalliskt finger på en av de stora skillnaderna mellan den maskinella och den mänskliga intelligensen. En dator kan spara enormt mycket mer information än vår hjärna, men samtidigt inte föra ett samtal på ett dagisbarns nivå. Enligt Staffan Larsson, lingvist och forskare på Centrum för språkteknologi i Göteborg, beror detta på att datorer helt enkelt inte förstår konceptet kontext.

– Språk är så väldigt enkelt för människor att det är svårt att förstå ens vad problemet är. Man inser inte hur oerhört komplicerat steget är från att höra de ord någon sagt till att komma på vad man själv ska säga, utifrån sammanhanget man är i. Det gör vi hela tiden utan problem, men för en dator är det svårt, säger han.

För oss människor är kontexten i ett samtal allt. Känner man till sammanhanget gör det ingenting om den person man pratar med hoppar över ett ord här och där, ironiserar eller uttrycker sig luddigt. För en dator, som varken kan veta saker intuitivt eller luta sig mot erfarenhet, blir detta förödande för förståelsen.

Än så länge. Forskning pågår där man genom att studera hur mänskliga samtal fungerar hoppas kunna lära datorer att agera mer naturligt i en konversation; att förstå sammanhanget och lagom snabbt leverera en passande replik.

Men när kommer vi att ha något som HAL, en dator vi verkligen kan prata med?

– Handlar det om att be datorn att göra något den är bra på inom ett begränsat område tror jag inte att vi är så långt borta. Kanske är Siri just det. Tänker du dig att kunna prata som en människa och ha stimulerande intellektuella samtal vet jag inte om det någonsin kommer. Datorer är datorer och har inte mänskliga erfaren­heter, säger Staffan Larsson.