Så skapas artificiell intelligens

Artificiell intelligens är i ropet. Men hur fungerar det egentligen? Inte alls som lekmän tror.

Text: Jussi Karlgren

Bild: Unsplash

De senaste månadernas entusiasm över språkmodeller som kan konversera och bildmodeller som kan generera underhållande illustrationer är välförtjänt. Artificiell intelligens, AI, har gått igenom flera cykler av vinter- och våryra de senaste decennierna: många experimentella system har visat sig vara mindre epokgörande än överoptimistiska tekniker och förväntansfulla finansiärer hoppats – men AI-vintrarna har ändå resulterat i att nya teknologier smält in i befintliga verktyg utan att förvåna, förbrylla eller förskräcka. Den innevarande våryran lovar leverera större framsteg i både forskning och tillämpning än alla de tidigare tillsammans. Så var står vi och vart är vi på väg? 

Intelligens är ett svårfångat och mångfasetterad begrepp redan när vi talar om människor: den inbegriper kunskap, visdom, inlärningsförmåga, perceptionsförmåga, härledningsförmåga, kvickhet och många andra allmänmänskligt uppskattade egenskaper. Det är inte lättare att fastställa vad artificiell intelligens är i maskiner. Maskiner har delvis andra företräden än människor: de är outtröttliga och sällan tankspridda, så kraven på artificiell intelligens är i stor utsträckning annorlunda än de vi ställer på mänsklig sådan. Särskilt som målet och våra förväntningar flyttas i takt med tekniska framgångar. Gårdagens elektronhjärna är dagens vardagspryl. 

För några AI-vintrar sedan arbetade vi mycket med kunskap och härledningar. Forskningen handlade då om hur mänsklig kunskap skulle samlas in och redigeras in i en för maskiner läsbar form och om att nya saker systematiskt skulle kunna härledas från de förra genom logiska regler: hur invärtesmedicinska diagnoser kan fastställas genom tydligt formulerade IF-THEN-regler eller hur oljefyndigheter kan lokaliseras genom att systemet ber en geolog svara på ett antal frågor om platsen. Ganska lite handlade om inlärning. 

Bygger på oerhört stora datamängder

I dag är det tvärtom. AI-system byggs för att observera data och att utan mänsklig handpåläggning bygga en modell av de data modellen har sett. Den inlärda modellen används sedan för att generera nya data som liknar de gamla, eller för att jämföra nya intressanta grejer systemet observerar med tidigare kunskap för att till exempel klassificera dem i användbara kategorier. I dag finns det system som kan förutsäga funktion, struktur och kvaliteter hos proteiner genom det den lärt sig om tidigare och system som kan styra fordon genom en hinderbana efter att ha observerat tidigare mänskligt styrda fordon. De text- och bildgenererande system vi i dag låter oss förtjusas över hör till denna sort. 

Att bygga system som kan svälja mer data av varierande kvalitet visade sig mer användbart än att bygga system med noggranna härledningsregler som utgick från noggrant utvalda data av hög kvalitet. I dag skulle vi nog inte betrakta ett system som intelligent om det bygger på en statisk databas av tidigare kunskap. 

Dagens modeller bygger alltså på oerhört stora datamängder och oerhört många parametrar: de är i någon mening mycket slösaktiga och använder en karta som är mer finkornig än den terräng de beskriver. Detta är en effekt av den renlärighet som kunskapsingenjörerna i dag arbetar efter: systemen ges inte någon förförståelse om de data de matas med utan förväntas bygga sina modeller enbart på observation av sådant som redan skett och tecknats ned. Dessa utvecklingsprinciper är inspirerade av hur den mänskliga hjärnan fungerar, men har kastat loss från sitt ursprung för ganska länge sedan. Ett system bygger en modell av kunskap genom att läsa in alla data det får tag på och modellen trimmas genom en slags "lucktest": vad skulle passa in i en halvfärdig bild för att fullborda den? Eller vilka ord skulle fylla en lucka i en mening givet allt modellen har sett? Om gissningen blir rätt förstärks modellens inställningar; om det blir fel dämpas inställningarna i stället.  

Finns många utmaningar kvar

Chatboten ChatGPT kan besvara frågor och skriva egna texter. Foto: Unsplash

Detta har gett oss modeller som representerar tidigare kunskap mycket väl och som sedan kan producera roliga eller skrämmande bilder och som kan konversera hyggligt vettigt om det mesta. De modeller många av oss lekt med över de senaste månaderna – exempelvis chatboten ChatGPT från Open AI –  är redan användbara som skrivstödsystem. Det innebär att det omgivande samhället måste hantera detta: skolan måste fundera på hur hemuppgifter rättas, skrivna arbetsprover, intresseanmälningar och offerter måste bedömas på andra grunder än de rent språkliga. Det kommer vi förstås att klara av efter lite initial förvirring. 

Det finns dock många utmaningar kvar att möta. När förtjusningen över dagens språkmodeller och bildgeneratorer har lagt sig lite grann måste vi ägna oss åt både tekniska frågor och tillämpningsfrågor. 

De tekniska frågor vi måste arbeta med handlar mycket om den ovannämnda beräkningsmässiga slösaktigheten och om modellernas bristfälliga livserfarenheter. 

Modellerna bygger på data och systemen kan reproducera och generalisera mönster från dessa data men utan att veta vad de håller på med. Bildgeneringssystemen i dag har till exempel svårt att återge mänskliga händer (för övrigt något som anses vara bland det svårare att ge sig på även för en mänsklig konstnär). På det översiktliga planet blir det rätt: handen hamnar där den ska. På det mer omedelbara detaljplanet blir det också rätt: fingrarna är långsmala och hudfärgade och lite lagom knotiga. Men det räcker inte: systemet har liksom kisat och viftat till handens form. Det kan bli alldeles för många fingrar som förgrenas på ett otäckt sätt. Just detta problem kommer att gå att fixa ganska lätt, men det illustrerar en svårighet med en modell som har övat sig på att hallucinera från data utan förankring i sin omvärld. 

"Går inte att lita på deras sannfärdighet"

De viktiga teknikexterna frågorna i dag handlar om systemens vederhäftighet, om upphovsrättsliga frågor och integritetsfrågor och om modellernas fördomsfullhet. 

Sannfärdighet. Dagens system vet att föra ordet så att det låter vettigt, åtminstone vid första anblicken. Däremot är inte systemen några orakel: det går inte att lita på deras sannfärdighet eller goda omdöme. Att till exempel komplettera sökmotorer med den språkliga och konversationella kompetens dagens modeller visar är inte gjort i en handvändning. Sökmotorer lägger ansvaret för att värdera det innehåll de levererar hos läsaren. Ett system som svarar på frågor genom en konversation kommer att ge sökmotorns användare svar på deras frågor i stället för länkar till dokument. Det är behändigt, men kommer att göra det svårare för "sökarna" att lista ut om svaren bygger på rimliga källor och riktiga resonemang. 

Det är nämligen så att koherent språkbruk inte behöver vara sannfärdigt, relevant eller ens särskilt klokt. Sanning är en ganska vanlig bieffekt av koherens: ber man ett dialogsystem pladdra på om helikoptrar kommer det mesta den genererar vara rimligt och sant men utan att systemet faktiskt vet någonting om flygande farkoster. Det enda den vet är att meningarna hänger ihop ungefär likadant som annat modellen har sett sägas. Den som frågar tidigare nämnda Chat GPT vad tidningen Fokus är kan exempelvis få till svar att publikationen grundades 1961 och ges ut av Bonniers. Båda uppgifterna är fel. 

Det hela påminner en del om en student med välsmort munläder som försöker snacka sig igenom en muntlig tenta utan att ha läst på. 

Upphovsrätt. Om ett system plankar sådant den tidigare sett, innebär det ett intrång i upphovsrätten? Ber vi ett system generera en ny Pippi-Långstrumpsaga eller en ny litografi av Gösta Werner och den gör det och resultatet blir njutbart, är det något att bråka om? De flesta av oss som arbetar med teknik är upphovsrättsrebeller och tänker nog att det löser sig av sig självt. Vissa upphovsrättsägare har en annan synvinkel, men varifrån man än kommer så kommer upphovsrätten behöva hantera generativa systems kreativitet.  

Integritet. Integritetsfrågor är knivigare. Om ett textsystem  efter att ha läst allt den fått tag på skriver ett kåseri som bygger på verkliga händelser med verkliga personer och gör rimliga härledningar av vad den lyckats läsa in om personerna i olika källor så riskerar vi att den bucklar till folks självkänsla, fläckar deras offentliga ställning och röjer sammanhang som de helst inte skulle vilja ha öppet ventilerade. Det är inte helt lätt att lista ut hur detta kan motverkas. 

Fördomsfullhet. Och fördomsfullhet, till sist, är ett verkligt problem. Ett system vars modell läst aldrig så mycket tidigare skriven text navigerar givetvis ändå genom backspegeln. Detta gör ju vi människor också, så det är inte så konstigt. Men vi människor vet att värdera kunskap vi möter i olika grad beroende vem källan är, när kunskapen kommit till och i vilken situation vi lärt oss det. Oftast värdesätter vi ny kunskap över gammal, till exempel. Och om vi människor trampar i klaveret och uttrycker oss mossigt eller inaktuellt kan vi bli tillrättavisade på lite olika sätt, bryskt eller mer finkänsligt. Detta går inte att göra med dagens modeller – de är inte redigerbara eftersom deras kunskap inte är utsagd och tillgänglig. Vi kan inte instruera systemet att dess modell är föråldrad och lägga till något till den: dagens system behövs då tränas om med nya datamängder. Systemen är inte undervisningsbara. 

Ytliga skuggspel

Det finns alltså en rolig parallell mellan dagens AI-system och skoldebatten. Ska systemen få plaska runt fritt i gamla befintliga data och själv lista ut vad som är viktigt och riktigt, sant och rätt? Eller ska vi försöka mata modellerna med en uppfattning om eviga sanningar, hyfs, vett och tillbörligt beteende? Eller begränsa tillgången till data för dem så att de bara lär sig från sådant vi anser vara gott? Och är vi som bygger systemen i så fall de bäst skickade personerna att göra dessa val? 

Det kommer att komma nya system och nya modeller som bygger på helt andra tekniklösningar – vi vet ännu inte vilka av de experiment som görs i laboratorierna i dag och framöver som kommer att leda till fungerande teknik, men vi vet att dagens modeller kommer avfärdas som ytliga skuggspel av mänskliga erfarenheter snarare än som sann intelligens. De språkmodeller som vi sett förbluffa samtiden under den gångna vintern kommer finna sina tillämpningar som prosaiska delar i språkinlärningsstöd, i skrivstöd, i bättre översättningsverktyg och som stöd för programmering. De kommer göra en del processer som i dag är bökiga och trista något snabbare, något mer tillförlitliga, och lite roligare och vi kommer upptäcka nya flaskhalsar som vi sedan får koncentrera oss på. Och de fel vi stöter på på vägen kommer att inspirera nya unga forskare till att göra nya försök. 

På det större planet är det värt att fundera på vad som kan och bör automatiseras. Datavetenskap i allmänhet har använts för att automatisera många uppgifter som tidigare utfördes av mänsklig hand. Först rök många repetitiva manuella uppgifter, sedan repetitiva intellektuella uppgifter och nu har maskinerna börjat arbeta även med kreativa intellektuella uppgifter. Kvar för människan att utföra verkar för närvarande vara de kreativa manuella uppgifterna. Vilka av dem kan inte robotiseras i den nära framtiden?

***