Svårt att lita på stora språkmodeller
Kan AI-verktyg i form av stora språkmodeller tränas så att de blir användbara för det svenska försvaret? Det har forskare vid FOI nu börjat undersöka. En svårighet är att det inte finns någon vedertagen metod för att testa hur väl de fungerar.
En stor språkmodell, som på engelska kallas large language model eller förkortat LLM, är ett avancerat AI-system som använder djupinlärning och neurala nätverk för att lära sig mönster i språk. Modellen tränas på stora mängder textdata och kan sedan räkna ut sannolikheten för olika sekvenser av ord. På så vis kan den utföra textbaserade uppgifter som att analysera eller skapa egna texter på ett till synes mänskligt sätt.
LLM:er anses vara ett genombrott inom artificiell intelligens. Nu har en forskargrupp vid FOI på uppdrag av Försvarsmakten undersökt hur de kan tränas för att fungera i en svensk försvarsdomän, och i vilken mån det kan vara värt de investeringar som krävs.
– Det har blivit en otrolig hype kring språkmodeller. ChatGPT blev ju väldigt populärt, och nu dyker språkmodeller upp i media överallt. Sådana system verkar kunna göra mycket av det som AI-forskningen lovat i årtionden, saker som var ren science fiction bara för några år sedan. Alla vill se vad man kan använda dem till, säger Björn Pelzer som är försteforskare på FOI:s avdelning Cyberförsvar och ledningsteknik och en av författarna till rapporten Large Language Models in Defense: Challenges and Opportunities.
Tränades på FOI:s memos
Forskarna testade hur en LLM skulle kunna stötta en säkerhetspolitisk analytiker genom att sammanfatta text, svara på frågor om säkerhetspolitik och själv skriva en text utifrån en lista med nyckelfraser. De använde två olika språkmodeller, dels Llama-modellen från amerikanska Meta och dels Mistral från franska Mistral AI. Genom att utgå från två olika språkmodeller ville forskarna se om de skiljde sig åt på något sätt.
– Det händer så mycket just nu, det kommer nya modeller åtminstone varje månad, så vi ville åtminstone titta på fler än bara en. Rapporten är inte en rekommendation, utan mer ett försök att se: hur kan man över huvud taget jämföra modeller och se vilka som är bättre än andra, säger Björn Pelzer.
Modellerna tränades på 244 memos om säkerhetspolitik som FOI gett ut mellan åren 2010 och 2023.
– Vi ville träna upp en språkmodell på försvarsrelaterad data, för att se hur svårt det är och om man vinner något på det. Så vi tog ett exempel där vi kom åt hyfsat bra data. Våra memos har en ganska konsistent form – de använder alltid ungefär samma format, handlar om ungefär samma område och de är inte så väldigt långa, vilket är bra eftersom språkmodeller har en begränsning i hur mycket text de kan läsa in varje gång, säger Björn Pelzer.
Modellerna hallucinerar
Träningstexterna var på både svenska och engelska. Llama och Mistral är grundtränade på engelska, och forskarna ville att LLM:erna skulle kunna skriva bra även på svenska.
Experimentet resulterade i flera olika slutsatser. En var att modellerna mycket riktigt blev bättre på svenska av att tränas på svenska texter, enligt Björn Pelzer.
– Och de blir bättre på att skriva kontinuerligt på svenska. Otränade modeller kan lite svenska, men efter ett tag byter de till engelska. De tränade modellerna var bättre på att hålla sig till svenska och lära sig stilen med memos.
Den andra stora slutsatsen blev att det är väldigt svårt att jämföra LLM:er.
– Det krävs nog att man tar fram en gemensam försvars-benchmark, några objektiva testmetoder för att testa alla de här nya modellerna som kommer hela tiden. Det finns liknande benchmarks, men det är för allmänna system, inte specifikt för försvarsfrågor, säger Björn Pelzer.
I dagsläget skulle det i princip behövas experter som ställer frågor till modellen enligt en färdig mall och sedan bedömer den efter svaren, menar han. Det är nämligen svårt att lita på modellerna.
– De kan göra saker som var helt omöjliga för några år sedan, men de gör också ofta väldigt dumma fel. Jag tror inte det går att säga att de förstår det de skriver. De raddar upp ord enligt sannolikheter, men det kan bli helt fel också. Det kallas att modellerna hallucinerar. Och det är oklart om det verkligen kan lösas.
Till exempel kan modellerna ibland ge ett bra svar på en fråga, men om samma fråga omformuleras bara lite grann så blir svaret plötsligt helt felaktigt.
Kommersiella intressen bakom hypen
En annan slutsats var att det är ganska krävande att få fram data att träna LLM:er på. De FOI-memos som användes var i pdf-form, och för varje memo var man tvungen att plocka ut texten och manuellt rensa bort alla onödiga delar som sidnummer och tabeller.
– Vi hade först tänkt att vi tränar upp våra modeller snabbt och sedan kan vi testa dem ordentligt. Men det blev mycket svårare än vi trodde att få datat som vi ville. Ett problem är också att de är så otroligt krävande vad gäller hårdvaruresurser. Vi körde med relativt små språkmodeller. Skulle man vilja köra de allra största – desto bättre blir de, men det blir också desto svårare att verkligen drifta dem, säger Björn Pelzer.
Är det då värt för Försvarsmakten att investera i användningen av LLM:er? Det är en komplex fråga, menar Björn Pelzer. På grund av den snabba utvecklingen och eftersom möjliga motståndare sannolikt också jobbar med dem är det viktigt att hänga med. Å andra sidan är det viktigt att komma ihåg att det är stora kommersiella intressen som ligger bakom hypen kring stora språkmodeller, påpekar han.
– Man kanske inte ska vara alltför säker på att det verkligen blir så bra som de här bolagen påstår att det kommer bli. Att vi kommer ha datorer som är smartare än människor om bara några år – jag är väldigt skeptisk till det. Jag personligen tror inte att språkmodeller kommer bli det.
Läs rapporten
Large Language Models in Defence: Challe…
Läs mer