10 december 2024
FOI Totalförsvarets forskningsinstitut

Etisk utmaning med multi­modal AI för militärt bruk

Multimodala neuronnät är avancerade AI-modeller som kan förstå och integrera flera olika typer av information samtidigt, som text, bild och ljud, och därmed skapa en mer exakt representation av verkligheten. Det gör tekniken högintressant för militärt bruk, men användningen väcker även många etiska frågor.

Utvecklingen inom artificiell intelligens (AI) går i rasande fart och begreppet multimodala modeller, en form av djupa neuronnät, har blivit alltmer framträdande både inom kommersiella och militära sammanhang. För att ge en överblick över den senaste utvecklingen inom forskningen har forskare på FOI gett ut rapporten Introduction to Multimodal Models.

Intresset för modala neuronnätsmodeller beror på att de kan förstå och interagera med flera typer av information samtidigt. Till exempel kan ett sådant nätverk förstå att en bild på en stridsvagn motsvarar beskrivningen av en stridsvagn i text, förklarar Edward Tjörnhammar, forskare på FOI och en av författarna till rapporten.

– Styrkan med multimodala modeller ligger i deras förmåga att samtidigt värdera olika former av indata. Den gör att de kan skapa en mer exakt representation av verkligheten genom att kombinera olika former av kontextdata, säger han. Det ger i sin tur multimodala modeller en ökad kapacitet att förstå och interagera med komplexa situationer, där olika sinnen eller informationsflöden är involverade.

Människan fungerar multimodalt

Det finns redan kommersiella AI-tjänster för att skapa text, musik eller konst utifrån en instruktion på textformat. Genom att fungera multimodalt kan man säga att AI-systemet, eller roboten, blir mer lik en människa.

– Vi människor fungerar multimodalt genom att vi instinktivt kombinerar olika sinnen, som syn, hörsel, känsel och balans. I dag finns till exempel multimodala industrirobotar som utför avancerade och autonoma uppgifter i en kontrollerad miljö, men därifrån är det svårt att ta steget till militära ändamål, säger Edward Tjörnhammar.

Som ett exempel tar han det amerikanska robotikföretaget Boston Dynamics vilka bland annat utvecklar robothundar som används för olika ändamål inom industrin och byggbranschen, till exempel för att flytta föremål i miljöer som är farliga för människor att vistas i. Två robothundar har även köpts in av brandförsvaret i New York. De är avsedda för att fungera även i mer komplexa miljöer, även om robothundarna inte använder multimodala eller djupa neuronnätsmodeller.

– Om du till exempel vill få något multimodalt som liknar robothundarna att kunna färdas genom okänd terräng på ett slagfält blir det genast mycket mer komplicerat. Roboten måste kunna förstå terrängen, topologin och miljön för att kunna fatta självständiga beslut utifrån denna omvärldskontext. Det skulle kunna göras av en multimodal modell, men i dag är de fortfarande alltför stora och resurskrävande.

Från kommersiellt till militärt bruk

Det är inte ovanligt att Försvarsmakten tittar på kommersiella lösningar och sedan anpassar dem för militära ändamål. Edward Tjörnhammar pekar på flera områden där militära tillämpningar av AI som bygger på multimodala modeller redan används eller snart kommer att kunna användas.

– Den kan användas till exempel för att analysera satellitbilder, tolka ljud från slagfältet eller förstå geopositionering, och integrera dessa data för att fatta beslut i realtid, säger han och tillägger:

– Men vad händer när vi får vapensystem som fattar egna beslut baserat på situationen? Eller när informationssystemen integrerar fler och fler autonoma beslutspunkter? I slutändan handlar detta om livsavgörande moraletiska beslut. Fler autonoma beslut i beslutskedjan betyder att färre moraliska beslut tas av människor.

En av de största farhågorna med AI, särskilt när det gäller militära tillämpningar, är just risken för missbruk.

– Man kan tänka sig en framtid där ett inlägg på sociala medier skulle kunna trigga en missilattack mot ett bostadshus.

Forskning i hisnande fart

Den bilden för osökt tankarna till den riktade målutpekningen Israel genomför i Gaza i Palestina. Edward Tjörnhammar bekräftar bilden av att Israel ligger i framkant vad gäller militära tillämpningar av den senaste AI-tekniken och multimodala modeller. Till exempel används deras AI-system Lavender och Gospel för automatisk målutpekning för att ta fram riktade attacklistor, så kallade “kill lists”.

– Men vi vet inte i dag om Gospel eller Lavender nyttjar just multimodala modeller eftersom vi inte exakt känner till deras förmågor. Men forskningen drivs framåt i ett hisnande tempo, inte minst av stora teknikföretag som investerar massivt i AI, men också av olika länders försvarsmakter.

Rapporten pekar på att multimodala modeller, som en del i vad som vardagligt kallas för AI, troligen kommer att ha en betydande påverkan både på vår vardag och på hur framtidens försvar kommer att se ut.

– Så länge det demokratiska samtalet fungerar kan AI gynna oss alla, men vi måste vara vaksamma. AI:s potential inom försvaret är stor, men samtidigt vill vi inte reducera antalet moraliska och etiska beslut som bör tas igenom hela den militära organisationen. säger Edward Tjörnhammar.

Läs rapporten

Introduction to Multimodal Models

Läs mer