Bestraffning och belöningssystem lär AI-agenter att fatta rätt beslut

Det finns många tillämpningsområden för förstärkningsinlärning, såsom spelteori, robotik, finansiell analys och styrning av industriella processer.

I en ny avhandling i matematik visar Björn Lindenberg hur förstärkningsinlärning inom AI kan användas för att skapa effektiva strategier för självständigt beslutsfattande i olika miljöer. Belöningssystem kan utvecklas för att stärka korrekt beteende, som att hitta optimala prissättningsstrategier för finansiella instrument eller styrning av robotar och nätverkstrafik.

Förstärkningsinlärning är en del av AI där en digital beslutsfattare, en så kallad agent, lär sig att fatta beslut genom att interagera med sin miljö och få belöningar eller straff beroende på hur väl den utför sina handlingar.

Agenten får belöningar och bestraffningar i inlärningsprocessen genom att agera i en miljö och få feedback baserat på sina handlingar.

– Min forskning fokuserar på förstärkningsinlärning där en agent placeras i en miljö. Agenten observerar tillståndet i miljön vid varje steg, likt hur vi människor upplever vår omgivning. Exempelvis kan det vara brädpositionen i schack, inkommande videobild, industridata eller sensordata hos en robot, säger Björn Lindenberg, doktor i matematik vid institutionen för matematik vid Linnéuniversitetet.

Förstärkningsinlärning inom AI är en effektiv metod för självständigt beslutsfattande. Genom att maximera belöningar och minimera bestraffningar lär sig AI:n gradvis att utföra önskvärda handlingar och förbättra sin prestanda i den givna uppgiften.

En effektiv metod för självständigt beslutsfattande

Syftet är att utveckla algoritmer och modeller som hjälper agenten att göra de bästa besluten. Detta uppnås genom inlärningsalgoritmer som tar hänsyn till agentens tidigare erfarenheter och förbättrar dess prestanda över tid.

Det finns många tillämpningsområden för förstärkningsinlärning, såsom spelteori, robotik, finansiell analys och styrning av industriella processer.

– Agenten tar beslut genom att välja en handling från en lista av alternativ som till exempel att flytta en schackpjäs eller styra en robotrörelse. Dessa val kan sedan påverka miljön och skapa en ny spelsituation i schack eller ge nya sensorvärden för en robot.

I sin avhandling har Björn Lindenberg utvecklat en modell för djup förstärkningsinlärning med flera samtidiga agenter, som kan öka inlärningsprocessen och göra den mer robust och effektiv. Han har också undersökt hur många iterationer, det vill säga upprepade försök, som krävs för att ett system ska bli stabilt och fungera bra.

– Djup förstärkningsinlärning utvecklas i samma takt som övrig AI-teknologi, det vill säga i rasande fart, säger Björn Lindenberg. Det beror till stor del på en exponentiellt ökande hårdvarukapacitet, det vill säga att datorerna blir alltmer kraftfulla, tillsammans med nya rön för nätverksarkitekturer.

Utmaningar och möjligheter inom förstärkningsinlärning

Ju mer komplexa applikationer blir, desto mer avancerad matematik och djupinlärning behövs inom förstärkningsinlärning. Detta behov är tydligt för att främja förståelsen av befintliga problem och för att hitta nya algoritmer.

– Metoder som presenteras i avhandlingen kan ingå i en mängd olika beslutsfattande AI-applikationer som, vare sig vi märker det eller ej, blir en alltmer förekommande del av vår vardag, säger Björn Lindenberg.

Mer information

En längre nyhet om avhandlingens resultat finns att läsa på lnu.se
Hela avhandlingen Reinforcement Learning and Dynamical Systems

Kontakt

Björn Lindenberg, doktor, 073-819 56 19, bjorn.lindenberg@lnu.se

Pressmeddelandet kommer från vårt nätverk av universitet, högskolor och forskningsinstitut. Om du har frågor eller synpunkter - vänligen kontakta avsändaren.

Telefon +46 470-70 88 77

E-post press@lnu.se