Fysikformler avslöjar författares unika ordmönster
Med hjälp av formler går det att spåra en viss författares unika ordmönster. Fysikern Sebastian Bernhardsson, Umeå universitet, har som en del i sin avhandling gett sig i kast med den klassiska litteraturen på ett annorlunda sätt.
Texter av olika längd, skrivna av samma författare, följer ett alldeles speciellt mönster. Mönstret verkar dessutom vara unikt för varje författare. Ett exempel på en egenskap som följer detta mönster är hur ofta en författare i genomsnitt använder ett visst ord. Sebastian Bernhardsson har sin avhandling analyserat data från ett trettiotal böcker av olika klassiska författare, bland annat Moby Dick av Herman Melville och Sons and lovers av D.H. Lawrence.
– Melville verkar till exempel ha ett betydligt större ordförråd än Lawrence. I Moby Dick använder Melville i genomsnitt varje ord drygt 12 gånger, medan Lawrence i Sons and lovers i genomsnitt använder dem nästan 17 gånger, berättar Sebastian Bernhardsson.
Sebastian Bernhardssons studie visar också att en novell av en författare har samma egenskaper som ett kapitel av samma längd, ur en betydligt längre bok av samma författare. Egenskaperna hos den längre boken är däremot helt annorlunda än hos novellen och det utdragna kapitlet.
– Vi har upptäckt att förekomsten av nya ord i böckerna blir allt färre ju längre böckerna är, även om nya intriger och miljöer införs. Dessutom minskar graden av nya ord på samma sätt för en viss författare oberoende av vilken bok vi undersökt, berättar han.
Det betyder att alla böcker av en viss författare, oavsett längd, kan beskrivas som en del av en mycket längre bok. Som en följd av detta är det nästan som att en författare helt sonika sliter ut en bit text, av en viss längd, ur en stor abstrakt moderbok när han eller hon skriver.
Denna moderbok, kallar forskarna för metabok, och den kan sägas representera en viss författares kompletta verk, som antingen redan är skrivna eller som skulle kunna skrivas. Metaboken blir därför en abstrakt representation av hur en viss författare skriver.
Som fysiker behandlar Sebastian Bernhardsson texterna som ren data. Han letar efter mönster och regler för hur datat uppför sig. Mönster och regler av detta slag kan användas till att utveckla metoder för att bestämma nyckelord i en text, att effektivt komprimera data och även för att ge ökad förståelse om strukturen på vårt språk.
– En skriven text är ett komplext system men samtidigt jordnära och lättförståeligt. Det gör det till ett intressant och roligt system att studera. Det är dock viktigt att komma ihåg att denna sortens forskning inte säger något om själva innehållet i boken eller vad som är bra eller dålig litteratur, säger Sebastian Bernhardsson.
Resultaten som beskrivs ovan publiceras i tidskriften New Journal of Physics torsdagen den 10 december.
Torsdagen den 17 december försvarar Sebastian Bernhardsson, Institutionen för fysik, Umeå universitet, sin avhandling med titeln Structures in complex systems: Playing dice with networks and books. Svensk titel: Strukturer i komplexa system: Kasta tärning med nätverk och böcker.
Disputationen äger rum kl 13.00 i Sal N360, Naturvetarhuset.
Fakultetsopponent är professor Stefan Bornholdt, institutionen för teoretisk fysik, Bremen universitet, Tyskland.
Läs hela eller delar av avhandlingen på http://umu.diva-portal.org/smash/record.jsf?pid=diva2:277138
Kontaktinformation
För ytterligare information, kontakta gärna:
Sebastian Bernhardsson
Telefon: 090-786 77 60, 070-2331575
E-post: sebastian.bernhardsson@tp.umu.se
Hemsida: http://www.tp.umu.se/~sebbeb