Att bearbeta data i flykten gynnar konkurrenskraften
Världen producerar nu data i snabbare takt än vad alla världens hårddisktillverkare hinner producera lagringsmedia för. Detta gap mellan informationsmängd och lagringsyta ökar stadigt. I sin avhandling presenterar Erik Zeitler ett system som kan bearbeta data ”i flykten”. Det är efterfrågat av process- och verkstadsindustrin, men är också användbart för t ex radioteleskop och trafikssystem.
Det ökande gapet mellan tillgänglig information och tillgänglig lagringsyta gör att det varken är möjligt eller önskvärt att långtidslagra all data som produceras. Istället är intresset från ingejörer, analytiker och forskare att kunna fånga, filtrera och bearbeta data i flykten med hjälp av så kallade dataströmhanterare.
– Det ställs allt högre krav på att nya data ska analyseras genast så fort de blir tillgängliga. Mätvärden, nyhetsflöden, marknadsinformation och loggfiler i olika tillämpningar innehåller data som ständigt uppdateras och måste bearbetas, säger Erik Zeitler.
I en dataströmhanterare kan användaren söka och bearbeta dataströmmar på ett lättarbetat sätt, med så kallade stående frågor. Den måste kunna leverera en resultatström med minimalt dröjsmål även om bearbetningen är kostsam, dvs kräver mycket datorkraft, eller om nya data anländer med hög hastighet i indataströmmen. I sitt doktorandprojekt i databasteknik har Erik Zeitler utvecklat dataströmhanteringssystemet SCSQ (Super Computer Stream Query processor, uttalas ’siss-kju:) från grunden. SCSQ kan utnyttja många datorers samlade beräkningskraft.
– Under min tid som doktorand har branschen för dataströmhantering utvecklats snabbt. När jag började fanns våra viktigaste konkurrenter vid de stora amerikanska universiteten, såsom MIT och Stanford. Sedan dess har flera företag, bl.a. IBM och Microsoft, anammat tekniken. Men medan andra har som mål att korta svarstiderna har vi fokuserat på riktigt stora dataströmmar med hög hastighet, säger han.
– Med min metod är ingen enstaka dators kapacitet gränssättande längre. Den medger bearbetning av dataströmmar med en hastighet som närmar sig nätverkets maximala hastighet.
Tillämpningar finns bland annat inom industrin. I projektet ingår industripartner som Sandvik, Volvo och Hägglunds, företag som är intresserade av att fortlöpande kontrollera användande och slitage på skärverktyg, fordon och annan utrustning för att bättre kunna planera förebyggande underhåll. Utmaningen är att analysera stora mängder mätvärden av vitt skilda slag och jämföra dessa med beräkningsmodeller för slitage.
– Det handlar förstås ytterst om att företagen vill ge kunderna bättre service. Genom att tillsammans utveckla dataströmhanteringsteknik förbättrar vi konkurrenskraften hos svensk industri, säger Erik Zeitler.
SCSQ har också använts i andra tillämpningar:
• Digitala radioteleskop: Tusentals radiomottagare spridda över stora landområden fångar upp och digitaliserar radiovågor från yttre rymden och omvandlar dessa till dataströmmar. Utmaningen är att fortlöpande utföra kostsamma sökningar och bearbetningar av mycket stora datamängder från ett stort antal mottagare.
• Automatisk bokning av samåkningar i storstadsområden: Utmaningen är att fortlöpande planera samåkningar när antalet samtidigt begärda resor är mycket stort.
• Linear Road Benchmark, som är ett stresstest för dataströmhanteringssystem, som simulerar ett trafiksystem för motorvägar med ett dynamiskt vägtullssystem, vars tull beror på trafikläget. Dataströmhanteringssystemet måste fortlöpande beräkna tull och upptäcka olyckor baserat på positionsdata från samtliga fordon och vägavsnitt. Utmaningen är att kunna hantera data från så många motorvägar som möjligt.
För mer information, kontakta Erik Zeitler, tel: 018-471 33 90; 073-324 11 32, Erik.Zeitler@it.uu.se