Masteroppgaven: Visualisering av epost-kontoer
31 mai 2014Tags: Hig
Min masteroppgave har omhandlet hvordan data visualisering og bruk av web teknologi kan øke effektiviteten ved analyse av store mengder digitale data i etterforskningssammenheng. Jeg brukte epost som avgrensning, og fokuserte derfor på å forenkle sammenkobling av slik kommunikasjon på tvers av epost-kontoer. Da energiselskapet Enron gikk konkurs og etterforskningen var over ble ca 150 epostkontoer offentliggjort. Dette datasettet ble brukt da det er det mest realistiske datasettet tilgjengelig. Datasettet er dessverre gammelt og veldig bearbeidet, så en dump av min egen gmail konto i Outlook *.pst format ble også benyttet under testing.
Prototypen min standardiserer først epost i et format liknende maildir hvor hver epost lagres i RFC2822/MIME format, kategorisert i undermapper. Disse filene blir så lest inn, meta data hentes ut fra meldingshodene, duplikater fjernes, retning bestemmes på grunnlag av epostadressen til kontoeieren og meldinger blir synkronisert på tvers av kontoer. All meta data for en brukerkonto lagres så i en JSON fil.
Et web grensesnitt brukes for interaksjon og visualisering av disse JSON filene, og laster inn originalmeldingene dynamisk ved behov. Her er et knipe skjermdump av hvordan prototypen ser ut:
Først en oversikt over alle kontoene: Hvem prater med flest eksternt og internt? Hvordan er aktiviteten spredt over tid for en konto og sett i forhold til andre kontoer? Hvordan er forholdet mellom sent og mottatte meldinger? Hvem videresender og svarer mye?
Meldingsvisning for en enkelt konto: Leste meldinger blir merket globalt. Meldinger kan legges til en egen tidslinje. Mange filter er implementert for å kunne sortere vekk meldinger av lav interesse. Andre epost-adresser i datasettet blir gjort om til linker og satt til tiden for meldingen for å enkelt kunne følge opp i den motstående kontoen. Hva konkret ble skrevet? Finnes en sent eller mottatt melding i den motstående kontoen?
Gult er aktiv melding. Grått er sett før. Blått betyr at meldingen er lagt til den manuelle tidslinjen
Tre visualiserignger ble implementert: En ukentlig meldingsfrekvens tidslinje, en tid på døgnet tidslinje og en nedbryting av kommunikasjon mellom alle adresser for en konto. Alle grafene tillater klikking på enkeltelementer for å ta brukeren til de aktuelle meldingene for kontoen.
Hvem sender meldinger i helger? Hvilke perioder er det mest aktivitet?
Meldinger per dag i stablet søylediagram. Lørdag og søndag tydelig markert i grønt. Splittet i sent og mottak. Unike adresser per dag vises også
Hvem sender på "snodige" tidspunkt? Arbeidsmønster?
Tidspunkt meldinger ble sent for en konto. Grønt er lørdager og søndager. Sort er de andre ukedagene
Hvem sendes og mottas det mest fra? Er kommunikasjonen regelmessig eller går det i hypp og napp? Er kommunikasjonen symmetrisk eller er den veldig ensidig?
Når meldinger ble sent (grønt) og mottatt (blått) for alle kombinasjoner av brukeren og alle andre. Klikk i graf-området fører til disse filtrert ut
Det kommersielle visualiseringsprogrammet Tableau ble også utforsket som et alternativ for å forenkle prosessen med å sette sammen nye spennende visualiseringer av dataene trukket ut:
Tid på dagen, splittet på senderetning. Rødt er meldinger opprinnelig slettet men funnet tilbake via synkronisering.
Oppgaven har vist et alternativ til de klassiske verktøyene benyttet for etterforskning i dag. De baserer seg hovedsakelig på programvare som kjører på enkeltmaskiner, og brukes for å analysere en og en maskin eller konto. Et web-basert rammeverk som dette kan forenkle samarbeid og navigering på tvers av mange epost-kontoer. Visualiseringer av data kan hjelpe ved at unormale mønster kan oppdages og følges opp. Det kan være meldinger sent veldig sent en kveld hvor dette ellers ikke er normalt. Det kan være perioder med mye slettede meldinger, få men regelmessige meldinger til interne eller eksterne kontoer osv. Metoden fokuserte på epost, men kan fint brukes på helt andre datakilder med litt tilpasninger.