Splunk and the Squeaky Dolphin: når Big Data bliver useriøse

squeakydolphin-462x346
Splunk and the Squeaky Dolphin: når Big Data bliver useriøse

Stakkels Splunk.

Det mærkeligt navngivne firmas produkter analyserer "Big Data". Som det hævder på sin hjemmeside: "ved at overvåge og analysere alt fra kundeklikstrømme og transaktioner til netværksaktivitet og opkaldsregistreringer – og mere – Splunk forvandler maskindata til værdifuld indsigt, uanset hvilken virksomhed du er i." Også selvom den virksomhed er det snuser.

Det burde derfor ikke komme som nogen overraskelse, at det har fundet en plads i den største Big Data-haul: GCHQ bruger tilsyneladende sin data-sentimentanalysesoftware til at finde ud af, hvad folk tænker online. (Splunk annoncerer faktisk på sit websted, at det amerikanske forsvarsministerium og Homeland Security bruger deres produkter, så det burde virkelig ikke komme som nogen overraskelse.)

Ifølge en af ​​dagens Snowden-lækager - du kan læse mere om den anden snoking-afsløring her - har GCHQ været samle onlinedata, såsom YouTube-visninger og Facebook-likes, og bruge Splunk til at analysere de store data for at forsøge at forudsige problemer.

Knirkende delfin

Programmet, der ærligt talt hedder "Squeaky Dolphin", samler online aktivitet i realtid, ifølge en NBC News rapport, går så langt som at tappe fiberkabler for at afdække, hvad vi laver på YouTube, Facebook og Blogspot. Selvom enkeltpersoners data kan udtrækkes, er Squeaky Dolphin "ikke interesseret i individer, bare brede tendenser", ifølge et af de lækkede slides. (Selvom dette er GCHQ, tag den påstand med et gran salt.) Det leder efter Big Data, ikke små bits af data.

Det er ikke meget af en reklame for Big Data, at GCHQ's eksempler fremstår som ret dumme - og det er værd at bemærke, at de pågældende slides er taget fra en præsentation til NSA, så dette ville have været GCHQs forsøg på at imponere sine kolleger på dets præstationer, og ville sandsynligvis have inkluderet de bedste eksempler muligt.

Så hvilken indsigt har dette fantastiske dataanalyseværktøj afsløret? Hvordan forskellige browsere afspejler forskellige typer brugere. Tilsyneladende viser Internet Explorer-brugere mindst "åbenhed over for oplevelse" og mest "imødekommende", mens Firefox-brugere er en skygge mere tilbøjelige til at vise "neuroticisme".

Det er uklart, hvor informationen er fra, og hvis den faktisk er fra dens egen Splunk-baserede analyse, men GCHQ har besluttet, at det er vigtigt. Jeg føler mig bestemt meget mere sikker på krigen mod terror.

Meget af arbejdet er mere seriøst og til dels for at kompensere for GCHQs manglende evne til at opdage de voksende spændinger i Mellemøsten online forud for det arabiske forår i 2011. Det bemærker på et dias, at det optog webaktivitet forud for stævner i Syrien og Bahrain dagen før de fandt sted.

God stemning?

Scanner Twitter, offentligt vendte Facebook-sider og YouTube for bestemte søgeord for at se, hvor det næste flashpoint will be er ikke en dum idé - men det er helt sikkert muligt at gøre det med offentlig Information. At tappe fiberkabler og Googles systemer for at udvikle tvivlsom "sentiment"-intelligens er endnu et skridt for langt, ikke mindst i betragtning af de tilsyneladende resultater.

Det er faktisk let at stille spørgsmålstegn ved, om det overhovedet er muligt at analysere så meget data - et realtidsfeed fra Facebook, YouTube, Blogger og mere kommer til at have ret travlt - og få et meningsfuldt resultat, selvom Splunks marketingafdeling sandsynligvis ville være uenig.

Vi bad virksomheden om en kommentar, hvor Sherry Lowe, vicepræsident og talsmand for virksomheden, sagde: "Splunk tager privatlivets fred meget alvorligt. Som med enhver software, der bruges af tusindvis af organisationer rundt om i verden, har vi typisk ikke overblik over, hvordan individuelle kunder kan bruge vores produkter."

Nå, nu ved Splunk, hvordan en af ​​sine kunder bruger sine produkter, ligesom vi andre gør - og det er ikke en god annonce for Big Data.