big data

Överdrivna påståenden om Cambridge Analytica

16 februari 2018Peter Dahlgren Leave a comment

Cambridge Analytica är ett företag som samlat in över 5 000 datapunkter på över 220 miljoner amerikanska Facebookanvändare. Det var så de lyckades få det republikanska partiet att vinna presidentvalet i USA under slutet av 2016. Titta bara på videon nedan. Big data kan förutsäga beteende in i minsta detalj.

Det är så det låter ibland, åtminstone. Men beläggen för påståendena har till viss del lyst med sin frånvaro, och de som har kommit med påståendet har varit företaget själva, som finansieras av bland annat av en republikansk investerare.

I en intervju kallad Google Post-Election Review säger exempelvis Matt Oczkowski, produktchef för Cambridge Analytica:

we actually didn’t do any psychographics with the Trump campaign

Men det var ju så Trump vann valet? Analys av sociala medier och riktade budskap? En artikel vid New York Times ifrågasätter påståendet från Cambridge Analytica att de hade ett 50-tal kunder under 2016, en uppgift som har skiftat över tid och enligt officiella register var betydligt färre:

Cambridge executives now concede that the company never used psychographics in the Trump campaign. The technology — prominently featured in the firm’s sales materials and in media reports that cast Cambridge as a master of the dark campaign arts — remains unproved, according to former employees and Republicans familiar with the firm’s work.

Cambridge Analytica arbetade först för Ted Cruz. Han slogs ut under valkampanjen. Företaget började då arbeta för Trump. Så i stället för att Cambridge Analytica skapade förutsättningarna för en republikansk seger skulle man mycket väl kunna hävda att kausaliteten var omvänd: Cambridge Analytica följde de bästa förutsättningarna för en republikansk seger. Det är därför inte speciellt konstigt om det vinnande laget använder deras produkter om man får byta häst mitt under pågående lopp. Då kan det vara bra att reflektera kring survivorship bias.

De överdrivna påståendena om Cambridge Analytica var dock inte negativt för företaget, tvärtom. De fick finansiärer och det var också deras huvudfokus. Från Matt Oczkowski och Google Post-Election Review igen:

the emphasis was always on fundraising

Cambridge Analytica använde NLP och sentimentanalys (men inte psykografisk analys), vilket på sätt och vis är ganska triviala saker i jämförelse. Som brukligt är det inhämtandet av data och att få det i rätt format som är det svåra och som tar tid.

Cambridge Analytica verkar vara den vanliga historien. Grandiosa påståenden följt av massmedier som okritiskt rapporterar vidare. Om man befinner sig i ett kunskapsvakuum och inte vet varför någonting händer, och det finns någon som kommer med en inte allt för otrolig historia, är det lätt att acceptera den förklaringen utan att först grundligt kontrollera både sannolikheten i förklaringen liksom alternativa förklaringar. Då kan man skapa feedbackloopar och självuppfyllande profetior, där uppfattningen om ett problem leder till att problemet ifråga också uppstår.

Därför kan påverkanskampanjer spelas upp inför öppen ridå samtidigt som man kliar sig i huvudet och undrar vad för slags osynlig kraft det är som orkestrerat kampanjen. Då kan det vara lättare att tolka in en aktör med ett syfte snarare än resultatet av flera stokastiska processer. Slutsatsen kan väl för enkelhetens skull vara att det inte är lätt att vara människa alla gånger…

Uppdaterat 17 mars 2018: En tidigare anställd säger att de mycket väl använde Facebookdata. Se videon Cambridge Analytica whistleblower: ’We spent $1m harvesting millions of Facebook profiles’ hos The Guardian samt relaterade nyheter på sidan.

Uppmaning till journalister att sansa er förtjusning för big data

24 april 2016Peter Dahlgren 2 Comments

I min tidigare artikel om Big data: hur man mäter exakt fel beskrev jag problemet med att ge avkall på sitt kritiska tänkande eftersom datamängden är så pass stor att blotta storleken på något magiskt vis gör att problem försvinner. I synnerhet när det gäller data som handlar om människor och deras sociala relationer.

I denna artikel tänker jag fortsätta på den linjen och ge två exempel där journalister har en förutbestämd tolkning de lägger till datan, snarare än att de hämtar tolkningen från datan. De två olika tillvägagångssätten kan kanske bäst sammanfattas med teckningen nedan. För den som inte känner till så är kreationism tron att Gud skapade världen.

The scientific method: Here are the facts. What conclusions can we draw from them?
The creationist method: Here’s the conclusion. Whats facts can we find to support it?

Exempel 1. Kit analyserar den hatiska flyktingopinionen

Den relativt nystartade nyhetssajten Kit skriver i artikeln Så sprids flyktinhatet på nätet exakt hur omfattande hatet (och även rädslan) mot just flyktingar är. Nedan följer ingressen samt det inledande stycket från nyhetssajten.

Så sprids flyktinghatet

Man kan fråga sig hur denna analys har gått till, och Kit är vänliga med att presentera den för oss (med mina fetmarkeringar):

Allt som publiceras öppet på nätet i en viss fråga sparas och blir sökbart. Inläggen klassificeras utifrån vilka ord som förekommer i samband med det tema som analyseras. När det gäller ”flyktingar” är det alltså inlägg i flyktingfrågan som räknas, så hatet behöver inte vara riktat mot flyktingar, det kan även vara riktat mot exempelvis politiker som fattat beslut i flyktingfrågan. För varje tonalitet finns några tusen ord. När det gäller hat är det ord som ”avsky”, ”hata”, ”förakta”, ”föröda”, ”bua”, ”pervertera” osv.
Inlägg klassas som positiva när det förekommer ord som ”bra”, ”cool”, ”snygg”, ”najs” Även olika typer av smileys räknas.

Metoden tillåter alltså att man mäter hur ofta två typer av ord förekommer tillsammans, då företrädesvis flyktingar och hatiska ord. Det har Kit sedan valt att tolka som att det är hat riktat mot flyktingar. Det finns dock ingenting i metoden som tillåter den tolkningen, eftersom en fras som ”jag hatar politiker som inte hjälper flyktingar” är riktat mot politiker till stöd för flyktingar.

En metod medger vissa tolkningar men inte andra. Det är så med alla metoder och det är därför vi måste ha flera metoder som fungerar som ett lapptäcke och i den bästa av världar ger ett samstämmigt resultat. För att kunna dra slutsatser från en analys av detta slag måste man därför ha kunskaper vad en metod faktiskt kan göra (och kanske mer viktigt, vad den inte kan göra) för att kunna berättiga en slutsats. I det här fallet har Kit ignorerat begränsningarna genom att göra om ett samband mellan ord till ett orsakssamband som ska tolkas på ett specifikt vis. Enkelt uttryckt har ”hat och flyktingar” blivit ”hat mot flyktingar”.

Det tycks dock ligga någon sorts vinst i att det åtminstone går att mäta detta hat exakt eftersom Kit menar att de nu kan visa ”exakt hur omfattande det är”. Men det är mer sannolikt ett exakt mått på fördomen som journalisten hade i huvudet när datan analyserades.

För den som är intresserad av den här frågan kan jag hänvisa till en diskussion på Twitter jag hade med journalisten ifråga. Mina frågor om huruvida metoden tillåter denna slutsats besvaras dock inte (förmodligen på grund av att vi inte förstod varandra, en inte helt ovanlig situation på Twitter).

Exempel 2. Guardian analyserar 70 miljoner kommentarer

Ett annat exempel kommer från den brittiska tidningen The Guardian, som för en tid sedan publicerade The dark side of Guardian comments. Tidningen analyserade 70 miljoner kommentarer på sin nyhetssajt sedan 2006 och kom fram till att artiklar som är skrivna av kvinnor innehöll fler blockerade kommentarer än de som var skrivna av män. Blockerade kommentarer raderades alltså inte, utan doldes bara för visning eftersom de bröt mot tidningens regler. De raderade dock kommentarer som innehöll spam och dylikt.

Det mest intressanta är förmodligen det tredje diagrammet i artikeln, som visar vilka journalister (män eller kvinnor) som fått flest kommentarer blockerade till sina artiklar. Diagrammet visar att upp till 2,6 procent av kommentarerna har blockerats från artiklar skrivna av kvinnor (vilket också är uppdelat per sektion). Motsvarande siffra för män är 1 procent. Skillnaden mellan könen är maximalt 3 procentenheter och återfinns år 2013. (Detta är en uppskattning eftersom jag mätt pixlarna i de färgade linjerna i diagrammet där 60 pixlar motsvarar ungefär 1 procentenhet.)

The Guardian kommentarer

Detta är ett intressant fynd även om det inte är speciellt stor skillnad. Men det är viktigt att ha i åtanke att detta bara är ett samband mellan journalistens kön med kommentarer som blockerats. Samband betyder inte orsakssamband. Vi vet därför inte varför sambandet ser ut som det gör.

Vi vet heller inte vad det är för slags kommentar som blockerats. Guardian ger inte speciellt ingående analys av vad för slags kommentarer det handlar om. Jag har läst texten och sammanställt deras beskrivning i tabellen nedan:

Typ av kommentar som blockerats	Andel av kommentarerna
legal	small proportion
disruptive	vast majority
– disruptive: threats	extremely rare
– disruptive: dismissive trolling
– disruptive: author abuse	significant proportion
hate speech	rarely seen
xenophobia, racism, sexism and homophobia	seen regularly
“whataboutery”
Totalt antal kommentarer:	70 miljoner

(Tomma rutor indikerar att Guardian inte skrev andelen eller frekvensen.)

Sammanfattningsvis finns det mellan 0-3 procentenheters skillnad mellan könen, och de största skillnaderna återfinns snarare mellan typ av ämne.

Detta hindrar dock inte Guardian från att dra följande slutsats: ”of the 10 most abused writers eight are women, and the two men are black” (återigen mina fetmarkeringar). Men Guardian är för ivriga att sätta ett likhetstecken mellan hat mot journalister och antalet blockerade kommentarer. Guardian har över huvud taget inte analyserat vad kommentarerna innehåller utan bara hur många kommentarer som blockerats från kvinnliga respektive manliga journalisters artiklar. Och det är en tämligen trivial räkneövning som inte säger speciellt mycket.

Guardians metod och källkod finns beskrivet på deras hemsida, där de också skriver att ”we took blocked comments as an indicator of abuse and/or disruption”. Det vill säga, om en kommentar har blockerats så räknas den som kritik mot journalisten oberoende vad den innehåller. Men de blockerade kommentarerna kan dock mycket väl vara riktade mot någon helt annan än journalisten. Till exempel kan två kommentatorer växelvis kalla varandra idioter genom 200 ömsesidiga meddelanden (en inte helt osannolik situation för den som följt sociala medier). Men det innebär inte att journalisten som skrivit artikeln har blivit kallad idiot 200 gånger.

Precis som i fallet med Kit sker här en förväxling till fördel för den tolkningen som tycks vara närvarande i journalistens huvud snarare än i den data som analyseras. I det här fallet har ”blockerade kommentarer” blivit ”kommentarer som trakasserar journalister”.

Och det är fel.

Big data kan på detta sätt användas för att ge mycket exakta svar på frågor ingen har ställt. Med det menar jag att det inte är ursprungsfrågorna som människor funderar över som faktiskt ställs till datan, utan man ställer frågor som låter sig besvaras med hjälp av datan, och tolkar sedan det som ett svar på den ursprungliga frågan. Men det är fusk, eller till och med påhitt skulle jag vilja säga.

Journalistik kontra vetenskap

I forskarspråk pratar man om validitet. I båda exemplen ovan handlar det om att den teoretiska definitionen (hat och hot mot flyktingar respektive journalister) bör stämma överens med den operationella definitionen (det som faktiskt mäts). Här konstruerar journalisterna implicit både en teoretisk definition genom att prata om hat (och dylikt) samt en operationell definition genom mätandet, men det sker ingen större ansträngning att förena dem. I stället antas de vara förenade.

I värsta fall används data bara för att bekräfta journalisternas fördomar om verkligheten. Man kan tro att journalister är utsatta för hat och att antalet kommentarer är det objektiva beviset. Men det vore ingen analys, utan bara en form av cirkelbevis som döljs i pratet om hur stor datamängden är.

”Men vi gör inte anspråk på att vara vetenskapliga!” är en invändning från journalister.

Det är sant, det är viktigt att inte förväxla journalistik med vetenskap. Men när journalister förlitar sig allt mer på stora datamängder som de själva samlar in och analyserar ställer det krav på att analysen genomförs på ett korrekt sätt för att de ska kunna dra giltiga slutsatser. Det är det logik handlar om, att dra slutsatser från påståenden. Att logik används inom vetenskapen innebär inte att det är förbehållet vetenskapen eller ens att det endast bör förekomma där. Snarare tvärtom. Det är inte så att frasen ”vi håller inte på med vetenskap” är ett frikort till att dra slutsatser som inte låter sig dras från de metoder som används. Det vore absurt att hävda att 1+1=3 för att jag inte gör anspråk på att vara matematiker.

Men det tycker tydligen inte Guardian som skriver ”Even allowing for human error, the large number of comments in this data set gave us confidence in the results.” Med andra ord, även om Guardian gör fel så innebär antalet kommentarer att Guardian är säkra på sitt resultat.

Det tycks, i mina ögon, vara en övertro på stora datamängder kan ge oss en särskild insikt som små datamängder inte kan ge oss, och att problem enkelt försvinner med ökad storlek. Men det är viktigt att skilja mellan slumpmässiga fel som uppstår lite här och var (som namnet antyder) och mellan systematiska fel som uppstår med en viss regelbundenhet. Den stora datamängden kan hjälpa till att minimera slumpmässiga fel (jämför centrala gränsvärdessatsen). Men stora datamängder minimerar aldrig systematiska fel. De systematiska felen kvarstår oberoende av storleken på datamängden av det enkla skälet att de inte har ett dugg med storleken att göra.

Designen av en studie och hur insamlingen av data går till är ofta mycket viktigare än storleken på det insamlade materialet. Ett exempel är randomiserat kontrollexperiment som kan generera så lite som 50 datapunkter, men ändå ge betydligt högre säkerhet i vad som är orsak och verkan på grund av sin design. En analys med väldigt stor osäkerhet blir inte automatiskt säkerställd (i valfri mening av begreppet) bara för att det råkar vara många nollor efter de första siffrorna.

Slutsats

Sluta tro att storleken på en datamängd är något speciellt.

Det är teori, design och analys som är det viktigaste. Gör man dessa slapphänt blir också slutsatsen slapphänt.

Det är vanskligt att se data som objektiv fakta, och mer data som mer objektivt ur vilken man sedan letar efter en slutsats man har bestämt på förhand. Det kan bäst beskrivas som en irrationell tilltro till förklaringskraften hos mängden data, snarare än tillvägagångssättet datan införskaffades eller analyserades.

Forskare gör många gånger fel trots rigorös sakkunniggranskning. Nu när journalister, i värsta fall utan adekvat förståelse för metodens möjligheter och begränsningar, tar sig an uppgifter som många gånger är typiska forskningsuppgifter riskerar det att förstora upp triviala småproblem som lätt hade kunnat undvikas.

Det är dessutom ett vanligt tankefel att se sin egen grupp utsatt för hot liksom att man letar efter sådant som stödjer den egna ståndpunkten. Journalister är på inga sätt undantagna från sådana tankefel, och den lilla genomgång jag har gjort här med dessa två exempel kan vara ett sätt att se vilken slags bias journalisterna har. Med andra ord, om journalisterna redovisar hur de har gått tillväga går det att se vad för slags frågor metoden kan ge svar på och därmed också hur journalisterna lägger till sina egna tolkningar till resultaten.

Och kanske mer viktigt att påpeka, att säga journalisterna har hanterat metoden på ett felaktigt sätt innebär därmed inte att hot inte förekommer mot vare sig journalister eller flyktingar. Det är nämligen också en fallasi.

För att läsa om hot mot svenska journalister rekommenderar jag Journalism Under Threat av Monica Löfgren Nilsson och Henrik Örnebring.

Big data: Hur man mäter exakt fel

13 mars 2016Peter Dahlgren 2 Comments

Big data

Med big data kan man kasta ut teori och i stället låta datan tala för sig självt. Kausalitet är död och korrelation är den nya herren på täppan. I denna text ska jag försöka förklara varför en sådan inställning är helt fel.

Vad är big data?

Vi kan börja med att förklara vad big data är. Wikipedia säger att big data är ”data sets that are so large or complex that traditional data processing applications are inadequate”. Ett sådant begrepp är alltid relativt till den teknik vi har för tillfället, och ibland också den enskilda person som hanterar datan. Således är det som är big data i dag inte det som är big data i morgon.

Använder man en relationsdatabas är det dock ingen större konst att hantera miljoner eller miljarder rader på en vanlig laptop, om varje rad inte tar speciellt mycket utrymme. Det finns dock extrema exempel, såsom Large Hadron Collider som skapar flera petabyte per år (1 petabyte är 1 miljon gigabyte) och kräver flera datacentrar för att bearbeta all data.

Big data år 1936

Big data är dock knappast något nytt om man bara menar datamängder större än normalt. Redan 1936 genomfördes en opinionsundersökning med över tio miljoner personer (varav 2,5 miljoner svarade) för att ta reda på vem som skulle bli USA:s nästa president. Problemet var att bara personer med bil eller telefon fick svara på undersökningen, vilket uteslöt en stor del av den fattiga befolkningen. Föga förvånande (åtminstone i efterhand) fann man att republikanernas presidentkandidat skulle vinna storslaget, vilket sedan visade sig vara precis tvärtom mot det riktiga resultatet.

Funna datamängder

Det jag däremot ska prata om i den här texten är funna datamängder (found data), vilket är sådan data som redan finns och som forskaren så att säga ”hittar”. Det kan vara att analysera meddelanden på Twitter eller Facebook, vilka sökningar folk har gjort i en sökmotor, eller deras geografiska position som telefonen avslöjar.

Dessa funna datamängder kan man sätta i konstrast till data som man själv har skapat, till exempel data från ett vetenskapligt instrument (såsom fMRI eller Large Hadron Collider) eller ett vanligt experiment.

Överdrivna påståenden om big data

Chris Anderson är väl en av dem som gått längst med att beskriva fördelarna med big data, till exempel i artikeln The End of Theory: The Data Deluge Makes the Scientific Method Obsolete:

This is a world where massive amounts of data and applied mathematics replace every other tool that might be brought to bear. Out with every theory of human behavior, from linguistics to sociology. Forget taxonomy, ontology, and psychology. Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.

Vi kan alltså kasta ut teorier om varför någonting händer och i stället bara observera att det händer. Han säger vidare att korrelation till och med ersätter kausalitet:

The new availability of huge amounts of data, along with the statistical tools to crunch these numbers, offers a whole new way of understanding the world. Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all.

Chris Anderson är kanske det mest extrema exemplet så vi kan ignorera hur pass representativt det är. Men bristen på kritik mot big data riskerar att göra påståenden överdrivna, så kritik tjänar åtminstone till att inskränka möjligheterna och tydliggöra begränsningarna med big data.

Tre vanliga historier om big data

Det finns tre vanliga anekdoter som ibland berättas om big data. Dessa ska jag kort redogöra för nedan och sedan beskriva problemen med dem.

Google Flu Trends som förutspådde influensaepidemier

Google lanserade under 2008 tjänsten Google Flu Trends som förutspådde influensaepidemier genom sökningar på deras sökmotor (läs mer i Detecting influenza epidemics using search engine query data i Nature).

Den förutspådda influensaepidemin jämfördes sedan med de ”riktiga” värdena som rapporterats in av amerikanska CDC, eller Centers for Disease Control and Prevention som är det fullständiga namnet (vilket motsvarar svenska Smittskyddsinstitutet och Folkhälsomyndigheten). Siffrorna från CDC hade ungefär två veckors dröjsmål sedan de rapporterats in av landets alla vårdinrättningar, så att kunna förutspå influensaepidemier skulle ha stora fördelar för samhället, inte minst ekonomiska.

Träffsäkerheten på Google Flu Trends var dessutom väldigt hög, åtminstone inledningsvis. Dessvärre började Flu Trends att kraftigt underrepresentera den verkliga prevalensen av influensa, varpå Google justerade algoritmerna. Men till slut började Flu Trends i stället att kraftigt överrepresentera prevalensen av influensa. Inte så långt därefter lade Google ned tjänsten helt och hållet.

Street Bump och gropar i vägen

En annan anekdot kommer från 2012 då projektet Street Bump lanserades. Vägarna i Boston hade en mängd gropar och ett av problemen för att åtgärda dem var att helt enkelt hitta dem.

Ett väldigt kreativt sätt var att skapa en app som sedermera kom att kallas Street Bump. Appen låter förare automatiskt rapportera gropar i vägen genom att utnyttja sensorerna (accelerometern) som känner av rörelsen när bilen hoppar till av groparna i vägen.

Dessvärre rapporterades mängder av gropar felaktigt därför att appen inte lyckades skilja riktiga gropar från ”fantomgropar”. Men detta åtgärdades relativt snabbt med bättre programvara.

Target och den gravida tjejens pappa

En annan vanlig anekdot som ofta berättas är hur den amerikanska dagligvarukedjan Target skickade anpassad reklam för blivande mammor direkt till en tonårstjej. Tjejens pappa blev rasande och gick till affären för att i starka ordalag säga vad han tyckte om reklamen. Affären bad om ursäkt.

Efter ett par veckor ville affärsägaren återigen be om ursäkt och ringde upp tjejens pappa. Pappan var dock inte lika arg längre och sa i stället att Target hade rätt – hon var gravid. Pappan hade däremot inte fått reda på det. Med andra ord visste Targets algoritmer något som inte pappan visste.

6 problem med big data

1. Korrelation är inte kausalitet

Detta är knappast något nytt, men kanske det mest uppenbara och värt att poängtera ånyo. Nu har förvisso Chris Anderson sagt att det inte har någon betydelse, eftersom korrelation av någon anledning ersätter kausalitet förutsatt att man analyserar tillräckligt stora datamängder.

Dessvärre är hans exempel inte speciellt övertygande. Han nämner biologer som analyserar gendata och lyckas hitta skillnader. Men biologer är inte direkt kända för att förhålla sig kritiska till big data, åtminstone inte enligt artikeln Big data and the historical sciences: A critique, och statistiska signifikanta skillnader i gendata är inte tillräckligt för att skapa taxonomier av arter eller liknande.

Det finns exempelvis en positiv korrelation mellan smörkonsumtion och skilsmässor. Men vad ska vi göra med den informationen, förutom att roas åt den?

2. Vi får inte reda på falska positiva

Ett problem med historien om Target är att vi inte får veta hur stor andel av den anpassade reklamen för blivande mammor har skickats till de som inte är blivande mammor. Det vill säga, vi får inte reda på andelen typ 1-fel (falska positiva). Det är avgörande för att kunna bedöma hur pass tillförlitlig algoritmen är.

Detta är särskilt viktigt när det gäller kommersiella företag som inte vill, kan eller får dela med sig av den data de analyserar. Vi har helt enkelt ingen insyn och får helt enkelt lita på deras ord att det fungerar.

3. Algoritmer skapar självuppfyllande profetior

Så fort vi har en algoritm som kan påverka mänskligt beteende så kan den också skapa en självuppfyllande profetia.

Amazon har exempelvis en algoritm som visar ”de som har köpt den här boken har också köpt …” En sådan algoritm syftar naturligtvis till att öka försäljningen av böcker, men det innebär också att det som föreslås även köps i högre utsträckning. Med andra ord, det som algoritmen använder som underlag för att fatta beslut är det som till slut matas in i algoritmen igen, vilket skapar en ömsesidig förstärkning. Enkelt uttryckt: Det populära blir populärare därför att algoritmen har föreslagit att det ska vara populärare.

Därmed kommer framgångarna med denna typ av algoritmer att vara överdrivna. I fallet med Amazon gör det ingenting eftersom målet är att sälja mer böcker, men i andra fall av mänskligt beslutsfattande kan de hjälpa till att subtilt påverka beslut när beslutsfattarna saknar kunskap om algoritmernas förstärkningseffekter.

4. Det finns sällan teori som förklarar

Varför fungerade Google Flu Trends? Vi vet inte. Varför slutade Google Flu Trends att fungera? Det vet vi inte heller av samma anledning.

Eftersom det inte finns någon underliggande teori om hur eller varför saker och ting beter sig som de gör, är det ännu svårare att förklara varför något slutar fungera.

När det gäller Google Flu Trends kan det mycket väl vara så att medierna påverkar vad människor tänker på, och därmed vad de söker efter. Ju mer medierna skriver om influensa, desto mer söker alltså människor efter influensaliknande symptom. Det är en teori man kan testa på olika sätt, och ger också förutsägelser för vad man teoretiskt kan förvänta sig och därmed också de förutsättningar där teorin kan vara felaktig.

Det är en viktig distinktion eftersom flera big data-förespråkare tycks mena att vi ska analysera stora datamängder för att utvinna informationen som råkar finns där, snarare än att man utgår från en teori och testar om man kan hitta data som man förväntar sig finna där.

5. Data talar inte för sig självt

Data talar aldrig för sig själv utan kräver tolkning. Tolkning är beroende på dels statistisk kunskap, dels ämneskunskap och dels sammanhang. Det må finnas ett samband mellan två variabler i en datamängd, men det sambandet kan vara helt meningslöst ur teoretisk synvinkel och kanske förklaras av något annat som inte ingår i datamängden, men som ändå var närvarande i det sammanhang som datan samlades in. Utan hänsyn till sammanhang riskerar big data förblinda mer än upplysa.

6. Tron att om man har all data så har man alla svaren

Det finns ett uttryck om att big data betyder n = allt, vilket innebär att man analyserar all data som finns (och inte bara data man kan få tillgång till). Därmed behöver man inte göra ett urval eftersom man kan analysera allt. Det kan leda till följande villfarelser:

”Halva svenska befolkningen finns på Facebook. Därför kan man också se vad (åtminstone halva) svenska folket gör, tycker eller tänker genom att analysera Facebookdata.”

Fel!

Även om varenda svensk fanns på Facebook skulle en analys av bokstavligt talat all Facebookdata ändå inte innehålla en beskrivning av alla svenskar, utan bara aktiva svenskar. Det brukar kallas activity bias och riskerar ge väldigt skeva resultat.

Antalet konton på Facebook säger heller ingenting om antalet svenskar. Jag har exempelvis två konton på Facebook samt fyra-fem konton på Twitter för olika projekt. Många konton används för att automatiskt publicera inlägg.

När det gäller appen ”Street Bump” kan man fråga sig vilka det är som framför allt äger smartphone och bil? Det är inte de fattiga i alla fall, vilket leder till att gropar i de välbärgade områdena rapporteras in i betydligt högre utsträckning än mindre välbärgade områden. Det behöver dock inte nödvändigtvis vara ett problem, utan kan snarare frigöra resurser att faktiskt åka ut och leta efter gropar i vägen i andra områden. Men då måste man också vara medveten om begränsningarna.

Allt går inte att mäta

Jag tror inte någon förnekar att big data (hur man än definierar det) har lett eller kommer leda till en mindre revolution. Men absolut inte i meningen att vi kan kasta ut teorier om kausalitet, utan snarare att mängden data från samhällets alla hörn gör att vi kan ägna oss åt betydligt fler analyser. Inte minst med mobiltelefonernas sensorer!

Men samtidigt är det viktigt att inte förlora den humanistiska aspekten. Allt går inte att mäta, och allt man mäter behöver inte vara värdefullt. Just frågan kring hur man ska tolka data och ge den mening är knappast något som blir mindre problematiskt när vi badar i data. Snarare tvärtom. Det är lätt hänt att vi blir blinda för alternativa synsätt (som inte bygger på analys av mer och mer data) när vi redan drunknar i data.

Vi måste fortfarande ha teorier och vi måste fortfarande beakta det som kanske inte ens bör mätas, som till exempel normativ etik. Om man till exempel mäter konsekvenser av en handling (låt säga hur mycket pengar någon ger tiggare) så säger man implicit att konsekvensetik är det vi ska föredra framför dygd- eller pliktetik. Som sagt, bara för att det går att mäta innebär det inte att det bör mätas eller ens tillmätas någon betydelse. Det är fortfarande en teoretisk fråga, inte en empirisk.

Slutsats

Min poäng med denna text är inte att vi ska sluta analysera ”big data” eller sluta se möjligheterna med det, utan snarare att försöka blottlägga ett oreflekterat analyserande av big data och i stället lyfta fram begränsningarna. Det hjälper oss att se när vi faktiskt bör analysera big data.

Problemet med ”funna data” kan egentligen sammanfattas på ett enkelt sätt. Så fort man försöker mäta människors beteende så kan människor anpassa sig efter mätningen. Då kan en feedback-loop uppstå, vilket innebär att information om mätningen påverkar fortsatta mätningar. Ett bra exempel är artikeldelningar. Vi tenderar att dela artiklar som redan har delats mycket. Konsekvensen är att det populära blir ännu mer populärt.

Big data är inte heller slutet för teori. Teori är viktigare än någonsin för att sortera bland, och framför allt förstå, big data.

Jag tror att vi kommer få se många fler analyser inom både journalistiken och vetenskapen som är exakt fel. På 1960-talet sa den amerikanska matematikern John Tukey att han föredrog ‘‘an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise”. Med andra ord kanske vi ska ställa mer precisa frågor och sedan se om de kan besvaras med big data, snarare än att titta i big data först och se vilka frågor vi kan besvara exakt.

Läs mer

Sprids känslor på Facebook? Nja, inte riktigt.

06 juli 2014Peter Dahlgren 2 Comments

I massmedierna har en nyligen publicerad studie framställts som att känslor sprids på Facebook. Om en vän slutar skriva en massa positiva ord så skriver du fler negativa ord. Men är det verkligen så?

Studien tittade på hur känslor kan spridas från en människa till en annan när de pratar eller interagerar med varandra på något sätt (emotional contagion). Forskarna manipulerade nyhetsflödet hos 689 003 Facebookanvändare och visade mindre positiva och negativa inlägg för användarna för att se om de påverkades under veckan. Rent konkret så var det en algoritm som sökte igenom Facebookinlägg och dolde inlägg om de hade positiva (eller negativa) ord.

När positiva inlägg försvann så ökade antalet negativa inlägg med 0,04 procent. Och när negativa inlägg försvann så ökade antalet positiva inlägg med 0,07 procent.

Men som vanligt när massmedierna refererar till forskning (och i synnerhet effekter) så görs alla nyanser om till ett svartvitt beslut: ”Sprids känslor vidare på Facebook eller inte?” Det är dock svårt att göra om en skala till en fråga som bara har två svarsalternativ. Det korta svaret är att det finns en effekt. Men den är inte speciellt stor, och den är heller inte speciellt relevant.

1. Väldigt, väldigt liten effekt

Så här säger Facebookstudien med all sin detaljrikedom:

When positive posts were reduced in the News Feed, the percentage of positive words in people’s status updates decreased by B = −0.1% compared with control [t(310,044) = −5.63, P < 0.001, Cohen’s d = 0.02], whereas the percentage of words that were negative increased by B = 0.04% (t = 2.71, P = 0.007, d = 0.001). Conversely, when negative posts were reduced, the percent of words that were negative decreased by B = −0.07% [t(310,541) = −5.51, P < 0.001, d = 0.02] and the percentage of words that were positive, conversely, increased by B = 0.06% (t = 2.19, P < 0.003, d = 0.008). The results show emotional contagion. [mina fetmarkeringar]

Skippa de krångliga siffrorna och titta på det mest uppenbara – procentstorleken. Skriver du mindre positiva ord på Facebook så minskar antalet positiva ord som dina vänner skriver med upp till 0,1 procent. Är det mycket? Nej, inte speciellt. Det är jävligt lite i sammanhanget om vi antar att du har 150 vänner (vilket är ungefär vad en genomsnittlig användare har).

Dessutom går det att notera att effektstorleken är väldigt, väldigt liten. Cohens d är som högst 0,02 i studien. Det är motsvarigheten till att hälla en burk rödfärg i Vättern och säga att man har färgat vattnet rött. Det är visserligen sant, men hur mycket av hela sjön har egentligen färgats rött? Det är knappt synbart och förmodligen inte något man behöver ringa Länsstyrelsen för att berätta.

Såvida du inte har 100 000 vänner lär du förmodligen inte påverka dina vänner speciellt mycket med dina statusuppdateringar. Men om du nu råkar vara Robyn eller någon annan kändis så kan du förmodligen påverka dina vänner så att några av dem uttrycker sig mer positivt eller negativt.

2. Ord är inte känslor

Ett annat problem är kopplingen mellan ord och känslor. För det första har de inte mätt känslor, utan känslouttryck, och det är något helt annat. Jag kan exempelvis uttrycka mig ledsamt samtidigt som jag är väldigt glad och vice versa.

Men detta är inte ett speciellt allvarligt problem eftersom vi ändå inte kan veta vad personen på andra sidan skärmen faktiskt tycker eller känner.

Citat kan innehålla negativa ord samtidigt som Facebookinlägget i övrigt är positivt, men det spelar inte heller så stor roll. Frågan är om orden smittar eller ej.

Dessutom sprids mycket tårdrypande historier liksom solskenshistorier via videoklipp och foton, som har högre potential att uttrycka känslostämningar, så vi kan anta att effekten är betydligt större när det kommer till multimedia. Det är dock oerhört svårt att undersöka foton och videon på en så stor vetenskaplig skala eftersom det sällan går att mäta på något vettigt sätt (vilket är en allvarlig brist i största allmänhet).

Läs också Word of Psychology som skrivit en bra kritik av metoderna. Där påpekas bland annat att textanalysen är kass eftersom den inte passar för korta texter.

3. Nej, konsekvenserna är små

Forskarna säger att detta experiment visserligen har små effekter men ändå har potentialen att påverka hundratusentals människor eftersom Facebook har över en miljard användare:

More importantly, given the massive scale of social networks such as Facebook, even small effects can have large aggregated consequences (14, 15): For example, the well-documented connection between emotions and physical well-being suggests the importance of these findings for public health. Online messages influence our experience of emotions, which may affect a variety of offline behaviors. And after all, an effect size of d = 0.001 at Facebook’s scale is not negligible: In early 2013, this would have corresponded to hundreds of thousands of emotion expressions in status updates per day.

Men detta är inte helt sant.

Människor är grupperade i kluster och information sprids inom kluster snarare än mellan dem. Det innebär att information på Facebook skickas mellan vänner och sällan når längre än så, och det beror i huvudsak på att det är vänner och kollegor som pratar med varandra på Facebook. Det finns förstås undantag där information sprids väldigt långt, upp till 82 steg från källan har uppmätts, men de är lätträknade i jämförelse. På andra sociala medier, såsom Twitter, är det däremot mer främlingar som talar med varandra, men däremot visar forskning att även på Twitter tenderar människor att prata med likasinnade.

Jag tror snarare att de långsiktiga effekterna av att använda sociala medier är betydligt ”starkare”, vilket också är något jag ska undersöka i min egen doktorsavhandling.

Och sedan den etiska biten att manipulera Facebookflöden utan att användarna är medvetna om det. Ja, den frågan ignorerar jag helt i detta inlägg och överlåter jag till moralfilosofer i stället. Det verkar dock som att de bröt mot många etiska regler inom vetenskapen, bland annat om samtycke och att man ska informera deltagarna om vad som har hänt.

Slutsats

Kan du påverka dina vänners känslor på Facebook? Nej. Effekten i den här studien är så liten så att jag vill påstå att den är försumbar och helt enkelt kan ignoreras.

Eftersom forskarna heller inte tar hänsyn till mediets egenskaper (hur människor använder Facebook och hur information sprids på Facebook) gör det att de av misstag sätter ett likhetstecken mellan känslornas spridningsmöjlighet med antal användare. Men de flesta Facebookanvändare har inte 100 000 vänner.

Det vill säga, information sprids mest mellan vänner och det innebär att informationen inte kommer speciellt långt. Därmed blir den känslomässiga spridningen (emotional contagion) inte heller speciellt påtaglig då de psykologiska teorierna inte kan överföras direkt till ett medium utan att man också tar hänsyn till hur folk använder medierna. Det är därför man måste ha kunskap om både psykologi och medier för att kunna göra psykologiska fältexperiment med medier.

Sammanfattningsvis, även om effekten hade varit större så hade den fortfarande inte varit speciellt relevant.

Betyder detta att Facebookanvändare är immuna mot känslomässig påverkan? Inte alls. Testa själv genom att skriva en statsuppdatering om att dina föräldrar har dött. Du kommer garanterat att påverka dina vänners känsloyttringar på Facebook väldigt mycket. Men räkna inte med att det kommer att spridas speciellt långt. Och räkna inte heller med att någon kommer att ta dig på allvar i fortsättningen.

Några som skrivit om studien

Här är ett axplock av massmedier och bloggar som skrivit om Facebookstudien:

Foto: Evan Raskob

Varför ”Big Data” bara är lurendrejeri

03 augusti 2013Peter Dahlgren 1 Comment

Big data - statistik

Det finns ett outtalat antagande med big data att mer information innebär att vi kan fatta bättre beslut. Det vill säga, om vi kan få åtkomst till mer och mer data så blir slutsatsen vi kan dra från datan betydligt mer säker. Om vi exempelvis analyserar 2 miljarder inlägg från Twitter skulle vi med väldigt hög säkerhet kunna säga vad människor tänker och tycker om olika saker.

Allt detta är dock lurendrejeri.

(Först ett skämt: Finns det telefoner i lera, eller är det lurendrejeri? Okej, nu åter till allvaret.)

Vi behöver rätt information – inte mer

Mer information innebär inte nödvändigtvis bättre information. Det fundamentala är att man måste ha rätt sorts information för att kunna dra slutsatser. Inte mer information. Då spelar saker som ”big data” heller ingen roll, eftersom det inte löser de fundamentala problemet med att ha rätt information från första början.

Det kallas information bias och är en sorts ”skevhet” i människors sätt att tänka. Det är tron att ju mer information man har (för att fatta ett beslut), desto bättre är det. Men den tron är alltså ogrundad.

Nya, sexiga ”data science”

Ett roligt ord är ”data science”. Ungefär som om det vore ett helt nytt och revolutionerande sätt att bedriva forskning.

Forskare som håller på med stora mängder data borde ju rimligtvis innebära att de därmed kan dra stora slutsatser och stora generaliseringar. Det låter kanske som ett rimligt argument, men det är det knappast. Det är inte bara mängden data som avgör, utan också hur man har fått tag i den som är det väsentliga.

Ingenjören Pete Warden skriver på sin blogg om varför man aldrig ska lita på en data scientist. Genom att göra färgglada bilder med linjer och streck från 200 miljoner Facebookprofiler skulle man kanske kunna tro att han gjort en ”objektiv” beskrivning av Facebookanvändarna:

The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas. I thought I was publishing an entertaining view of some data I’d extracted, but it was treated like a scientific study. A New York Times columnist used it as evidence that the US was perilously divided. White supremacists dug into the tool to show that Juan was more popular than John in Texan border towns, and so the country was on the verge of being swamped by Hispanics.

[…]

I’ve never ceased to be disturbed at how the inclusion of numbers and the mention of large data sets numbs criticism.

Det är gammal hederlig statistik…

Kan man säga att ”7 av 10 av unga har provat droger” så låter det trovärdigt och som ett allvarligt hälsoproblem. Det är ”fakta” som serveras rakt upp och ned. Att det i själva verket bara är femtio personer på Sergels torg som har fyllt i ett formulär och fått uppskatta droganvändningen bland sina vänner tycks vi vara mindre angelägna om att ta reda på. Formuleringen ”7 av 10” tycks vara nog för att vi ska sluta ställa frågor och låta vårt intellekt kapitulera.

Men man måste fortfarande göra lämpliga stickprov ur populationen, välja rätt skala och variabler liksom att analysera med rätt koefficienter och så vidare. Kort sagt: Man måste fortfarande hålla på med statistik. Och det kräver i regel lång utbildning och är ingenting som mer data eller snyggare infographics kan råda bot på.

…men statistik är inte sexigt

Det låter ju mer övertygande att säga att man har analyserat 200 miljoner Facebookprofiler än någon sociolog som gjort ett obundet slumpmässigt urval bland några tusental personer. Stora siffror är häftiga. Krångliga metodavsnitt i avhandlingar är ångestframkallande.

Vad som ger rätt slutsats är nämligen inte samma sak som det som ger en intressant slutsats. Forskare letar efter rätt slutsats till precist formulerade frågor, medan medierna letar efter en intressant slutsats baserad på vaga och förutfattade spekulationer till frågor (det som passar medielogiken).

Med hjälp av ”data science” och ”big data” får man däremot siffror att låta sexigt, utan att behöva befatta sig med jobbig statistik. Men som satirikern H.L. Mencken uttryckte det: ”För varje komplext problem finns det ett enkelt svar, och det är fel.”

Och när vi ändå är inne på att såga myter så kan jag säga att den ”magiska” gränsen för statistisk signifikans med ett p-värde < 0,05 är fullständigt godtycklig. Men det låter ju mer vederhäftigt om det är 0,05 eller under.

Slutsats

Big data är, trots sitt sexiga namn, inget annat än vanlig statistisk analys. Däremot finns det helt andra användningsområden för så kallad ”big data” som är mer lämpliga, men man kommer däremot inte ifrån att man håller på med statistik i någon form, eller att metoderna (insamling och analys) kommer att påverka resultatet.

Siffror öppnar inte en magisk dörr av värdeneutral objektivitet. Man måste fortfarande veta var siffrorna kommer ifrån och vad de betyder och, framför allt, vilka slutsatser man faktiskt kan dra från dem. Och det är gammal kunskap som ny teknik inte har förändrat.

Vad vi sällan behöver är mer och mer data. Vad vi snarare behöver är mer välformulerade problem.

Läs mer

Vilka är det som näthatar? (Och varför vi bör hata missbruk av statistik) – ett tidigare blogginlägg där jag analyserar det statistiska underlaget i en debattartikel.
The Paradox of Choice – Why More is Less – video med psykologen Barry Schwartz som skrivit en bok med samma namn (Paradox of Choice alltså).
How Juries are fooled by statistics – TED Talk av matematikern Peter Donnelly om hur människor kan fällas för brott de inte begått för att vi tror för mycket på statistik.
The statistical significance scandal: The standard error of science? – ett intressant blogginlägg om att statistisk signifikans inte är så signifikant ändå.
Hur man lätt lurar sig av regression mot medelvärdet – om ett vanligt statistiskt fenomen som ibland lurar de som arbetar med statistik.
In Praise of Small Data – här skriver Evan Miller om hur ”big data” kostar mer pengar och tar längre tid att bearbeta än mindre data. Hans slutsats är att kunskap om statistik är betydligt bättre än att ösa mer data på problemet.
Which is better, data or theory? – En bra fråga som påpekar att det är nödvändigt att data och teori möts. Att bara gräva i data leder ingenvart och att bara teoretisera leder heller ingenvart.
Big data: are we making a big mistake? – Bra artikel som lyfter upp några exempel som ofta används inom big data och visar på bristerna med dessa. Bra slutkläm också: ”’Big data’ has arrived, but big insights have not.”