Vetenskap

Könsskillnader i utbildning och examen

Vilka utbildningar får kvinnor och män sin examen ifrån? Det har jag längre undrat och presenterar därför lite statistik kring andelen kvinnor och män på svenska universitet och högskolor från förra året som jag plockat fram.

Kort och gott kan man sammanfatta det med att nästan 8 av 10 examina på grundnivå och avancerad nivå delades ut till en majoritet kvinnor.  Tänk på att den siffran gäller för de olika typerna av examina i grafen nedan.

Klicka på bilderna för en större version.

Tittar man i stället på antalet examina totalt så är det 49 941 kvinnor och 28 052 män under 2018, det vill säga 64 procent kvinnor.

Vilka ämnen doktorerar män och kvinnor i?

Där brukar könsskillnaderna beskrivas som jämna om man tittar på alla doktorander som började doktorera under 2018 (1 552 kvinnor samt 1 525 män). Tittar man däremot på respektive ämne så framträder könsskillnader även där, vilket framgår av grafen nedan.

UKÄ har förvisso rapporter om jämställdhet där de visar några utvalda utbildningar och könsandelen inom dessa, men den senaste är från 2016 och få av dessa rapporter, eller andra UKÄ-pubikationer för den delen, visar alla utbildningar.

Metod

Jag har använt följande statistik från UKÄ genom att ladda ned deras CSV-filer:

Jag har utgått från de ämnesindelningar som finns i dessa filer och jag har ingen aning om hur väl de stämmer överens med verkligheten, det får man fråga UKÄ om. Det finns exempelvis ett stort antal svenska utbildningar med okänd examen eller universitet (de saknar värde helt enkelt), vilket är märkligt. Dessa okända utbildningar och examina har jag tagit bort från graferna ovan.

Använder vänstern eller högern public service-nyheter mest? Studie över 30 år

Alla nya medier (som exempelvis Facebook) gör att SVT och SR får konkurrens om människors uppmärksamhet. Det finns därför en oro att personer på vänster- eller högerkanten nu väljer bort public service-nyheter för nyheter som går i linje med deras politiska övertygelser. Men gör de det?

Kort svar: Inte nödvändigtvis.

I en artikel, som är en del av min avhandling, undersöker jag vilka grupper som är mest benägna att använda (och sluta använda) public service-nyheter över 30 år. Är det vänstern eller högern? Är det sossar eller moderater? Eller är det de som saknar politiskt intresse? Genom att analysera svenska befolkningens politiska preferenser (ideologi, partitillhörighet och politiskt intresse) samt deras medieanvändning från 1986 till 2015 (totalt 103 589 personer) är följande svaret:

1. Ingen större skillnad mellan högern och vänstern

Vänstern och högern använder public service-nyheter lika mycket över tid. Men ju längre ut på ytterkanterna man är på vänster/höger-skalan, desto mer använder man public service-nyheter. Skillnaden är dock inte speciellt stort (och framträder framför allt när man kontrollerar för andra faktorer, såsom kön och utbildning).

2. Politiskt intresserade fortsätter använda public service-nyheter mer än de som saknar politiskt intresse

Ju mer politiskt intresserad man är, desto mer använder man public service-nyheter. Detta är den viktigaste förklaringsfaktorn om man jämför storleken på skillnaderna som jag har tittat på. Hur intresserad man är av politik är därför en av de viktigare förklaringarna till varför medborgarna använder (och fortsätter använda) public service-nyheter.

3. Gillar du ett riksdagsparti är chansen stor att du också följer public service-nyheter

Det skiljer mycket mellan olika partitillhörigheter, och från år till år, men det verkar inte ha så mycket att göra med huruvida partierna finns på vänsterkanten eller högerkanten. Här hittades inga större skillnader mellan partianhängarna över tid. Det viktiga är snarare huruvida partiet finns i riksdagen eller inte: de som sympatiserar med partier som inte finns i riksdagen använder heller inte public service-nyheter i någon större utsträckning. SD-anhängare är den enda gruppen där användningen av public service-nyheter faktiskt har ökat över tid.

Kontrollerar man däremot för ålder så minskar medieanvändningen över tid, främst bland SD-anhängare. Det beror på att det främst är äldre som använder public service-nyheter.

Vad betyder detta?

Enligt många tyckare (exempelvis de som pratar om filterbubblor) tar allt färre del av traditionella massmedier, och anledningen sägs vara att de som har de mest extrema övertygelserna har som störst behov att bekräfta sina politiska övertygelser och undviker därför politiskt neutrala nyhetskällor som public service-nyheter. Detta rimmar dock illa med verkligheten, både i den här undersökningen och med övrig forskning.

Även om det stämmer att svenskarna generellt sett använder public service-nyheter mindre och mindre sedan 1986, är minskningen inte speciellt stor. Det rör sig om några procentenheter hit eller dit (och då har vi ännu inte tagit mätfel i beaktande).

I stället är det de som saknar politiskt intresse som tenderar att ”överge” public service-nyheter, vilket också stämmer överens med mängder med andra studier som påpekar vikten av politiskt intresse. De som har starka ideologiska övertygelser tenderar i stället att använda nyheter mer än de som har svaga övertygelser.

Fakta om studien

  • Svenska medborgare har tillfrågats årligen från 1986 till 2015 (longitudinellt tvärsnitt)
  • 103 589 svenskar ingår i studien, 16 år och äldre
  • Urvalet är ett slumpmässigt urval av svenska befolkningen
  • Datan är baserad på nationella SOM-undersökningen (s.k. Super-SOM) genom enkätundersökningar på papper och webb

Begränsningar

Alla studier har begränsningar och det är viktigt att påpeka vilka de är så att man inte drar allt för långtgående slutsatser. Här är några saker som kan vara bra att ta hänsyn till:

  • Endast Aktuellt, Rapport och Ekot. Eftersom det är dessa public service-nyheter som har undersökts (oberoende av medium som tv, radio eller webb) säger artikeln ingenting om public service-användning generellt eller nyhetsanvändning generellt. Med andra ord kan en individ ta del av massor med nyheter via andra källor, eller allt från public service utom nyheter.
  • Självskattade svar. Medborgarna har själva fått svara på frågor om hur mycket de använder public service-nyheter, till skillnad från att någon observerar vad de konsumerar. Därför finns det en risk att deltagarna överskattar (och ibland underskattar) sin medieanvändning.
  • Gruppnivå, inte individer. Analysen är gjord på gruppnivå, det vill säga den tittar på hela befolkningen och uttalar sig inte om enskilda individer. Det finns med andra ord en stor variation vad gäller medieanvändning inom respektive grupp, och den variationen säger den här artikeln ingenting om.
  • Svarsfrekvensen har minskat över tid. Det är exempelvis fler politiskt intresserade som tenderar att svara på undersökningar, vilket därmed påverkar vilka personer vi drar slutsatser om. Pensionärer är duktiga på att svara, medan unga och icke-svensktalande är sämre på att svara.
  • Hönan och ägget. Frågan om kausalitet är viktig. Alla tre politiska preferenser (ideologi, partitillhörighet och politiskt intresse) är till viss del ärftliga och kan därför antas påverka även medieanvändning, men kan naturligtvis också påverkas av medierna. Vilken kausal riktning som har störst effekt är en öppen fråga, men eftersom avhandlingen handlar om selektionseffekter är det individernas val av medier som är av intresse här.

Läs artikeln

Artikeln är publicerad i tidskriften The International Journal of Press/Politics och heter följande:

Selective Exposure to Public Service News Over Thirty Years: The Role of Ideological Leaning, Party Support, and Political Interest

Abstract
Internet has fragmented the media landscape. People can now easily self-select into news outlets that aligns with their political preferences, which may create a polarized citizenry. However, public service broadcasting in many European countries still strive to have a universal appeal, which can mitigate political cleavages. This study examines which political preferences are more likely to facilitate selective exposure to public service broadcasting news, as well how public service broadcasting news affect political polarization, using an annual survey spanning 30 years in Sweden (n=103,589). Using mixed-effects modelling, results suggests that fewer attend to public service news over time, but differences by political leaning is minor, whereas identity with right-wing populist party decrease the use of public service news. Moderate amounts of political interest are enough for individuals to sustain use of public service news over time. Political polarization is also minor between those who use public service news more often versus seldom. In general, neither political cleavages nor political polarization seems to have increased over time due to selective exposure or public service news use.

Du kan läsa hela artikeln i fulltext om du saknar inloggning via ett bibliotek. Du kan också ladda ned analysskript och all data.

Läser journalister källorna de hänvisar till?

Viskleken har nog de flesta hört talas om. En person säger något till en andra person, som i sin tur säger det till en tredje, och så vidare. Poängen är att informationen bitvis förändras på vägen.

I journalistiken (och i forskningen också, faktiskt) förekommer också visklekar. Man kollar helt enkelt inte upp källorna, utan accepterar slutsatsen någon annan har skrivit (och kanske inte ens förstått), för att sedan föra vidare slutsatsen ifråga. Här följer ett exempel.

Sveriges Radio Medieormen skriver så här:

New York Times har uppmärksammat fenomenet i en artikel om hur Googles algoritmer, oavsiktligt får man hoppas, har börjat diskriminera. Som exempel anger man en studie som visar att Googles platsannonser för högbetalda jobb oftare riktas mot män än mot kvinnor.

Följer man länken till New York Times kan man läsa detta:

Google’s online advertising system, for instance, showed an ad for high-income jobs to men much more often than it showed the ad to women, a new study by Carnegie Mellon University researchers found.

Klickar man sedan vidare till studien kan man läsa detta:

We cannot determine who caused these findings due to our limited visibility into the ad ecosystem, which includes Google, advertisers, websites, and users.

Så efter två klick kan man konstatera att originalpåståendet (”Googles algoritmer har börjat diskriminera”) inte hade mycket substans (”We cannot determine who caused these findings”). Även forskare har misstagit sig på samma punkt.

Det är väldigt positivt att massmedierna länkar till sina källor. Det gör deras arbete mer transparent och felaktigheter kan lättare upptäckas. För i ärlighetens namn är dessa fel inte förbehållet journalister. Forskare citerar också på samma sätt emellanåt, det vill säga till andrahandskällor utan att kontrollera originalkällorna. Den omvända praktiken förekommer också, att originalkällor citeras medan fullständiga vederläggningar av dessa källor inte alls citeras.

Fördelen inom akademin är dock att referenssystem både är standardiserade och nödvändiga. Därmed är också missuppfattningar i grunden demonstrerbara. Det finns inget värre än att läsa ”en studie har visat att”, vilket omedelbart skapar frågor. Vilken studie? När? Vem? Var? Hur?

I dag fick jag frågan varför så många tror att filterbubblor existerar trots att forskningen visar att de sällan gör det. Kanske kan viskleken vara en av förklaringarna. Om vi börjar med slutsatsen kan vi enkelt viska oss fram till vad som helst.

Fler exempel

Floden av upprördhet i sociala medier

Intressant diskussion om ökningen av populism mellan tidigare partiledaren för brittiska Liberaldemokraterna Nick Clegg och socialpsykologen Jonathan Haidt i debattmediet intelligence2.

Det jag framför allt vid lyfta fram är internets betydelse och vad Haidt kallar floden av upprördhet.

Floden av upprördhet

Sociala mediers betydelse tas upp ungefär 47:10 minuter in i klippet. Här är ett citat jag tycker summerar problemet med sociala medier bra, nämligen floden av upprördhet:

If a swastika is drawn on a locker in a junior high school in Illinois, everybody on the left will hear about it. And if an idiot holds up a sign saying “Patriotism is racism”, everyone on the right will hear about it. So, everyone is immersed in a river of outrage. And it’s very hard to see how we turn down the volume. I think the very idea of democracy is severely challenged by new technology.

Jag tror precis detta är nyckeln till selektiv exponering när det kommer till internet. Det är förvisso möjligt att bara ta del av material som bekräftar vad man redan tror. Det polariserar dock inte människor speciellt mycket, utan snarare tvärtom.

Men när en individ exponeras för information som går emot dennes övertygelser, och i synnerhet information som hotar den sociala identiteten, så tenderar polariseringen att öka.

Så när man tar del av information, dag ut och dag in, som går emot ens egna övertygelser, finns det ökad vilja till att mobilisera sig politiskt. Dock tenderar man att överskatta prevalensen av problemet på grund av en konstant repetition. Med andra ord, det är inte sin egen grupps förträfflighet man exponeras för, utan snarare problemen med alla andras. Lägg därutöver till information som ramas in på ett vis som förstärker, och i vissa fall även överdriver, detta problem.

Jag kommer förhoppningsvis utveckla detta i en artikel under hösten.

Läs och se mer

Uppmaning till journalister att sansa er förtjusning för big data

I min tidigare artikel om Big data: hur man mäter exakt fel beskrev jag problemet med att ge avkall på sitt kritiska tänkande eftersom datamängden är så pass stor att blotta storleken på något magiskt vis gör att problem försvinner. I synnerhet när det gäller data som handlar om människor och deras sociala relationer.

I denna artikel tänker jag fortsätta på den linjen och ge två exempel där journalister har en förutbestämd tolkning de lägger till datan, snarare än att de hämtar tolkningen från datan. De två olika tillvägagångssätten kan kanske bäst sammanfattas med teckningen nedan. För den som inte känner till så är kreationism tron att Gud skapade världen.

Big data och tolkning

The scientific method: Here are the facts. What conclusions can we draw from them?
The creationist method: Here’s the conclusion. Whats facts can we find to support it?

Exempel 1. Kit analyserar den hatiska flyktingopinionen

Den relativt nystartade nyhetssajten Kit skriver i artikeln Så sprids flyktinhatet på nätet exakt hur omfattande hatet (och även rädslan) mot just flyktingar är. Nedan följer ingressen samt det inledande stycket från nyhetssajten.

Så sprids flyktinghatet

Man kan fråga sig hur denna analys har gått till, och Kit är vänliga med att presentera den för oss (med mina fetmarkeringar):

Allt som publiceras öppet på nätet i en viss fråga sparas och blir sökbart. Inläggen klassificeras utifrån vilka ord som förekommer i samband med det tema som analyseras. När det gäller ”flyktingar” är det alltså inlägg i flyktingfrågan som räknas, så hatet behöver inte vara riktat mot flyktingar, det kan även vara riktat mot exempelvis politiker som fattat beslut i flyktingfrågan. För varje tonalitet finns några tusen ord. När det gäller hat är det ord som ”avsky”, ”hata”, ”förakta”, ”föröda”, ”bua”, ”pervertera” osv.
Inlägg klassas som positiva när det förekommer ord som ”bra”, ”cool”, ”snygg”, ”najs” Även olika typer av smileys räknas.

Metoden tillåter alltså att man mäter hur ofta två typer av ord förekommer tillsammans, då företrädesvis flyktingar och hatiska ord. Det har Kit sedan valt att tolka som att det är hat riktat mot flyktingar. Det finns dock ingenting i metoden som tillåter den tolkningen, eftersom en fras som ”jag hatar politiker som inte hjälper flyktingar” är riktat mot politiker till stöd för flyktingar.

En metod medger vissa tolkningar men inte andra. Det är så med alla metoder och det är därför vi måste ha flera metoder som fungerar som ett lapptäcke och i den bästa av världar ger ett samstämmigt resultat. För att kunna dra slutsatser från en analys av detta slag måste man därför ha kunskaper vad en metod faktiskt kan göra (och kanske mer viktigt, vad den inte kan göra) för att kunna berättiga en slutsats. I det här fallet har Kit ignorerat begränsningarna genom att göra om ett samband mellan ord till ett orsakssamband som ska tolkas på ett specifikt vis. Enkelt uttryckt har ”hat och flyktingar” blivit ”hat mot flyktingar”.

Det tycks dock ligga någon sorts vinst i att det åtminstone går att mäta detta hat exakt eftersom Kit menar att de nu kan visa ”exakt hur omfattande det är”. Men det är mer sannolikt ett exakt mått på fördomen som journalisten hade i huvudet när datan analyserades.

För den som är intresserad av den här frågan kan jag hänvisa till en diskussion på Twitter jag hade med journalisten ifråga. Mina frågor om huruvida metoden tillåter denna slutsats besvaras dock inte (förmodligen på grund av att vi inte förstod varandra, en inte helt ovanlig situation på Twitter).

Exempel 2. Guardian analyserar 70 miljoner kommentarer

Ett annat exempel kommer från den brittiska tidningen The Guardian, som för en tid sedan publicerade The dark side of Guardian comments. Tidningen analyserade 70 miljoner kommentarer på sin nyhetssajt sedan 2006 och kom fram till att artiklar som är skrivna av kvinnor innehöll fler blockerade kommentarer än de som var skrivna av män. Blockerade kommentarer raderades alltså inte, utan doldes bara för visning eftersom de bröt mot tidningens regler. De raderade dock kommentarer som innehöll spam och dylikt.

Det mest intressanta är förmodligen det tredje diagrammet i artikeln, som visar vilka journalister (män eller kvinnor) som fått flest kommentarer blockerade till sina artiklar. Diagrammet visar att upp till 2,6 procent av kommentarerna har blockerats från artiklar skrivna av kvinnor (vilket också är uppdelat per sektion). Motsvarande siffra för män är 1 procent. Skillnaden mellan könen är maximalt 3 procentenheter och återfinns år 2013. (Detta är en uppskattning eftersom jag mätt pixlarna i de färgade linjerna i diagrammet där 60 pixlar motsvarar ungefär 1 procentenhet.)

The Guardian kommentarer

Detta är ett intressant fynd även om det inte är speciellt stor skillnad. Men det är viktigt att ha i åtanke att detta bara är ett samband mellan journalistens kön med kommentarer som blockerats. Samband betyder inte orsakssamband. Vi vet därför inte varför sambandet ser ut som det gör.

Vi vet heller inte vad det är för slags kommentar som blockerats. Guardian ger inte speciellt ingående analys av vad för slags kommentarer det handlar om. Jag har läst texten och sammanställt deras beskrivning i tabellen nedan:

Typ av kommentar som blockerats Andel av kommentarerna
legal small proportion
disruptive vast majority
– disruptive: threats extremely rare
– disruptive: dismissive trolling
– disruptive: author abuse significant proportion
hate speech rarely seen
xenophobia, racism, sexism and homophobia seen regularly
“whataboutery”
Totalt antal kommentarer: 70 miljoner

(Tomma rutor indikerar att Guardian inte skrev andelen eller frekvensen.)

Sammanfattningsvis finns det mellan 0-3 procentenheters skillnad mellan könen, och de största skillnaderna återfinns snarare mellan typ av ämne.

Detta hindrar dock inte Guardian från att dra följande slutsats: ”of the 10 most abused writers eight are women, and the two men are black” (återigen mina fetmarkeringar). Men Guardian är för ivriga att sätta ett likhetstecken mellan hat mot journalister och antalet blockerade kommentarer. Guardian har över huvud taget inte analyserat vad kommentarerna innehåller utan bara hur många kommentarer som blockerats från kvinnliga respektive manliga journalisters artiklar. Och det är en tämligen trivial räkneövning som inte säger speciellt mycket.

Guardians metod och källkod finns beskrivet på deras hemsida, där de också skriver att ”we took blocked comments as an indicator of abuse and/or disruption”. Det vill säga, om en kommentar har blockerats så räknas den som kritik mot journalisten oberoende vad den innehåller. Men de blockerade kommentarerna kan dock mycket väl vara riktade mot någon helt annan än journalisten. Till exempel kan två kommentatorer växelvis kalla varandra idioter genom 200 ömsesidiga meddelanden (en inte helt osannolik situation för den som följt sociala medier). Men det innebär inte att journalisten som skrivit artikeln har blivit kallad idiot 200 gånger.

Precis som i fallet med Kit sker här en förväxling till fördel för den tolkningen som tycks vara närvarande i journalistens huvud snarare än i den data som analyseras. I det här fallet har ”blockerade kommentarer” blivit ”kommentarer som trakasserar journalister”.

Och det är fel.

Big data kan på detta sätt användas för att ge mycket exakta svar på frågor ingen har ställt. Med det menar jag att det inte är ursprungsfrågorna som människor funderar över som faktiskt ställs till datan, utan man ställer frågor som låter sig besvaras med hjälp av datan, och tolkar sedan det som ett svar på den ursprungliga frågan. Men det är fusk, eller till och med påhitt skulle jag vilja säga.

Journalistik kontra vetenskap

I forskarspråk pratar man om validitet. I båda exemplen ovan handlar det om att den teoretiska definitionen (hat och hot mot flyktingar respektive journalister) bör stämma överens med den operationella definitionen (det som faktiskt mäts). Här konstruerar journalisterna implicit både en teoretisk definition genom att prata om hat (och dylikt) samt en operationell definition genom mätandet, men det sker ingen större ansträngning att förena dem. I stället antas de vara förenade.

I värsta fall används data bara för att bekräfta journalisternas fördomar om verkligheten. Man kan tro att journalister är utsatta för hat och att antalet kommentarer är det objektiva beviset. Men det vore ingen analys, utan bara en form av cirkelbevis som döljs i pratet om hur stor datamängden är.

”Men vi gör inte anspråk på att vara vetenskapliga!” är en invändning från journalister.

Det är sant, det är viktigt att inte förväxla journalistik med vetenskap. Men när journalister förlitar sig allt mer på stora datamängder som de själva samlar in och analyserar ställer det krav på att analysen genomförs på ett korrekt sätt för att de ska kunna dra giltiga slutsatser. Det är det logik handlar om, att dra slutsatser från påståenden. Att logik används inom vetenskapen innebär inte att det är förbehållet vetenskapen eller ens att det endast bör förekomma där. Snarare tvärtom. Det är inte så att frasen ”vi håller inte på med vetenskap” är ett frikort till att dra slutsatser som inte låter sig dras från de metoder som används. Det vore absurt att hävda att 1+1=3 för att jag inte gör anspråk på att vara matematiker.

Men det tycker tydligen inte Guardian som skriver ”Even allowing for human error, the large number of comments in this data set gave us confidence in the results.” Med andra ord, även om Guardian gör fel så innebär antalet kommentarer att Guardian är säkra på sitt resultat.

Det tycks, i mina ögon, vara en övertro på stora datamängder kan ge oss en särskild insikt som små datamängder inte kan ge oss, och att problem enkelt försvinner med ökad storlek. Men det är viktigt att skilja mellan slumpmässiga fel som uppstår lite här och var (som namnet antyder) och mellan systematiska fel som uppstår med en viss regelbundenhet. Den stora datamängden kan hjälpa till att minimera slumpmässiga fel (jämför centrala gränsvärdessatsen). Men stora datamängder minimerar aldrig systematiska fel. De systematiska felen kvarstår oberoende av storleken på datamängden av det enkla skälet att de inte har ett dugg med storleken att göra.

Designen av en studie och hur insamlingen av data går till är ofta mycket viktigare än storleken på det insamlade materialet. Ett exempel är randomiserat kontrollexperiment som kan generera så lite som 50 datapunkter, men ändå ge betydligt högre säkerhet i vad som är orsak och verkan på grund av sin design. En analys med väldigt stor osäkerhet blir inte automatiskt säkerställd (i valfri mening av begreppet) bara för att det råkar vara många nollor efter de första siffrorna.

Slutsats

Sluta tro att storleken på en datamängd är något speciellt.

Det är teori, design och analys som är det viktigaste. Gör man dessa slapphänt blir också slutsatsen slapphänt.

Det är vanskligt att se data som objektiv fakta, och mer data som mer objektivt ur vilken man sedan letar efter en slutsats man har bestämt på förhand. Det kan bäst beskrivas som en irrationell tilltro till förklaringskraften hos mängden data, snarare än tillvägagångssättet datan införskaffades eller analyserades.

Forskare gör många gånger fel trots rigorös sakkunniggranskning. Nu när journalister, i värsta fall utan adekvat förståelse för metodens möjligheter och begränsningar, tar sig an uppgifter som många gånger är typiska forskningsuppgifter riskerar det att förstora upp triviala småproblem som lätt hade kunnat undvikas.

Det är dessutom ett vanligt tankefel att se sin egen grupp utsatt för hot liksom att man letar efter sådant som stödjer den egna ståndpunkten. Journalister är på inga sätt undantagna från sådana tankefel, och den lilla genomgång jag har gjort här med dessa två exempel kan vara ett sätt att se vilken slags bias journalisterna har. Med andra ord, om journalisterna redovisar hur de har gått tillväga går det att se vad för slags frågor metoden kan ge svar på och därmed också hur journalisterna lägger till sina egna tolkningar till resultaten.

Och kanske mer viktigt att påpeka, att säga journalisterna har hanterat metoden på ett felaktigt sätt innebär därmed inte att hot inte förekommer mot vare sig journalister eller flyktingar. Det är nämligen också en fallasi.

För att läsa om hot mot svenska journalister rekommenderar jag Journalism Under Threat av Monica Löfgren Nilsson och Henrik Örnebring.

Big data: Hur man mäter exakt fel

Big data

Med big data kan man kasta ut teori och i stället låta datan tala för sig självt. Kausalitet är död och korrelation är den nya herren på täppan. I denna text ska jag försöka förklara varför en sådan inställning är helt fel.

Vad är big data?

Vi kan börja med att förklara vad big data är. Wikipedia säger att big data är ”data sets that are so large or complex that traditional data processing applications are inadequate”. Ett sådant begrepp är alltid relativt till den teknik vi har för tillfället, och ibland också den enskilda person som hanterar datan. Således är det som är big data i dag inte det som är big data i morgon.

Använder man en relationsdatabas är det dock ingen större konst att hantera miljoner eller miljarder rader på en vanlig laptop, om varje rad inte tar speciellt mycket utrymme. Det finns dock extrema exempel, såsom Large Hadron Collider som skapar flera petabyte per år (1 petabyte är 1 miljon gigabyte) och kräver flera datacentrar för att bearbeta all data.

Big data år 1936

Big data är dock knappast något nytt om man bara menar datamängder större än normalt. Redan 1936 genomfördes en opinionsundersökning med över tio miljoner personer (varav 2,5 miljoner svarade) för att ta reda på vem som skulle bli USA:s nästa president. Problemet var att bara personer med bil eller telefon fick svara på undersökningen, vilket uteslöt en stor del av den fattiga befolkningen. Föga förvånande (åtminstone i efterhand) fann man att republikanernas presidentkandidat skulle vinna storslaget, vilket sedan visade sig vara precis tvärtom mot det riktiga resultatet.

Funna datamängder

Det jag däremot ska prata om i den här texten är funna datamängder (found data), vilket är sådan data som redan finns och som forskaren så att säga ”hittar”. Det kan vara att analysera meddelanden på Twitter eller Facebook, vilka sökningar folk har gjort i en sökmotor, eller deras geografiska position som telefonen avslöjar.

Dessa funna datamängder kan man sätta i konstrast till data som man själv har skapat, till exempel data från ett vetenskapligt instrument (såsom fMRI eller Large Hadron Collider) eller ett vanligt experiment.

Överdrivna påståenden om big data

Chris Anderson är väl en av dem som gått längst med att beskriva fördelarna med big data, till exempel i artikeln The End of Theory: The Data Deluge Makes the Scientific Method Obsolete:

This is a world where massive amounts of data and applied mathematics replace every other tool that might be brought to bear. Out with every theory of human behavior, from linguistics to sociology. Forget taxonomy, ontology, and psychology. Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.

Vi kan alltså kasta ut teorier om varför någonting händer och i stället bara observera att det händer. Han säger vidare att korrelation till och med ersätter kausalitet:

The new availability of huge amounts of data, along with the statistical tools to crunch these numbers, offers a whole new way of understanding the world. Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all.

Chris Anderson är kanske det mest extrema exemplet så vi kan ignorera hur pass representativt det är. Men bristen på kritik mot big data riskerar att göra påståenden överdrivna, så kritik tjänar åtminstone till att inskränka möjligheterna och tydliggöra begränsningarna med big data.

Tre vanliga historier om big data

Det finns tre vanliga anekdoter som ibland berättas om big data. Dessa ska jag kort redogöra för nedan och sedan beskriva problemen med dem.

Google Flu Trends som förutspådde influensaepidemier

Google lanserade under 2008 tjänsten Google Flu Trends som förutspådde influensaepidemier genom sökningar på deras sökmotor (läs mer i Detecting influenza epidemics using search engine query data i Nature).

Den förutspådda influensaepidemin jämfördes sedan med de ”riktiga” värdena som rapporterats in av amerikanska CDC, eller Centers for Disease Control and Prevention som är det fullständiga namnet (vilket motsvarar svenska Smittskyddsinstitutet och Folkhälsomyndigheten). Siffrorna från CDC hade ungefär två veckors dröjsmål sedan de rapporterats in av landets alla vårdinrättningar, så att kunna förutspå influensaepidemier skulle ha stora fördelar för samhället, inte minst ekonomiska.

Google Flu Trends

Träffsäkerheten på Google Flu Trends var dessutom väldigt hög, åtminstone inledningsvis. Dessvärre började Flu Trends att kraftigt underrepresentera den verkliga prevalensen av influensa, varpå Google justerade algoritmerna. Men till slut började Flu Trends i stället att kraftigt överrepresentera prevalensen av influensa. Inte så långt därefter lade Google ned tjänsten helt och hållet.

Street Bump och gropar i vägen

En annan anekdot kommer från 2012 då projektet Street Bump lanserades. Vägarna i Boston hade en mängd gropar och ett av problemen för att åtgärda dem var att helt enkelt hitta dem.

Ett väldigt kreativt sätt var att skapa en app som sedermera kom att kallas Street Bump. Appen låter förare automatiskt rapportera gropar i vägen genom att utnyttja sensorerna (accelerometern) som känner av rörelsen när bilen hoppar till av groparna i vägen.

Dessvärre rapporterades mängder av gropar felaktigt därför att appen inte lyckades skilja riktiga gropar från ”fantomgropar”. Men detta åtgärdades relativt snabbt med bättre programvara.

Target och den gravida tjejens pappa

En annan vanlig anekdot som ofta berättas är hur den amerikanska dagligvarukedjan Target skickade anpassad reklam för blivande mammor direkt till en tonårstjej. Tjejens pappa blev rasande och gick till affären för att i starka ordalag säga vad han tyckte om reklamen. Affären bad om ursäkt.

Efter ett par veckor ville affärsägaren återigen be om ursäkt och ringde upp tjejens pappa. Pappan var dock inte lika arg längre och sa i stället att Target hade rätt – hon var gravid. Pappan hade däremot inte fått reda på det. Med andra ord visste Targets algoritmer något som inte pappan visste.

6 problem med big data

1. Korrelation är inte kausalitet

Detta är knappast något nytt, men kanske det mest uppenbara och värt att poängtera ånyo. Nu har förvisso Chris Anderson sagt att det inte har någon betydelse, eftersom korrelation av någon anledning ersätter kausalitet förutsatt att man analyserar tillräckligt stora datamängder.

Dessvärre är hans exempel inte speciellt övertygande. Han nämner biologer som analyserar gendata och lyckas hitta skillnader. Men biologer är inte direkt kända för att förhålla sig kritiska till big data, åtminstone inte enligt artikeln Big data and the historical sciences: A critique, och statistiska signifikanta skillnader i gendata är inte tillräckligt för att skapa taxonomier av arter eller liknande.

Det finns exempelvis en positiv korrelation mellan smörkonsumtion och skilsmässor. Men vad ska vi göra med den informationen, förutom att roas åt den?

2. Vi får inte reda på falska positiva

Ett problem med historien om Target är att vi inte får veta hur stor andel av den anpassade reklamen för blivande mammor har skickats till de som inte är blivande mammor. Det vill säga, vi får inte reda på andelen typ 1-fel (falska positiva). Det är avgörande för att kunna bedöma hur pass tillförlitlig algoritmen är.

Detta är särskilt viktigt när det gäller kommersiella företag som inte vill, kan eller får dela med sig av den data de analyserar. Vi har helt enkelt ingen insyn och får helt enkelt lita på deras ord att det fungerar.

3. Algoritmer skapar självuppfyllande profetior

Så fort vi har en algoritm som kan påverka mänskligt beteende så kan den också skapa en självuppfyllande profetia.

Amazon har exempelvis en algoritm som visar ”de som har köpt den här boken har också köpt …” En sådan algoritm syftar naturligtvis till att öka försäljningen av böcker, men det innebär också att det som föreslås även köps i högre utsträckning. Med andra ord, det som algoritmen använder som underlag för att fatta beslut är det som till slut matas in i algoritmen igen, vilket skapar en ömsesidig förstärkning. Enkelt uttryckt: Det populära blir populärare därför att algoritmen har föreslagit att det ska vara populärare.

Därmed kommer framgångarna med denna typ av algoritmer att vara överdrivna. I fallet med Amazon gör det ingenting eftersom målet är att sälja mer böcker, men i andra fall av mänskligt beslutsfattande kan de hjälpa till att subtilt påverka beslut när beslutsfattarna saknar kunskap om algoritmernas förstärkningseffekter.

4. Det finns sällan teori som förklarar

Varför fungerade Google Flu Trends? Vi vet inte. Varför slutade Google Flu Trends att fungera? Det vet vi inte heller av samma anledning.

Eftersom det inte finns någon underliggande teori om hur eller varför saker och ting beter sig som de gör, är det ännu svårare att förklara varför något slutar fungera.

När det gäller Google Flu Trends kan det mycket väl vara så att medierna påverkar vad människor tänker på, och därmed vad de söker efter. Ju mer medierna skriver om influensa, desto mer söker alltså människor efter influensaliknande symptom.  Det är en teori man kan testa på olika sätt, och ger också förutsägelser för vad man teoretiskt kan förvänta sig och därmed också de förutsättningar där teorin kan vara felaktig.

Det är en viktig distinktion eftersom flera big data-förespråkare tycks mena att vi ska analysera stora datamängder för att utvinna informationen som råkar finns där, snarare än att man utgår från en teori och testar om man kan hitta data som man förväntar sig finna där.

5. Data talar inte för sig självt

Data talar aldrig för sig själv utan kräver tolkning. Tolkning är beroende på dels statistisk kunskap, dels ämneskunskap och dels sammanhang. Det må finnas ett samband mellan två variabler i en datamängd, men det sambandet kan vara helt meningslöst ur teoretisk synvinkel och kanske förklaras av något annat som inte ingår i datamängden, men som ändå var närvarande i det sammanhang som datan samlades in. Utan hänsyn till sammanhang riskerar big data förblinda mer än upplysa.

6. Tron att om man har all data så har man alla svaren

Det finns ett uttryck om att big data betyder n = allt, vilket innebär att man analyserar all data som finns (och inte bara data man kan få tillgång till). Därmed behöver man inte göra ett urval eftersom man kan analysera allt. Det kan leda till följande villfarelser:

”Halva svenska befolkningen finns på Facebook. Därför kan man också se vad (åtminstone halva) svenska folket gör, tycker eller tänker genom att analysera Facebookdata.”

Fel!

Även om varenda svensk fanns på Facebook skulle en analys av bokstavligt talat all Facebookdata ändå inte innehålla en beskrivning av alla svenskar, utan bara aktiva svenskar. Det brukar kallas activity bias och riskerar ge väldigt skeva resultat.

Antalet konton på Facebook säger heller ingenting om antalet svenskar. Jag har exempelvis två konton på Facebook samt fyra-fem konton på Twitter för olika projekt. Många konton används för att automatiskt publicera inlägg.

När det gäller appen ”Street Bump” kan man fråga sig vilka det är som framför allt äger smartphone och bil? Det är inte de fattiga i alla fall, vilket leder till att gropar i de välbärgade områdena rapporteras in i betydligt högre utsträckning än mindre välbärgade områden. Det behöver dock inte nödvändigtvis vara ett problem, utan kan snarare frigöra resurser att faktiskt åka ut och leta efter gropar i vägen i andra områden. Men då måste man också vara medveten om begränsningarna.

Allt går inte att mäta

Jag tror inte någon förnekar att big data (hur man än definierar det) har lett eller kommer leda till en mindre revolution. Men absolut inte i meningen att vi kan kasta ut teorier om kausalitet, utan snarare att mängden data från samhällets alla hörn gör att vi kan ägna oss åt betydligt fler analyser. Inte minst med mobiltelefonernas sensorer!

Men samtidigt är det viktigt att inte förlora den humanistiska aspekten. Allt går inte att mäta, och allt man mäter behöver inte vara värdefullt. Just frågan kring hur man ska tolka data och ge den mening är knappast något som blir mindre problematiskt när vi badar i data. Snarare tvärtom. Det är lätt hänt att vi blir blinda för alternativa synsätt (som inte bygger på analys av mer och mer data) när vi redan drunknar i data.

Vi måste fortfarande ha teorier och vi måste fortfarande beakta det som kanske inte ens bör mätas, som till exempel normativ etik. Om man till exempel mäter konsekvenser av en handling (låt säga hur mycket pengar någon ger tiggare) så säger man implicit att konsekvensetik är det vi ska föredra framför dygd- eller pliktetik. Som sagt, bara för att det går att mäta innebär det inte att det bör mätas eller ens tillmätas någon betydelse. Det är fortfarande en teoretisk fråga, inte en empirisk.

Slutsats

Min poäng med denna text är inte att vi ska sluta analysera ”big data” eller sluta se möjligheterna med det, utan snarare att försöka blottlägga ett oreflekterat analyserande av big data och i stället lyfta fram begränsningarna. Det hjälper oss att se när vi faktiskt bör analysera big data.

Problemet med ”funna data” kan egentligen sammanfattas på ett enkelt sätt. Så fort man försöker mäta människors beteende så kan människor anpassa sig efter mätningen. Då kan en feedback-loop uppstå, vilket innebär att information om mätningen påverkar fortsatta mätningar. Ett bra exempel är artikeldelningar. Vi tenderar att dela artiklar som redan har delats mycket. Konsekvensen är att det populära blir ännu mer populärt.

Big data är inte heller slutet för teori. Teori är viktigare än någonsin för att sortera bland, och framför allt förstå, big data.

Jag tror att vi kommer få se många fler analyser inom både journalistiken och vetenskapen som är exakt fel. På 1960-talet sa den amerikanska matematikern John Tukey att han föredrog ‘‘an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise”. Med andra ord kanske vi ska ställa mer precisa frågor och sedan se om de kan besvaras med big data, snarare än att titta i big data först och se vilka frågor vi kan besvara exakt.

Läs mer

Kommunikologi – pseudovetenskap som gräver hål i plånboken

Pseudovetenskapen kommunikologi granskades i veckan av Vetandets värld i Sveriges Radio. I programmet kunde vi exempelvis höra hur komunikologer lär chefer i olika organisationer att krypa på golvet för att fatta bättre beslut. Men det absurda har bara börjat.

Programmet kallas Psykobabblarna och sändes i tre avsnitt om 20 minuter vardera.

  1. Psykobabblarna: Neuromyter och omedveten inkompetens
  2. Psykobabblarna: Osmarta hjärnrörelser i klassrummet
  3. Psykobabblarna: Mental pseudoträning

Lyssna gärna på programserien, som är väldigt pedagogiskt upplagt. I Vetenskapsradions veckomagasin visar de också hur kommunikologer lär ut tankeöverföring i skolor.

Det är väldigt intressant att höra hur kommunikologin försvaras, hur den används i skolor, företag och idrottsvärlden, hur många miljoner den kostar, och hur den strider mot den vetenskapliga forskningen.

Till detta program fick jag bland annat hjälpa till att granska dokument från en organisation som utbildar i kommunikologi i Sverige. Det mesta i dessa dokument (och kommunikologin) som berörde kommunikationsforskning var fullständigt trams. De andra forskarna i programmet, i bland annat neurovetenskap och psykologi, gjorde samma bedömning

Min slutsats som citeras i första delen löd så här: ”Kopplingen till forskning är obefintlig och det teoretiska arbetet är en katastrof.”

Här tänkte jag utveckla vad kommunikologi är, vad det är till för, och besvara några argument från en forskare (!) som är positiv till kommunikologi som menar att det inte behöver bygga på vetenskaplig grund för att det fungerar ändå. Jag har ingen avsikt att repetera det som sagts i programserien, så jag antar det som utgångspunkt för diskussion i stället.

Vad är kommunikologi?

Den frågan är inte helt lätt att besvara då utövarna av kommunikologi inte heller kan förklara vad det är, vilket är smått ironiskt med tanke på att utbildningen uppenbarligen ska syfta till att förbättra kommunikation i någon mening.

Däremot finns en vanlig standardtext som klistras in på en mängd hemsidor hos organisationer och personer som utbildar i kommunikologi:

Läran om det som är gemensamt i förändrings- och utvecklingsprocesser. Studiet av struktur och dynamik i kommunikation och förändring – när all upplevelse och allt beteende är valt definierat, beskrivet och förstått som kommunikation.

Om du söker efter första meningen i citatet ovan kommer du hitta en mängd hemsidor med identisk text. Här är en sammanställning av de två första sidorna i Googles sökresultat (efter femte sökresultatsidan börjar det tunnas ut):

Kommunikologi

Man skulle kunna tro att syftet med en definition hjälper till att förklara ett begrepp, men i det här fallet skapar det bara fler frågor. Vad är det som är gemensamt i förändrings- och utvecklingsprocesser? Vilka typer av förändrings- och utvecklingsprocesser? Vad är struktur och dynamik i detta sammanhang? Vad innebär det att all upplevelse och allt beteende är valt definierat? Hur är denna mening egentligen konstruerad (”valt definierat”)?

Det här är också en vanlig förklaring av kommunikologi:

Kommunikologi©
Tvärvetenskaplig Metadisciplin – Kommunikologi – är resultatet av disciplinutveckling i form av en sammanfattning av kunskap från andra beteendevetenskapliga och socialvetenskapliga discipliner.

Okej, de har med andra ord sammanfattat kunskap från en mängd olika områden. Det är ju bra och eftersträvansvärt. Att läsa kunskapssammanfattningar utan att man själv behöver skriva dem (vilket annars är en vanlig forskningsuppgift) är alltid trevligt eftersom det finns så otroligt mycket att läsa och vi har bara 24 timmar på dygnet.

Och just det, notera ©-symbolen. Copyright används för att upphovsrättsskydda texter som uppnår verkshöjd. Copyright används inte för att varumärkesskydda begrepp eller varumärken. Varumärken symboliseras av ®-symbolen om varumärket är registrerat, annars ™-symbolen som vem som helst kan använda mer eller mindre godtyckligt.

Men begreppet kommunikologi är myntat av de norska pedagogerna Truls Fleiner och Jorunn Sjøbakken på 1970-talet, vilka också driver Skandinavisk Institutt for Kommunikologi där de säljer sina utbildningar för bland annat 10 600 kronor för sex veckor. Det finns kurser i Sverige, Norge, Kreta och Schweiz. Till Sveriges Radio säger de att ungefär 5 000 personer har genomfört deras utbildning.

Vad man får lära sig som kommunikolog?

Det mesta fundamentala handlar om att kommunikologins skapare har identifierat vad de kallar nycklar, vilket är framgångsfaktorer inom kommunikation. Dessa framgångsfaktorer är helt enkelt gemensamma nämnare som utvunnits från teorier, modeller och metoder inom alla discipliner som har något med kommunikation att göra (såsom psykologi, pedagogik, neurovetenskap, kommunikation med flera). Enkelt uttryckt är dessa nycklar sammanfattningar av vad som är bra kommunikation i alla sammanhang.

Redan här skulle man förstås kunna kritisera hela idén och ställa sig frågan: Är det verkligen bra att alltid sträva efter hitta det som är gemensamt för alla situationer? Kan det inte i vissa lägen vara bra att hitta det partikulära, det som passar först just den här situationen? Att försöka hitta gemensamma nämnare från en mängd olika vetenskapliga discipliner riskerar förstås att leda till triviala sanningar.

Och mycket riktigt. Inom kommunikologin får man bland annat lära sig att man bör titta varandra i ögonen för att skapa kontakt. Men inom kommunikologin kallar man det ”2-punkts fokuspunkt”.

Kommunikologi fokuspunkt

Dessa bilder kommer från en presentation från en större svensk organisation som utbildar i kommunikologi. Jag har lagt mosaik på företagsloggan i vissa bilder eftersom det inte är intressant vem som gjort presentationen. Det är innehållet jag kritiserar i första hand.

Kommunikologi grundsorteringar

Att kroppen alltid signalerar ja eller nej är naturligtvis inte det minsta sant. Varför i hela friden skulle den göra det? Vad betyder det att man samlar på sig nej-signaler? Och varför skulle vi bli sjuka? Psykologin har ju sedan länge förkastat idén om katarsis och att människor behöver lätta på trycket ibland.

Man får också lära sig att skilja mellan ”jag” och ”du”. Det kallas jag/du-sortering och är tydligen viktigt för en ”god balans”. När jag pratar om mina upplevelser ska jag använda ordet ”jag”. Att använda orden ”jag” eller ”du” på ett felaktigt sätt är riskabelt eftersom man kan få kroniska sjukdomar. Min fråga är då helt enkelt: Kan man få den kroniska tarmsjukdomen ulcerös kolit om man använder ordet ”man” för många gånger?

Kommunikologi - Jag/du-sortering

Kommunikologi du/jag-sortering

Ett vanligt ord som förekommer inom kommunikologin är att skapa ”balans”. Du ser ordet inte minst i bilderna ovan. Balans är ett positivt laddat ord som kan betyda precis vad som helst (precis som ordet ”lagom”) såvida man inte förklarar vad det är som ska ha balans, varför och när balans egentligen uppnås. Ordet förekommer dock ofta inom pseudovetenskaper som alternativmedicin och en del new age-rörelser, vilket på samma sätt använder ett språkbruk fyllt av vaga begrepp som syftar till att låta vetenskapligt utan att vara det. Det ska inte vara för mycket och inte för lite. Det ska vara balans!

Kommunikologi - sorterad feedback

Vad ska vi dra för lärdom av den här presentationsbilden? Att en person kan tycka en sak och att en annan person kan tycka något annat? Och att det ibland kan vara bra att fråga vad någon menar, eller varför de gör som de gör, innan man säger något dumt om dem?

Man får också lära sig att hålla handflatorna uppåt under en presentation, för då framstår man som inbjudande. Håller man handflatorna nedåt ses man som ”så här är det”.

Ett sådant påstående är dock jätteenkelt att testa. Man gör ett experiment med tre grupper (handflator uppåt, nedåt respektive undanskymda) och låter sedan tittare värdera personernas ”så här är det”-faktor (vad nu det skulle vara). Men då går man ju förvisso in i vetenskapens domäner med experimentell design. I stället är det bättre att bara anta att det är så och säga att det är så till alla andra. ”Det har ju inte bevisats vara fel”, kan man säga.

Som synes ur dessa axplock är det mesta av informationen som man får lära sig inom kommunikologi antingen trivialt sant eller direkt nonsens. Den stora svårigheten för mig har varit att ta mig igenom stora mängder osammanhängande text som dessutom motsäger sig själv några sidor senare.

Vad är de vetenskapliga grunderna för kommunikologi?

För att sammanfatta det väldigt kort: obefintliga.

Kommunikologi - referenser

Tittar man på dessa referenser så handlar det om litteratur som antingen inte har med saken att göra, är publicerad i dagstidningar eller inte ens publicerad i någon vetenskaplig tidskrift alls. Inte heller har någon av böckerna citerats i någon vetenskaplig litteratur (vilket man kollar genom att göra en sökning i vetenskapliga databaser såsom Web of Science med flera).

Naturligtvis är inte denna presentationsbild det enda som har skrivits om kommunikologi. Jag har endast tittat i en bok än så länge och den handlade om samma sak, grundsorteringar som jag/du och att man ska röra sig långsamt när man förhandlar.

Kommunikologi kommer aldrig bli vetenskap

Många kritiker för fram argumentet att kommunikologi bör visa de vetenskapliga underlaget.

De flesta som utövar pseudovetenskap såsom alternativmedicin, och även kommunikologi, hävdar att den vanliga vetenskapen en dag kommer ikapp. I Sveriges Radios program hör man skaparna Truls Fleiner och Jorunn Sjøbakken argumentera för att deras forskning är banbrytande och har skapat ett nytt forskningsparadigm. Och en vacker dag kommer alla skolor att lära ut kommunikologi, menar de. Det handlar bara om alla andra ska komma ikapp dem.

Problemet med dessa argumentet är dock uppenbart. För det första är det ett bedrägligt argument att hävda att man bara behöver vänta för att kommunikologin ska bli sant. Argumentet kan ju faktiskt tillämpas på precis vad som helst. För det andra får ingen insyn i deras forskning och kan därför inte bedöma den. Dessa två argument tillsammans skulle innebära att man får vänta en evighet. Till dess ska vi helt enkelt lita på vad skaparna bakom kommunikologi säger och gå deras kurser. När dokument som dessa ovan läcker ut framstår kommunikologi som rena tramset.

Men kommunikologi kommer aldrig att bli en vetenskap och det finns ett enkelt skäl till det.

Om kommunikologi blir en riktig vetenskap försvinner incitamenten för certifiering. Kommunikologi måste helt enkelt vara något annat än medie- och kommunikationsvetenskap, sociologi, psykologi, neurovetenskap eller pedagogik. Annars går det att jämföra på samma grunder som vanlig vetenskap och därmed finns det ingen grund att certifiera sig för dyra pengar när man kan gå en gratis kurs på högskolor eller universitet där man dessutom får en examen. Om kommunikologi är något annat, det spelar inte så stor roll vad, så fyller certifieringen både en funktion och en plånbok.

Därför bör man inte slösa sin energi på att kräva att kommunikologi bör bli mer vetenskapligt. Det är bättre att syna bluffen och i stället lyfta fram alla absurda myter de omfamnar liksom kostnaderna för att gå en kurs. De som är inbitna kommunikologer kommer förstås gå i svaromål med det vanliga argumentet att ”gå kursen och se för dig själv”. Det argumentet kan sammanfattas väl med en enda bild:

Kommunikologi - tvärgaende metadisciplin

Att certifiera sig som kommunikolog

Bilden talar väl för sig själv när det gäller värdet av att certifiera sig som kommunikolog.

kommunikologi certifiering

Kännetecknen för pseudovetenskaper som kommunikologi

Hur identifierar man en pseudovetenskap som kommunikologi? Det finns några enkla kännetecken man kan titta på:

  1. Förespråkarna hänvisar till andra personers vittnesmål om hur bra läran är.
  2. Läran är grundad på en eller ett fåtal personers påstådda forskning och utvecklas inte nämnvärt efter det.
  3. Denna påstådda forskning är väldigt otillgänglig, publicerad i okända tidskrifter eller i egna böcker (som inte är vetenskapligt granskade).
  4. Man måste i regel genomgå utbildningen innan man får grundläggande kunskap om vad det faktiskt är. (Jämför med fritt tillgängliga kursplaner på högskolor och universitet.)
  5. Vaga ord (till exempel ”balans”) används för att säga något utan att egentligen säga något alls.
  6. Komplicerade begrepp används här och där för att ge sken av vetenskaplighet (ofta helt i strid med ordets gängse bruk).
  7. Flera koncept inom läran motsäger varandra och hänger inte ihop.
  8. Det är dyrt att gå kurserna.

Dessa är alltså kännetecken och varje punkt i sin enskildhet behöver inte vara tecken på pseudovetenskap. Men många kännetecken tillsammans bör höja några varningsflaggor.

Se också Baloney Detection Kit med Michael Shermer, om hur man tar reda på om något är sant eller falskt.

https://www.youtube.com/watch?v=eUB4j0n2UDU

Vanliga invändningar från kommunikologer

Kommunikologer liksom andra har också svarat på kritiken från Sveriges Radio. En är bland annat Erik Modig. Han forskar inom marknadsföring på Stockholm School of Economics och har en doktorsexamen i Business Administration. Enligt hans hemsida undersöker han ”konsumentpsykologin bakom effektiv kommunikation”. I ett Facebookinlägg ger han sitt genmäle på Sveriges Radios program som jag tänkte besvara. Han inleder sitt inlägg med ”Akademiskt analys/perspektiv på Kommunikologi”.

Kommunikologin är genialisk och i linje med forskningen

Erik är relativt sett väldigt positiv till kommunikologi som han berömmer på följande sätt:

[…] utifrån min kunskap så är majoriteten av grundmaterialet inom kommunikologin i linje med accepterade och rådande teorier inom såväl hjärnforskning som angränsande vetenskapliga områden (pedagogik, kommunikation etc.).

[…]

Fleiner & Sjøbacken har i sin ambition gjort ett utomordentligt arbete med att skapa ett system för att förstå hur vi människor tänker och agerar samt identifierat vilka verktyg som finns för att förändra dessa tankar och beteenden.

[…]

Det är oftast i enkelheten som genialiteten ligger och just där som en utbildning skapar sitt största värde.

Kommunikologi är med andra ord genialisk i sin enkelhet, i huvudsak i linje med rådande teorier inom hjärnforskning, pedagogik och kommunikation, och kommunikologins skapare har gjort ett utomordentligt arbete. De hjärnforskare som i Sveriges Radios program kallar det myter och trams måste i så fall ha fel. Men Erik säger också att delar av materialet är vetenskapligt bristfälligt:

Delar av det material jag har fått ta del av inom kommunikologin är ej vetenskapligt bevisat utifrån den information jag har idag. Jag har inte heller mött på någon som kan visa en vetenskaplig förankring till vissa delar av materialet.

Det beror huvudsakligen på att forskningen är daterad, menar han, och hänvisar till att kommunikologin togs fram på 1950- till 1980-talet:

[…]  har inte utsatts för den vetenskapliga uppdatering som skulle behövts. Även idag färgas kommunikologin av ”sanningar” som varit rådande men som modern forskning förfinat eller förkastat. Det har skett stora framsteg inom hjärnforskning och tillhörande områden och dessvärre har vi människor en tendens att leva kvar med många valda sanningar långt efter att de passerat bäst före datum. Att kommunikologin bygger på detta material är dock ingen hemlighet utan står tydligt på utbildningens hemsida (http://www.kommunikologi.no/kommunikologi.html). Varje person (kund, utbildare, journalist, forskare) bör således av egen maskin kunna dra slutsatsen att viss vetenskaplig uppfräschning saknas utifrån dessa referenser.

Här har jag två invändningar.

1. Vad, mer precist, var det som var sanning 1950- till 1980-talet men inte längre är det? Det står inte alls tydligt på hemsidan. Det finns exempelvis kommunikationsforskning som är 2 500 år gammal (såsom Aristoteles retorik, och logik som återfinns i metafysiken) som till större delar är oförändrade.

2. Varför är det upp till varje person att av egen maskin dra slutsatsen att vetenskaplig uppfräschning saknas, snarare än de som utbildar inom kommunikologin? Det förefaller märkligt att ansvaret för att ta reda på om utbildningen är aktuell ligger på den som lär sig utbildningen, snarare än den som lär ut. Hur ska vi i så fall betrakta Aristoteles verk? Hur vet man om Aristoteles verk är hopplöst inaktuella?

För det andra, hade Fleiner & Sjøbacken en uttalad tvärdisciplinär ambition och ville inte fastna i ett enskilt vetenskapligt fält. Svårigheten att publicera tvärvetenskapliga artiklar har förmodligen inte förändrats utan är idag fortfarande svårt då mycket akademisk forskning måste förhålla sig till diskursen och dialogen inom sitt egna fält. Även idag skulle jag som kommunikationsforskare ha svårt att se hur vissa principer (det som Fleiner & Sjøbacken kallar för mönster) skulle kunna testas.

Hört talas om medie- och kommunikationsvetenskap? Det fältet är en tvärvetenskaplig disciplin som spänner över humaniora, kommunikation, psykologi, organisationsteori, journalistik och statsvetenskap. Det är, ironiskt nog, samma ämnen (och fler!) som kommunikologer tycker att det behövs en metadisciplin för!

Dessutom är det svårt att bemöta vaga argument om hur ”vissa principer” inte kan testas. Frågan man måste ställa sig till en början är då (1) vilka principer handlar det om? och (2) vilka utkomster från dessa principer? Om man undangömmer sin påstådda ”forskning” är det förstås enkelt att hävda att det inte låter sig testas. Det blir ju för det första fysiskt omöjligt och för det andra tvingas vi helt enkelt lita på deras ord. Det är som upplagt för grandiosa påståenden utan grund.

Delen kontra helheten

Nu kommer vi också till en central del av Eriks motargument. Det är den om att kommunikologin studerar helheten (systemteorier), snarare än enskilda delar. Och genom detta förfarande går det också att avfärda större delen av kritiken mot kommunikologi eftersom kritiken fokuserat på enskilda förehavanden (som att krypa på golvet för att fatta bättre beslut):

[…] ”helhet” är viktigare än enskilda delar. Detta försvårar således ytterligare vetenskaplig prövning av enskilda principer, eller det är snarare irrelevant (ur Kommunikologins perspektiv) eftersom det är helhetsperspektivet som är grund för disciplinens synsätt på kommunikation och förändring. Att lyfta ut ett enskilt ”mönster” eller metod och dra slutsatser om hela Kommunikologins vetenskaplighet går därmed mot själva utgångspunkten.

Och ändå lär kommunikologer ut just enskilda mönster som de kallar ”nycklar”, som enskilda individer kan använda i alla slags situationer. Till exempel att man inte ska använda ordet ”man” eller ”vi” för mycket, att titta folk i ögonen man pratar med, hålla handflatorna åt ett visst håll och så vidare. Det finns med andra ord en viss motsägelse i att man å ena sidan måste se till helheten, och å andra sidan lär ut triviala saker som hur man ska hålla händerna.

Dessutom, och denna kritiken är förödande för helhetsargument, så är det fullt möjligt att testa stora systemteorier. Det man helt enkelt gör är att bryta ned dem i mindre delar, testar dem och sedan drar induktiva slutsatser om helheten. Rimligen kan ju inte en korrekt helhet (vad det nu än må vara) bestå av en mängd mindre felaktigheter. Det vore detsamma som att bygga ett hus på kvicksand.

Att säga att ett systemteoretiskt perspektiv gör testande irrelevant är att helt enkelt försöka ta omvägen förbi kritik genom ett divisionsfeslut. Divisionsfelslutet säger att det som gäller för helheten (exempelvis kommunikologins helhetsperspektiv gör den otestbar) inte nödvändigtvis gäller för dess delar. (Jämför ”Bilen kan ses med blotta ögat. Bilen består av atomer. Alltså kan man se atomer med blotta ögat.”) Med andra ord  är det alltså inte helt självklart att det som gäller helheten också gäller delarna.

Fleiner och Sjøbacken hade förstås ett motargument till denna kritik, och de menar att det helt enkelt har skapat ett nytt vetenskapligt paradigm. Därmed behöver de över huvud taget inte argumentera för sina idéer eller ståndpunkter enligt gängse vetenskapliga förfarande, utan kan utan vidare utropa sina egna idéer överlägsna och sedan invänta på att andra forskare ska ”hinna ikapp” deras banbrytande idéer. Det är ett bekvämt sätt att argumentera, att helt enkelt utropa sig själv som segrare.

Problemet blir att varje enskilt fält får böja sig för helheten så att varken en psykolog eller kommunikationsforskare skulle känna igen sig. Därmed problemet. Jag har gått i taket för vissa slutsatser de dragit och därför får man fråga sig hur det kan vara tvärvetenskapligt när ingen forskare inom de olika fälten känner igen sig? Såklart att Fleiner & Sjøbacken får kritik från de insatta. Även från mig. En meta-disciplins styrka blir dess svaghet.

Det här är ett intressant stycke så vi tar det viktiga igen: ”Problemet blir att varje enskilt fält får böja sig för helheten”.

Det skulle vara väldigt intressant med ett exempel där slutsatser som är rätt i två olika vetenskapliga ämnen ändå plötsligt blir fel i kommunikologi. Det är också fascinerande att det är den överordnade metadisciplinen som avgör vilka slutsatser man kan dra om delarna (snarare än vice versa, att delarna avgör vilka slutsatser man kan dra om helheten). Och att ha fel i detaljer är med andra ord kommunikologins svaghet, men samtidigt dess styrka? Vad betyder det, att två fel gör ett rätt? Blir kommunikologin starkare ju fler discipliner som vantolkas?

I mina öron låter det snarare som att någon i sin vildaste fantasi har skrivit ned sina idéer om hur verkligheten förmodas vara, och sedan avfärdat alla vetenskapliga motsägelser med att hänvisa till något slags tolkningsföreträde. Det är som att leka sten-sax-påse men där ”meta” slår ut både sten, sax och påse.

Om man accepterar detta synsätt skulle det därmed också vara möjligt att utifrån två faktapåståenden dra en slutsats som inte följer från påståendena (det vill säga bryta mot logikens lagar). Men det är helt absurt och måste förkastas.

Man kan också fråga sig hur medie- och kommunikationsvetenskaplig forskning, som är tvärvetenskaplig, kan återge delarna någorlunda korrekt, och ändå lyckas dra slutsatser om helheten?

Det finns med andra ord många frågetecken kring detta och de argument som torgförs till kommunikologins försvar är föga övertygande.

Vetenskap verkar inte behövas ändå

Men om vi helt enkelt bortser från vetenskapen, hur bedömer vi kommunikologin då? Erik skriver så här:

Det är även, utifrån den kunskap jag har, sant att de inte har trovärdiga vetenskapliga bevis att deras utbildning fungerar. Frågan är dock om det behövs. De har trettio års erfarenhet att det fungerar […]

Detta är ett vanligt argument. Det finns inga vetenskapliga bevis, men det fungerar ändå. Men hur vet då vi andra att det fungerar?

Det är viktigt att förstå Fleiner & Sjøbacken som två passionerade pedagoger som sedan 1981 utbildat tusentals individer som bevisligen haft stor nytta av deras insikter och kunskap. Det ger emellertid inte Fleiner & Sjøbacken rätt att hävda att deras material är vetenskapligt förankrat men det betyder inte heller att de har fel i det stora hela.

Som stöd för argumentet att kommunikologi fungerar anförs att skaparna har utbildat tusentals personer och att de bevisligen haft stor nytta av deras insikter och kunskap. Var är dessa bevis? Att det finns personer som gått kursen? Det vore förstås väldigt bekvämt att hänvisa till antalet lärjungar som ett bevis för att läran ifråga fungerar, men riktigt så enkelt är det inte.

Men är det ok att sälja ovetenskapliga utbildning?
Vad jag vet har inte Fleiner & Sjøbacken drivit någon som helst reklam eller säljaktivitet av sin utbildning.

Om man bemödar sig med att klicka på alla fem länkar på hemsidan kommer man till slut till denna sida, där skaparna säljer in sin utbildning:

Kommunikologi-program

Min fråga är enkel:

Varför skulle skaparna bakom kommunikologi över huvud taget bemöda sig bevisa att kommunikologi fungerar (vetenskapligt eller på annat vis) om det redan finns folk som är villiga att betala för det?

Låt säga att 20 personer går kursen om 10 600 kronor på sex veckor. Det blir 212 000 kronor. En ganska okej månadslön. Behövs det verkligen fler argument än så?

Sammanfattning

Man kan ju åtminstone notera två viktiga saker angående Eriks kritik.

För det första lägger Erik inte något större fokus på det som visat sig strida mot vetenskap, utan lägger i stället fokus på att det bara saknas en vetenskaplig grund. Till exempel: ”Bara för att något inte är vetenskapligt bevisat betyder det inte att det är dåligt.” Konsekvensen är att han förminskar styrkan i kritiken om att det strider mot vetenskap, inte bara att det inte bevisats vetenskapligt.

För det andra förlägger han ansvaret på att uppdatera utbildningsinnehållet på den som går utbildningen, snarare än den som lär ut utbildningsinnehållet: ”Varje person (kund, utbildare, journalist, forskare) bör således av egen maskin kunna dra slutsatsen att viss vetenskaplig uppfräschning saknas […]”. Det mest rationella är förstås att läraren ansvarar för att kunskapen är aktuell och i enlighet med vetenskap, inte eleverna.

Likaså har de som kallat kommunikologi en sekt avfärdats på samma vis: ”De som inte upplever detta [frälsning] kan såklart känna sig utanför. Det är även så att kommunikologin introducerar i mångt och mycket ett nytt vokabulär vilket också kan uppfattas som exkluderande.” Notera här återigen att ansvaret förläggs på kritikerna, att de kanske känner sig socialt utfrysta, snarare än att det skulle vara något i kommunikologin som sådan som ger upphov till sektanklagelser.

Erik tycks landa i slutsatsen att det inte finns några vetenskapliga bevis för kommunikologi, men att kommunikologi bevisligen fungerar ändå. De argument som presenteras för denna slutsats utgörs sammanfattningsvis av (a) hur många som gått utbildningen, (b) mängden erfarenhet kommunikologerna har och (c) det faktum att inte allt i samhället är vetenskapligt bevisat samt, slutligen, att (d) kommunikologi fokuserar på helheten och kan (huvudsakligen) inte reduceras till testbara delar.

Dock är (a) en fallasi som kallas argumentum ad populum, (b) är en fallasi som kallas argumentum ad verecundiam, (c) är en fallasi som kallas ignoratio elenchi och (d) är en fallasi som kallas divisionsfelslutet. De motargument som framförs mot kritiken är med andra ord alla behäftade med något typ av fel.

Men jag antar att hur man konstruerar giltiga argument utan fallasier eller logiska felslut inte är något som prioriteras inom kommunikologi. Logik är ju trots allt också en 2 500 år gammal vetenskap som är besatt av detaljer, och kommunikologer är ju mer inriktade på helheter och skapa balanser. Inte undra på att alla detaljer blir fel.

Slutsats

Det råder inga tvivel om att kommunikologi är en pseudovetenskap som undandrar sig en offentlig granskning, åtminstone inte vad gäller de dokument jag själv granskat, mina kontakter med kommunikologer och intervjuerna i Sveriges Radio.

De försvar som förs fram handlar huvudsakligen om att man ska gå kursen själv för att bilda sig en uppfattning, att minsann inte allt här i livet behöver bevisas vetenskapligt och att det är många som är nöjda med utbildningen. Allt detta kan förvisso vara sant, men samtidigt helt irrelevant. För även om väldigt få saker behöver bevisas vetenskapligt betyder det inte att kommunikologi fungerar. Att det är ”många” som är nöjda med utbildningen säger heller ingenting om huruvida den faktiskt fungerar.

Allt vi har är berättelser att lyssna till om hur fantastiskt kommunikologi är för just dem, att de minsann var kritiska i början men till slut insåg hur de fattade bättre beslut genom att krypa på golvet eller hur de lärde sig att man ska titta varandra i ögonen för att skapa kontakt med andra människor. Det kan vi förstås inte ta ifrån dem.

Läs också

270 forskare gjorde om 100 studier – resultatet kommer att tråka ut dig fullständigt

Replicate All The Studies

Ett av de mest intressanta projekten inom den psykologiska forskningen är nu avslutat. 270 forskare har gjort om hundra gamla studier för att se om effekterna verkligen håller.

Resultatet? 39 av 100 studier replikerades framgångsrikt, enligt forskarnas egna bedömningar.

Att replikeringar misslyckas är dock inget argument för att forskning inte fungerar.

I så fall skulle vi ju omöjligt kunna upptäcka att effekterna inte finns, utan det beror snarare på publiceringsbias, statistiska oregelbundenheter där 1 av 20 resultat beror på slumpen, att vi räknar i sannolikheter snarare än eviga sanningar med mera.

I bilden nedan ser man samtliga studier och vilka effekter de fått. Helst ska alla bubblor hamna på eller över linjen som går snett uppåt. Bubblorna bör även vara så stora som möjligt.

Replikeringar

Själva artikeln går att läsa i tidskriften Science: Open Science Collaboration. Estimating the reproducibility of psychological science. Men det mest intressanta är ändå att all data och liknande kan laddas ned från webbplatsen Open Science Framework.

Fler borde ta efter modellen med att göra sin forskning helt öppen för allmänheten på detta vis. Om det betalas med skattepengar så bör ju forskningen rimligen också vara öppen för medborgarna.

Så här beskriver forskarna resultatet i sin slutsats:

After this intensive effort to reproduce a sample of published psychological findings, how many of the effects have we established are true? Zero. And how many of the effects have we established are false? Zero. Is this a limitation of the project design? No. It is the reality of doing science, even if it is not appreciated in daily practice.

Det är helt enkelt svårt att hålla på med forskning, vilket förklaras utmärkt i artikeln Science Isn’t Broken: It’s just a hell of a lot harder than we give it credit for. Där ges exempel på hur man kan dra olika slutsatser av samma data.

Samma data, olika slutsatser

Några av studierna med misslyckade replikeringsförsök har vi redan skrivit om i boken Påverkan och manipulation, till exempel om studien som testade stereotyp priming, där människor går långsamt efter att de har sett eller hört något som har med äldre att göra. Priming i sig är dock väl etablerat och det är endast specifika typer av priming som ifrågasatts.

Men det finns säkert anledning att revidera fler av de resultat vi hänvisar till.

Det vore helt klart önskvärt att fler discipliner inom samhällsvetenskapen försöker ta reda på om deras studier håller för granskning.

Läs mer

Det finns redan så mycket intressant skrivit, både på enkel prosa och obegriplig teknisk jargong. Du hittar några här:

Vad bäverbajs kan lära dig om källkritik

Att källkritiken är dålig på nätet är väl inget kontroversiellt påstående, men desto mer fascinerande är att personer som skriver om vikten av källkritik inte verkar tillämpa den själva.

Källkritik

I ett blogginlägg skriver Stiftelsen för Internetinfrastruktur (IIS) om vikten av källkritik när Facebooksidan Matfusket skriver om hur analsekret och urin från bävrar används som aromämne i mat.

Varför stiftelsen skriver om mat och djur kan man förstås fråga sig, men förmodligen för att ge något konkret exempel på källkritik.

Ungefär så här gick det till:

  1. Matfusket delar denna bild om bäverbajs i mat. Eller ”bävergäll” om vi ska vara mer korrekta.
  2. IIS skriver blogginlägget Vad sa du att jag delar? om vikten av källkritik. Där intervjuas en bäverexpert om hur ett ord som på engelska (castor oil) betyder ricinolja förmodligen har misstolkats som bävergäll (castoreum).
  3. Matfuskets Facebooksida svarar med källhänvisningar och i kommentarsfältet dyker länkar till vetenskapliga studier upp som visar att bävergäll förekommer i mat (och att det är ofarligt – för den som undrar).

Jag är ingen expert på mat eller bävrar, men det finns många källhänvisningar som stödjer Matfuskets påstående om att bävergäll används i mat (bland annat Burdock, 2007). Huruvida de andra påståenden Matfusket gör på Facebooksidan är sanna eller ej är förstås en helt annan fråga.

Att använda källkritik som utgångspunkt för kritik blir extra pinsamt om man gör sin egen källkritik dåligt. I stället för konkreta faktafel verkar kritiken snarare handla om att vinkeln är för hårt tillskruvad på Matfuskets Facebooksida. Men den intressanta frågan i sammanhanget är, i mitt tycke, egentligen experten i IIS blogginlägg.

En bäverexpert är förstås expert på bävrar. Så långt är allt enkelt. Men är bäverexperten även expert på mat som görs av eller från bävrar? Det är en svårare fråga. Djur och mat är två olika ämnesområden, men de överlappar förstås väldigt ofta. Kanske är en livsmedelsexpert en bättre person att intervjua. Det blir i grund och botten en fråga om hur långt man menar att expertens kunskaper egentligen sträcker sig.

6 kritiska frågor om experter

I slutet av boken Påverkan och manipulation ger jag några råd om hur man bedömer uttalanden från experter. Det kan man göra genom att ställa sex stycken kritiska frågor:

  • Expertis: Hur tillförlitlig är personen som expert?
  • Ämne: Är personen en expert i det område sakfrågan berör?
  • Omdöme: Vad var det som personen hävdade som leder fram till påståendet?
  • Trovärdighet: Är personen trovärdig som expert?
  • Konsistens: Stämmer påståendet överens med andra experters påståenden?
  • Bevis: Är påståendet baserat på några bevis eller belägg?

Dessa frågor ger inga entydiga svar på vad som är ett korrekt uttalande av en expert eller ej. Med de bör åtminstone ge en fingervisning om åt vilket håll uttalandet lutar, och det är viktigt för källkritiken.

Om man är osäker på en experts uttalande är det nästan alltid enklast att fråga en annan expert i samma eller närbesläktat område som sakfrågan berör. Poängen är att om de säger samma sak så bör det nog också förhålla sig på det viset. Att själv försöka söka i vetenskapliga databaser är förstås den ”bästa” formen av källkritik, men kräver också den ”bästa” utbildningen för att ha kompetens nog att göra det.

E-nummer

För övrigt skriver jag också ingående om E-nummer i boken. Det är ett effektivt sätt att manipulera människor att tänka negativt om mat om man säger att det innehåller många E-nummer eller tillsatser än om man säger att det innehåller många naturliga ingredienser. Men många naturliga ingredienser har ett E-nummer. Så man är egentligen mer rädd för orden än för innehållet.

Uppdaterat: DN, Expressen, Aftonbladet skriver också om det.

Varför ”Big Data” bara är lurendrejeri

Big data - statistik

Det finns ett outtalat antagande med big data att mer information innebär att vi kan fatta bättre beslut. Det vill säga, om vi kan få åtkomst till mer och mer data så blir slutsatsen vi kan dra från datan betydligt mer säker. Om vi exempelvis analyserar 2 miljarder inlägg från Twitter skulle vi med väldigt hög säkerhet kunna säga vad människor tänker och tycker om olika saker.

Allt detta är dock lurendrejeri.

(Först ett skämt: Finns det telefoner i lera, eller är det lurendrejeri? Okej, nu åter till allvaret.)

Vi behöver rätt information – inte mer

Mer information innebär inte nödvändigtvis bättre information. Det fundamentala är att man måste ha rätt sorts information för att kunna dra slutsatser. Inte mer information. Då spelar saker som ”big data” heller ingen roll, eftersom det inte löser de fundamentala problemet med att ha rätt information från första början.

Det kallas information bias och är en sorts ”skevhet” i människors sätt att tänka. Det är tron att ju mer information man har (för att fatta ett beslut), desto bättre är det. Men den tron är alltså ogrundad.

Nya, sexiga ”data science”

Ett roligt ord är ”data science”. Ungefär som om det vore ett helt nytt och revolutionerande sätt att bedriva forskning.

Forskare som håller på med stora mängder data borde ju rimligtvis innebära att de därmed kan dra stora slutsatser och stora generaliseringar. Det låter kanske som ett rimligt argument, men det är det knappast. Det är inte bara mängden data som avgör, utan också hur man har fått tag i den som är det väsentliga.

Ingenjören Pete Warden skriver på sin blogg om varför man aldrig ska lita på en data scientist. Genom att göra färgglada bilder med linjer och streck från 200 miljoner Facebookprofiler skulle man kanske kunna tro att han gjort en ”objektiv” beskrivning av Facebookanvändarna:

The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas. I thought I was publishing an entertaining view of some data I’d extracted, but it was treated like a scientific study. A New York Times columnist used it as evidence that the US was perilously divided. White supremacists dug into the tool to show that Juan was more popular than John in Texan border towns, and so the country was on the verge of being swamped by Hispanics.

[…]

I’ve never ceased to be disturbed at how the inclusion of numbers and the mention of large data sets numbs criticism.

Det är gammal hederlig statistik…

Kan man säga att ”7 av 10 av unga har provat droger” så låter det trovärdigt och som ett allvarligt hälsoproblem. Det är ”fakta” som serveras rakt upp och ned. Att det i själva verket bara är femtio personer på Sergels torg som har fyllt i ett formulär och fått uppskatta droganvändningen bland sina vänner tycks vi vara mindre angelägna om att ta reda på. Formuleringen ”7 av 10” tycks vara nog för att vi ska sluta ställa frågor och låta vårt intellekt kapitulera.

Men man måste fortfarande göra lämpliga stickprov ur populationen, välja rätt skala och variabler liksom att analysera med rätt koefficienter och så vidare. Kort sagt: Man måste fortfarande hålla på med statistik. Och det kräver i regel lång utbildning och är ingenting som mer data eller snyggare infographics kan råda bot på.

…men statistik är inte sexigt

Det låter ju mer övertygande att säga att man har analyserat 200 miljoner Facebookprofiler än någon sociolog som gjort ett obundet slumpmässigt urval bland några tusental personer. Stora siffror är häftiga. Krångliga metodavsnitt i avhandlingar är ångestframkallande.

Vad som ger rätt slutsats är nämligen inte samma sak som det som ger en intressant slutsats. Forskare letar efter rätt slutsats till precist formulerade frågor, medan medierna letar efter en intressant slutsats baserad på vaga och förutfattade spekulationer till frågor (det som passar medielogiken).

Med hjälp av ”data science” och ”big data” får man däremot siffror att låta sexigt, utan att behöva befatta sig med jobbig statistik. Men som satirikern H.L. Mencken uttryckte det: ”För varje komplext problem finns det ett enkelt svar, och det är fel.”

Och när vi ändå är inne på att såga myter så kan jag säga att den ”magiska” gränsen för statistisk signifikans med ett p-värde < 0,05 är fullständigt godtycklig. Men det låter ju mer vederhäftigt om det är 0,05 eller under.

Slutsats

Big data är, trots sitt sexiga namn, inget annat än vanlig statistisk analys. Däremot finns det helt andra användningsområden för så kallad ”big data” som är mer lämpliga, men man kommer däremot inte ifrån att man håller på med statistik i någon form, eller att metoderna (insamling och analys) kommer att påverka resultatet.

Siffror öppnar inte en magisk dörr av värdeneutral objektivitet. Man måste fortfarande veta var siffrorna kommer ifrån och vad de betyder och, framför allt, vilka slutsatser man faktiskt kan dra från dem. Och det är gammal kunskap som ny teknik inte har förändrat.

Vad vi sällan behöver är mer och mer data. Vad vi snarare behöver är mer välformulerade problem.

Läs mer