statistik

Hur stor blir felmarginalen vid en viss urvalsstorlek?

Hur stor blir felmarginalen vid en viss urvalsstorlek? Denna enkla fråga tänkte jag besvara genom att måla upp en graf.

Felmarginaler är ett roligt ämne. I stället för att traggla med formler eller tabeller försöker jag göra så mycket som möjligt visuellt, i synnerhet när jag ska visa för andra vad det egentligen är som händer. Det brukar vara lättare att förstå om man kan se resultaten av det man gör, snarare än att försöka bygga en abstrakt modell i huvudet av vad som händer (vilket förvisso inte ska underskattas det heller).

Jag försöker också dra nytta av mina programmeringskunskaper och lära mig R bättre. Så varför inte göra ett litet skript som gör allt det manuella arbetet till något som kan återanvändas och presenteras grafiskt?

Här kommer därför en liten bild som visar felmarginalerna vid olika urvalsstorlekar. Det gör det förhoppningsvis lite lättare att förstå varför man använder ungefär 1 000 personer i olika former av opinionsundersökningar, snarare än 2 000 eller 3 000. Vinsten av att använda fler personer än tusen är ofta inte särskilt stor.

Jag har också medvetet valt ett alternativ med 50 % eftersom felmarginalen blir som störst då. Det beror på att det i formeln finns en kvadratisk funktion (p * (1 - p)). Ju närmare mitten i intervallet 0 och 100 %, desto större blir helt enkelt osäkerheten.

Hur urvalsstorleken påverkar felmarginalen

Som du ser i koden nedan så förutsätter jag 95 % konfidensintervall om man inte anger något annat. Man måste dock skriva z-värdet, så därför bifogar jag en liten lathund över dessa. Och som vanligt gäller felmarginalerna inte för självselektion och liknande urval som inte har plockats slumpmässigt från en population.

# Lathund:
# 50 % CI = 0.674 z-score
# 80 % CI = 1.282 z-score
# 90 % CI = 1.645 z-score
# 95 % CI = 1.960 z-score
# 98 % CI = 2.326 z-score
# 99 % CI = 2.576 z-score

# Funktion för att räkna ut felmarginal
marginoferror <- function (p, n, z=1.96, population=9600000) {
    if(p>=1) {
      stop("p måste vara proportion under 1, exempelvis 0.60 för 60 %.")
    }
    # Skippa korrektionsfaktorn då den inte ger speciellt mycket
    return (z * sqrt((p * (1 - p)) / n) * 100) # * (1 - (n / population))))
}

# Funktion för att plotta felmarginal vid olika proportioner
plotta <- function (proportion, z=1.96) {
  # Bygg vektor med N och felmarginal
  l <- c(n=0, felmarginal=marginoferror(proportion, 0))
  for (n in 1:2000) {
   l <- rbind(l, c(n=n, felmarginal=marginoferror(proportion, n, z=z)))
  }
  
  # Plotta
  plot(l, type="n",cex.main=1.35, main=paste("Felmarginal vid olika urvalsstorlekar\nnär ett alternativ får ", proportion * 100, "% av rösterna", sep=""),
      xlab="Urvalsstorlek (N)", cex.lab=1.35, ylab="Felmarginal (%)")
  grid()
  points(l, col="red")
  axis(side=1, at=seq(0, 2000, by=500))
  axis(side=2, at=seq(0, 100, by=10))
}

plotta(0.50) # 50 %
plotta(0.50, z=2.576) # 50 % på 99 % CI

Varför ”Big Data” bara är lurendrejeri

Big data - statistik

Det finns ett outtalat antagande med big data att mer information innebär att vi kan fatta bättre beslut. Det vill säga, om vi kan få åtkomst till mer och mer data så blir slutsatsen vi kan dra från datan betydligt mer säker. Om vi exempelvis analyserar 2 miljarder inlägg från Twitter skulle vi med väldigt hög säkerhet kunna säga vad människor tänker och tycker om olika saker.

Allt detta är dock lurendrejeri.

(Först ett skämt: Finns det telefoner i lera, eller är det lurendrejeri? Okej, nu åter till allvaret.)

Vi behöver rätt information – inte mer

Mer information innebär inte nödvändigtvis bättre information. Det fundamentala är att man måste ha rätt sorts information för att kunna dra slutsatser. Inte mer information. Då spelar saker som ”big data” heller ingen roll, eftersom det inte löser de fundamentala problemet med att ha rätt information från första början.

Det kallas information bias och är en sorts ”skevhet” i människors sätt att tänka. Det är tron att ju mer information man har (för att fatta ett beslut), desto bättre är det. Men den tron är alltså ogrundad.

Nya, sexiga ”data science”

Ett roligt ord är ”data science”. Ungefär som om det vore ett helt nytt och revolutionerande sätt att bedriva forskning.

Forskare som håller på med stora mängder data borde ju rimligtvis innebära att de därmed kan dra stora slutsatser och stora generaliseringar. Det låter kanske som ett rimligt argument, men det är det knappast. Det är inte bara mängden data som avgör, utan också hur man har fått tag i den som är det väsentliga.

Ingenjören Pete Warden skriver på sin blogg om varför man aldrig ska lita på en data scientist. Genom att göra färgglada bilder med linjer och streck från 200 miljoner Facebookprofiler skulle man kanske kunna tro att han gjort en ”objektiv” beskrivning av Facebookanvändarna:

The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas. I thought I was publishing an entertaining view of some data I’d extracted, but it was treated like a scientific study. A New York Times columnist used it as evidence that the US was perilously divided. White supremacists dug into the tool to show that Juan was more popular than John in Texan border towns, and so the country was on the verge of being swamped by Hispanics.

[…]

I’ve never ceased to be disturbed at how the inclusion of numbers and the mention of large data sets numbs criticism.

Det är gammal hederlig statistik…

Kan man säga att ”7 av 10 av unga har provat droger” så låter det trovärdigt och som ett allvarligt hälsoproblem. Det är ”fakta” som serveras rakt upp och ned. Att det i själva verket bara är femtio personer på Sergels torg som har fyllt i ett formulär och fått uppskatta droganvändningen bland sina vänner tycks vi vara mindre angelägna om att ta reda på. Formuleringen ”7 av 10” tycks vara nog för att vi ska sluta ställa frågor och låta vårt intellekt kapitulera.

Men man måste fortfarande göra lämpliga stickprov ur populationen, välja rätt skala och variabler liksom att analysera med rätt koefficienter och så vidare. Kort sagt: Man måste fortfarande hålla på med statistik. Och det kräver i regel lång utbildning och är ingenting som mer data eller snyggare infographics kan råda bot på.

…men statistik är inte sexigt

Det låter ju mer övertygande att säga att man har analyserat 200 miljoner Facebookprofiler än någon sociolog som gjort ett obundet slumpmässigt urval bland några tusental personer. Stora siffror är häftiga. Krångliga metodavsnitt i avhandlingar är ångestframkallande.

Vad som ger rätt slutsats är nämligen inte samma sak som det som ger en intressant slutsats. Forskare letar efter rätt slutsats till precist formulerade frågor, medan medierna letar efter en intressant slutsats baserad på vaga och förutfattade spekulationer till frågor (det som passar medielogiken).

Med hjälp av ”data science” och ”big data” får man däremot siffror att låta sexigt, utan att behöva befatta sig med jobbig statistik. Men som satirikern H.L. Mencken uttryckte det: ”För varje komplext problem finns det ett enkelt svar, och det är fel.”

Och när vi ändå är inne på att såga myter så kan jag säga att den ”magiska” gränsen för statistisk signifikans med ett p-värde < 0,05 är fullständigt godtycklig. Men det låter ju mer vederhäftigt om det är 0,05 eller under.

Slutsats

Big data är, trots sitt sexiga namn, inget annat än vanlig statistisk analys. Däremot finns det helt andra användningsområden för så kallad ”big data” som är mer lämpliga, men man kommer däremot inte ifrån att man håller på med statistik i någon form, eller att metoderna (insamling och analys) kommer att påverka resultatet.

Siffror öppnar inte en magisk dörr av värdeneutral objektivitet. Man måste fortfarande veta var siffrorna kommer ifrån och vad de betyder och, framför allt, vilka slutsatser man faktiskt kan dra från dem. Och det är gammal kunskap som ny teknik inte har förändrat.

Vad vi sällan behöver är mer och mer data. Vad vi snarare behöver är mer välformulerade problem.

Läs mer

Nytt om Twitter: 300 000 svenska användare

Det finns 299 000 svenska användare på Twitter. Av dessa är 171 000 aktiva och 53 000 mycket aktiva.

I diagrammet nedan ser du antalet nyregistreringar per månad. Det ökade kraftigt i slutet av 2008 och början av 2009.

Uppgifterna finns att läsa i den senaste rapporten om Twitter (PDF) från Intellecta Corporate.

För att visualisera alla människor har de också konstruerat en graf över twittrare där du kan hitta dig själv och se var du ”hör hemma”. Jag själv finns, föga förvånande, i  ”mediebubblan” (orange) bland annat löst folk.

Läs även

Äntligen vet vi hur många svenskar som twittrar från februari 2011, då antalet var ungefär 91 000.

Äntligen vet vi hur många svenskar som twittrar

Att det varit drygt fyra miljoner svenskar på Facebook har vi vetat en tid. Men däremot har det varit svårt att få några konkreta siffror på Twitter. Tills nu.

Vi vet nu följande: Det finns 91 000 svenska twittrare. 36 000 av dem har varit aktiva de senaste månaderna och det verkar som det är många opinionsbildare. En liten del av twittrarna står för majoriteten av inläggen.

Läs också