Forskning

Forskning om mediepåverkan, medieeffekter och annat som har med hur vi påverkas politiskt av medier och kommunikation.

Video: varje framsida av New York Times sedan 1852

16 oktober 2017Peter Dahlgren Leave a comment

Ibland är det enklare att driva hem en poäng med en animering. Det här är ett sådant exempel.

Varje framsida av New York Times sedan 1852.

48 sekunder in i klippet visas den första sidan i färg, nämligen 16 oktober 1997, enligt den som laddat upp videoklippet.

Medieforskare blir av med sin doktorsexamen

10 september 2017Peter Dahlgren 1 Comment

Enligt Retraction Watch så har Ohio State University sett till att en av deras tidigare doktorander har fått sin doktorsgrad tillbakadragen. En vetenskaplig tidskrift har nämligen dragit tillbaka en av hennes artiklar (samförfattad med hennes handledare) på grund av ”inkonsistens i datan”, vilket är ett förmildrande uttryck för något som inte har gjorts på ett korrekt sätt.

Det gäller artikeln ‘Boom, Headshot!?’: Effect of Video Game Play and Controller Type on Firing Aim and Accuracy som publicerades på nätet 2012 och som kom ut i tryck 2014. Artikeln argumenterade för att first-person shooter tv-spel förbättrar människors hanterande av riktiga vapen.

Men under 2015 hörde andra forskare av sig och ville titta på datan ifråga, eftersom de hade upptäckt ”inkonsistenser”. Men forskarna till artikeln kunde inte hitta datan, vilket är sannerligen misstänksamt.

Så här skriver Communication Research, tidskriften som drog tillbaka artikeln, om varför de dragit tillbaka den:

The editors of Communication Research, Drs. Gibbs and Knobloch-Westerwick, wish to issue a retraction of the article entitled ““Boom, Headshot!?”: Effect of Video Game Play and Controller Type on Firing Aim and Accuracy” by Jodi L. Whitaker and Brad J. Bushman.

This article was first published online on April 30, 2012 and in print in the October 2014 issue of Communication Research (issue 41, pp. 879-891) as doi:10.1177/0093650212446622. It should be noted that, to ensure impartiality, Dr. Knobloch-Westerwick was not involved in the preparation of this decision, because she is on the faculty at the same institution as the corresponding author. This retraction is in response to inquiries from Drs. Markey (Villanova U) and Elson (Ruhr U Bochum), in agreement with the corresponding author Dr. Bushman.

A Committee of Initial Inquiry at Ohio State University recommended retracting this article after being alerted to irregularities in some variables of the data set by Drs. Markey and Elson in January 2015. Unfortunately, the values of the questioned variables could not be confirmed because the original research records were unavailable. In 2016, Drs. Markey and Elson sent their report to Dr. Gibbs, one of the editors of Communication Research, who decided that a retraction was warranted. A replication of the study by Dr. Bushman is in review.

Här hittar man abstractet till originalstudien:

Video games are excellent training tools. Some writers have called violent video games “murder simulators.” Can violent games “train” a person to shoot a gun? There are theoretical reasons to believe they can. Participants (N = 151) played a violent shooting game with humanoid targets that rewarded headshots, a nonviolent shooting game with bull’s-eye targets, or a nonviolent nonshooting game. Those who played a shooting game used either a pistol-shaped or a standard controller. Next, participants shot a realistic gun at a mannequin. Participants who played a violent shooting game using a pistol-shaped controller had 99% more headshots and 33% more other shots than did other participants. These results remained significant even after controlling for firearm experience, gun attitudes, habitual exposure to violent shooting games, and trait aggressiveness. Habitual exposure to violent shooting games also predicted shooting accuracy. Thus, playing violent shooting video games can improve firing accuracy and can influence players to aim for the head.

Enligt Google Scholar har artikeln redan hunnit citerats 14 gånger sedan den publicerades 2012, bland annat i en översiktsartikel vilket förmodligen förvärrar situationen med tanke på att alla som läser översiktsartikeln förmodligen inte kommer att läsa tillbakadragandet av originalartikeln.

Det är som viskleken för forskning, och mängden myter som florerar inom forskning behöver på inga sätt vara mindre än utanför forskarsamhället därför att det som bekräftar vad forskare tror är också det som i högre utsträckning kommer i tryck.

Enligt Retraction Watch var handledaren omedveten om dessa inkonsistenser, och verkar inte ha fått några repressalier.

Retraction Watch bevakar tillbakadragna vetenskapliga artiklar inom akademin (det är många, många, många forskningsartiklar som dras tillbaka regelbundet) och har skrivit följande om forskaren ifråga:

Överdrifter och alarmism när medierna beskriver filterbubblor

23 juni 2017Peter Dahlgren Leave a comment

Hur har medierna skrivit om så kallade filterbubblor? Dagens Nyheter och Svenska Dagbladet har sedan 2011 systematiskt beskrivit filterbubblor alarmistiskt och negativt, där algoritmer är onda och dolda medan journalistiken är god och transparent.

Det framkommer i en ny masteruppsats som Sofia Henriksson lade fram hos Stockholms universitet, vilken publicerades för två veckor sedan.

Henriksson har genomfört diskurs- och innehållsanalys med alla artiklar från DN och SvD som omnämner begreppet. Innehållsanalysen av totalt 83 artiklar visade bland annat att

48 % av artiklarna beskriver filterbubblor som ett vedertaget begrepp som läsaren förutsätts känna till, exempelvis om begreppet nämns i förbifarten, eller att begreppet får en helt annan innebörd
42 % av artiklarna är negativa
31 % av artiklarna är alarmistiska
6 % av artiklarna är positiva

Mediepanik

Hennes slutsats är att det finns en tendens till mediepanik bland artikelförfattarna i DN och SvD som skrivit om ämnet. Vidare skriver hon att:

Den alarmistiska och negativa diskursen har varit framträdande i rapporteringen sedan start från 2011 fram till 2017. […] I det empiriska materialet ger sig den negativa diskursen också i uttryck genom sarkastiska konnotationer kring filterbubblan. Där fungerar bubblan som ett omslutande och på vissa sätt inlåsande rum där det nästan enbart förekommer farliga och hotfulla åsikter. […] Den alarmistiska konnotationen där ord i materialet som hot, hat och terrorism förekommer står nästan helt utan att ifrågasättas i mediediskussionen kring filterbubblor.

Det förekommer väldigt sällan beskrivningar av hur algoritmerna faktiskt fungerar. Dessutom, människors ”individuella val att idag kunna bestämma vad denne vill konsumera tas inte med i diskursen”, vilket är anmärkningsvärt med tanke på att människors ökade valmöjligheter är en av grundsatserna som forskningen på området ifråga utgår ifrån.

Vi har alltså ett begrepp – filterbubbla – som beskriver hur både teknik och människa interagerar. Men medierna nämner sällan människans roll, och beskriver sällan hur tekniken fungerar. Det lämnar inte mycket kvar av begreppet, förutom som Henriksson påpekar: ”Medierna beskrev sällan den tekniska bakgrunden kring filterbubblan utan såg filterbubblan mest som ett hotfullt begrepp.”

I stället har filterbubblor ”ensamt [fått] ta ansvar för vem som valdes till USA:s president och att britterna valde att gå ur EU”, vilket innebär att diskussionen ”blir i dessa fall nästan för extremt”, enligt Henriksson.

Goda journalister, onda algoritmer

Några andra intressanta citat och observationer från uppsatsen:

I artiklarna ”hyllas journalisters sätt att sortera innehåll, medan den enbart algoritmstyrda sorteringen i sociala medier svartmålas på grund av brist på transparens.”
Henriksson menar att journalister ”förflyttar definitionen av filterbubblor till att de endast kan förekomma på andra plattformar än sina egna, gör dem det möjligt att kunna kritisera filterbubblorna på ett onyanserat sätt”
Journalister beskriver det som att de sorterar information medan algoritmer manipulerar sökresultaten och sociala medier. Men massmediers egna förstasidor styrs också av algoritmer samtidigt som journalisterna lägger ut nyheter på sociala medier.
Vidare beskrivs filterbubblor som att de ”aktivt hindrar journalister från att skapa demokratiskt material och bidra till ett fritt samhälle. Facebook beskrivs som laglöst och gränslöst där pedofiler och högerextrema får härja fritt och även gynnas av algoritmer […] Journalistiken beskrivs däremot med ord som hederligt och trovärdigt”.

Jag intervjuades för övrigt av Dagens Nyheter på telefon där jag påpekade att beskrivningarna av filterbubblor var tämligen överdriven i nyhetsmedierna. Jag kom inte med i artikeln.

Jag finner det tämligen ironiskt att journalister som skriver om falska nyheter eller filterbubblor inte är intresserade av att lyfta fram vare sig fakta eller andra synsätt. Det saknas nu bara artiklar om faktaresistens som ignorerar de omständigheter där människor tar till sig fakta.

Läs mer

Filterbubblor och ekokammare under politiska val: vad säger forskningen?
Filterbubblor: 3 kommentarer – 3 svar: vad säger forskningen mer?

Referens

Henriksson, S. (2017). Med nålen mot filterbubblan: En diskursanalys av DN:s och SvD:s användning av begreppet filterbubbla. Stockholms universitet. http://www.diva-portal.org/smash/record.jsf?pid=diva2:1107037

De snabbast växande orden i två miljoner nyhetsrubriker under tre år

18 juni 2017Peter Dahlgren Leave a comment

Vilka ord har ökat och minskat i bruk bland drygt två miljoner nyhetsrubriker från 2014 till 2017? I den här analysen har jag tagit nyhetsrubriker som är insamlade från början av 2014 till och med juni 2017 för att se vilka ord som förekommit mest och vilka som har snabbast ökat i popularitet.

Vilka ord har ökat mest på kortast tid? Kanske inte så förvånande är Donald Trump väldigt omskriven, precis som på Twitter. Lika lite förvånande är det ett väldigt fokus på USA och Storbritannien.

Men intressant nog verkar också vanlig lokal nyhetsvärdering öka relativt mycket, apropå ”trafikolycka” och ”singelolycka”.

Se också de snabbast sjunkande orden.

Tittar man på de ord som ökade mest under 2015 så är det ”flyktingar”, vilket jag satt i relation till ”migrationer” respektive ”nyanlända”. Av grafen att döma verkar de svenska medierna nästan unisont börja skriva om flyktingar vid samma tillfälle, därav den vertikala ökningen av texter.

De här graferna har jag mest gjort för skojs skull, men jag tänker mig att denna typ av analyser kan vara en förhållandevis enkel början till att forska om agenda-sättning. Över lång tid ger de här analyserna väldigt intressant information jämfört med de korta nedslag som ofta görs i forskningen.

Mer intressant, tror jag, är att de också också kan användas för att identifiera var man bör starta sin undersökning (eftersom de är helt induktiva), snarare än att hipp som happ sätta upp sitt blöta finger i luften för att mäta vart vinden blåser.

Den fullständiga analysen har jag som vanligt lagt upp på GitHub där du hittar både källkod och länkar till datan som du kan ladda ned. Kom gärna med förslag på hur det kan göras annorlunda.

Fler analyser

Här är några andra analyser jag gjort i R med framför allt öppna data:

Bibliografisk analys av mina 3 000+ referenser
Innehållsanalys och länkanalys av #svpol
Vad som trendat på Twitter under ett år
Political leaning and use of public service media in a fragmented media landscape: longitudinal analysis over 30 years in Sweden (en pågående artikel jag arbetar med som är långt ifrån färdig, tips välkomnas)

Big data i medieforskning

Att bara analysera rubriker går bra på en vanlig laptop. Det var inga svårigheter att ladda in en miljon rubriker i minnet. Vid två miljoner rubriker började datorn gå på knäna. R tog 11 gigabyte i anspråk för att köra unnest_tokens för att skapa en vektor på drygt 5,1 miljoner ord mappat till nyhetsrubrikerna.

Framöver behövs mer datorkraft för analyser av hela brödtexten, kanske med hjälp av Apache Spark som jag använt tidigare. Dock ska jag testa om bigmemory i R kan fungera eftersom den, vad jag förstår, genomför analysen på disken snarare än i minnet. Det går lite långsammare, men om man sysslar med forskning så är allt redan långsamt.

RMarkdown

Dokumenten i listan med länkarna ovan är gjorda med hjälp av RMarkdown, ett sätt att blanda källkod i valfritt språk, bilder, text och… tja, allt man kan tänka sig. Även om RMarkdown är skapat för språket R fungerar även andra språk och jag har exempelvis skrivit Python-kod i RMarkdown som jag använde som presentation under en lektion i web scraping. Det går med andra ord utmärkt att exportera till Powerpoint, Word, hemsidor eller PDF.

Det är ett behändigt sätt att paketera sina analyser. Steget från källkod till presentation blir minimalt, och det är också varför den brittiska regeringen valt att satsa på RMarkdown.

Jag tror detta kommer bli vanligare i framtiden. I stället för att presentera ett begränsat antal analyser på ett lika begränsat antal sidor så kan man dokumentera hela sin process för att låta andra upptäcka hur tankeprocessen har gått till, och även se resultat man kanske borde följa upp. Detta kan sedan bifogas till artikeln i ett appendix så att man kan se diagram och källkod tillsammans.

Frågan är vilken tidskrift som blir först med kräva att analyserna i Markdown bifogas till varje artikel? Stata 15 har ju också kommit ut med Markdown så R är ju knappast något krav längre.

5 intressanta föreläsningar du bör se

01 juni 2017Peter Dahlgren Leave a comment

Internet är fantastiskt. Om man inte kan närvara på en konferens kan man alltid se de intressanta föredragen i efterhand eftersom de ofta spelas in och läggs på nätet. Här har jag därför samlat några intressanta föreläsningar jag sett och rekommenderar.

1. Reproducerbarhet i vetenskap

Brian Nosek, professor i socialpsykologi, pratar om hur man man kan öka reproducerbarheten inom vetenskap samt praktiska råd för hur man kan göra.

2. Vetenskapskommunikation och kriskommunikation

Hur både journalister och forskare kan minimera att vetenskapen förvanskas när den sprids i massmedierna, med Kathleen Hall Jamieson, professor i kommunikation.

3. Faktaresistens och motivated reasoning

Åsa Wikforss, professor teoretisk filosofi, pratar om motivated reasoning och hur våra motivationer kan påverka vad vi väljer att tro på. Video från Fjärde uppgiften.

4. Psykologin bakom konspirationsteorier

Varför tror folk på konspirationsteorier? Psykologen Rob Brotherton beskriver hur vi alla är intuitiva konspirationsteoretiker men att vissa är bättre (eller sämre) på att resonera än andra.

5. Könsskillnader mellan kvinnor och män

Debatt mellan Steven Pinker och Elizabeth Spelke, båda professorer i kognitionspsykologi, om könsskillnader mellan kvinnor och män.

Länkkarteller på #svpol

11 maj 2017Peter Dahlgren Leave a comment

Okej, rubriken till trots handlar detta inte riktigt om länkkarteller. Det låter bara tufft att säga kartell.

Vad jag däremot har gjort är att återskapa Kate Starbirds metod från Information Wars: A Window into the Alternative Media Ecosystem som visar sajter som brukar länkas tillsammans på sociala medier när konspirationsteorier förs på tal.

Vilka länkar förekommer mest tillsammans? Det är frågan som bilden nedan svarar på. Men i stället för konspirationsteorier har jag valt att titta på #svpol generellt sedan november 2015. Och där dominerar traditionella massmedier. Det är huvudsakligen kvintetten Expressen, Aftonbladet, SVT, DN och SvD som förekommer mest tillsammans på #svpol, vilket tjockleken på linjerna och de röda bubblorna indikerar.

Jag använde algoritmen DrL för att skapa nätverket, som är force-directed, vilket i korthet innebär att domäner längre ifrån varandra har mindre med varandra att göra (färre länkar tillsammans). Därmed hamnar massmedierna i gröten i mitten eftersom de får flest länkar.

Läs mer

Se hela analysen av #svpol eller ladda ned källkoden i R om du vill göra samma sak själv.

Läser journalister källorna de hänvisar till?

10 maj 2017Peter Dahlgren 1 Comment

Viskleken har nog de flesta hört talas om. En person säger något till en andra person, som i sin tur säger det till en tredje, och så vidare. Poängen är att informationen bitvis förändras på vägen.

I journalistiken (och i forskningen också, faktiskt) förekommer också visklekar. Man kollar helt enkelt inte upp källorna, utan accepterar slutsatsen någon annan har skrivit (och kanske inte ens förstått), för att sedan föra vidare slutsatsen ifråga. Här följer ett exempel.

Sveriges Radio Medieormen skriver så här:

New York Times har uppmärksammat fenomenet i en artikel om hur Googles algoritmer, oavsiktligt får man hoppas, har börjat diskriminera. Som exempel anger man en studie som visar att Googles platsannonser för högbetalda jobb oftare riktas mot män än mot kvinnor.

Följer man länken till New York Times kan man läsa detta:

Google’s online advertising system, for instance, showed an ad for high-income jobs to men much more often than it showed the ad to women, a new study by Carnegie Mellon University researchers found.

Klickar man sedan vidare till studien kan man läsa detta:

We cannot determine who caused these findings due to our limited visibility into the ad ecosystem, which includes Google, advertisers, websites, and users.

Så efter två klick kan man konstatera att originalpåståendet (”Googles algoritmer har börjat diskriminera”) inte hade mycket substans (”We cannot determine who caused these findings”). Även forskare har misstagit sig på samma punkt.

Det är väldigt positivt att massmedierna länkar till sina källor. Det gör deras arbete mer transparent och felaktigheter kan lättare upptäckas. För i ärlighetens namn är dessa fel inte förbehållet journalister. Forskare citerar också på samma sätt emellanåt, det vill säga till andrahandskällor utan att kontrollera originalkällorna. Den omvända praktiken förekommer också, att originalkällor citeras medan fullständiga vederläggningar av dessa källor inte alls citeras.

Fördelen inom akademin är dock att referenssystem både är standardiserade och nödvändiga. Därmed är också missuppfattningar i grunden demonstrerbara. Det finns inget värre än att läsa ”en studie har visat att”, vilket omedelbart skapar frågor. Vilken studie? När? Vem? Var? Hur?

I dag fick jag frågan varför så många tror att filterbubblor existerar trots att forskningen visar att de sällan gör det. Kanske kan viskleken vara en av förklaringarna. Om vi börjar med slutsatsen kan vi enkelt viska oss fram till vad som helst.

Fler exempel

Uppmaning till journalister att sansa er förtjusning för big data om journalister som gör vissa antaganden när de analyserar data för att komma fram till de slutsatserna de är motiverade att komma fram till.
”Fyra av fem kan inte skilja journalistik från sponsrat innehåll” om journalister som inte ens läser studien de hänvisar till.
”Vore det inte för läsarna skulle vi göra en bra tidning” om humoristisk skönlitteratur om journalistik.
Vad bäverbajs kan lära dig om källkritik om kritik mot källkritik inte håller för källkritisk granskning.
Etablerade medier misstolkade ”fake news”-rapport (SvD)

”Det är algoritmerna” – en förklaring som betyder ”jag har ingen förklaring”

12 april 2017Peter Dahlgren 2 Comments

Stiftelsen för internetinfrastruktur har släppt en ny rapport vid namn Algoritmer: Så påverkar de din vardag, skriven av Jutta Haider och Olof Sundin.

Här tänkte jag redogöra för min kritik mot dels rapporten och dels ordet ”algoritmer” i största allmänhet. För det som många menar när de säger ”algoritmer” verkar egentligen vara ”mjukvara”.

Algoritm: ett nytt ord för att ersätta mjukvara

Vad är det som gör att du ser det du ser på nätet? Det är algoritmerna. Hur kan du läsa den här texten just nu? Tack vare algoritmerna. Och vad är det som gör att du kan posta en kommentar i kommentarsfältet? Du gissade rätt, det är också algoritmerna. ”Algoritm” tycks vara de senaste årens buzzword i svensk press (se diagrammet nedan) som kan förklara vad som händer i det digitala samhället.

Men när ett begrepp tenderar att förklara allt blir vi inte mycket klokare av att använda det. Aristoteles påpekade redan i Retoriken (s. 152 i svenska upplagan) att en sak vi alla människor vet är vi i regel väldigt okunniga om när det omformuleras med andra ord. Detsamma kan sägas om algoritmer när det verkar få ersätta ”mjukvara” i allt högre utsträckning. Algoritmer har dokumenterats 1 600 år före Kristus, så fenomenet kan åtminstone inte påstås vara speciellt nytt (om vi nu inte förväntas jämföra med big bang), även om det har ökat i popularitet på senare år.

Google har exempelvis över 40 000 egna patent, de flesta mjukvarupatent, och det bidrar därför sällan till förståelsen när någon väljer att prata om ”Googles algoritm” – i singular dessutom. Algoritm likställs ofta med ett recept, och vi säger ju sällan att vi har lagat ”receptet” till lunch om vi inte först specificerar exakt vilket av alla tusentals recept vi talar om.

Mitt förslag är att inte göra sig själv okunnig genom att byta ut ord vi redan kan och använder till förmån för ord som är både malplacerade och på fel abstraktionsnivå. Det går utmärkt att säga ”Googles sökmotor” i stället för ”Googles algoritm”. Forskare kan fortsätta säga att de använt OLS regression för att analysera datan i stället för att säga att de använt en algoritm. Det senare kan syfta på precis vad som helst, medan det förra är någorlunda väl avgränsat. (Googles sökmotor har för övrigt mängder av algoritmer, de flesta banala, som hur länkarna till andra sidor i sökresultatet ska visas.)

Vill man prata om innehåll som skräddarsys efter individens tidigare beteenden (sökningar eller klick på länkar) är ett lämpligare ord personalisering. Då kan vi skilja mellan vad en individ själv väljer att utesluta från sin informationsmiljö (aktiv personalisering) och vad företag som Google och Facebook exempelvis bestämmer vad du ska se utifrån dina tidigare beteenden (passiv personalisering). Redan här har vi kommit till kärnfrågan (åtminstone en av dem) i stället för att trassla in oss i tekniska detaljer.

Nu vänder jag i stället blicken mot rapporten ifråga.

Kulturella värderingar kodifierade i algoritmer

Rapportförfattarna skriver (s. 9-10) att samhälleliga och kulturella normer, fördomar och liknande är inskrivna i algoritmer. Som stöd för detta argument visar de några tydliga exempel på hur detta kan ske i praktiken:

Algoritmer är kulturellt kodade

Algoritmer är en djupt integrerad del av vårt samhälle. Algoritmer ger också uttryck för dominerande föreställningar och värderingar i vår kultur. Det går att uttrycka i termer av att algoritmer kodifierar dessa föreställningar och värderingar. Vi ser det till exempel i hur en kulturs värderingar om offentlig amning och den kvinnliga kroppen leder till att Facebook censurerar alltför ”explicita” bilder på amning. Det får i sin tur genomslag världen över genom de värderingar som finns inbyggda i Facebooks algoritm, vilken automatiskt letar upp och döljer kvinnlig nakenhet. Det här leder till att även schematiskt ritade bilder på bröst vid till exempel en kampanj för bröstcancer kan bli osynliggjorda.

Det som kan framstå som självklart i den kultur där algoritmen är skapad, kan framstå som underligt, kanske till och med stötande, i en annan kultur. Andra exempel visar på rasistiska värderingar som syns i Googles och Flickrs algoritmer för automatisk taggning av bilder. Google har exempelvis behövt be om ursäkt för att en algoritm för bildbeskrivning taggade två svarta personer med ”gorillas”.

Detta är allvarligt om så vore fallet. Tittar man på referensen till tidningsartikeln säger Google att de också har råkat klassificera människor som hundar. Med rapportförfattarnas fokus på hur kulturella normer påverkar algoritmen borde slutsatsen också vara (a fortiori) att Googles värderingar är att människor är hundar och att dessa värderingar är kodifierade i algoritmen.

Dessbättre är det felaktigt, och det beror på hur klassificering av bilder går till, vilket bygger på perceptuell inlärning och är inte inskrivet i algoritmen över huvud taget.

Det handlar om att man använder en bildklassificerare och låter denna ”lära” från en mängd olika exempelbilder. Ut kommer då en modell från algoritmen som har till uppgift att klassificera nya bilder, som modellen tidigare inte har sett. Därefter släpper man lös klassificeraren (modellen) i det vilda och låter den klassificera bilder på egen hand utifrån mönster den själv hittar. Detta senare steg i mönsterigenkänningen har alltså inte programmerats av någon människa över huvud taget. Annorlunda uttryckt skapar dessa algoritmer saker utöver vad de har programmerats att göra, alltså modellen.

Däremot kan dessa producera andra typer av fel, till exempel när man stoppar in ett skevt urval av bilder i modellen. Detta beskrivs betydligt mer nyanserat i artikeln Artificial Intelligence’s White Guy Problem där forskaren Kate Crawford från Microsoft beskriver problematiken:

This is fundamentally a data problem. Algorithms learn by being fed certain images, often chosen by engineers, and the system builds a model of the world based on those images. If a system is trained on photos of people who are overwhelmingly white, it will have a harder time recognizing nonwhite faces.

Ett annat extremt exempel värt att nämna är Tay. Microsoft utvecklade en chatbot vid namn Tay på Twitter som efter ett par timmar blev nynazist på grund av att ha blivit medvetet matad med nazistiska, sexistiska och rasistiska kommentarer av andra Twitteranvändare. Detta reflekterar inte nödvändigtvis att nazistiska normer hos Microsoft har kodifierats i algoritmen, utan snarare att Tay är ett exempel på artificiell intelligens avsedd att lära sig härma andra människor. Resultatet är en extrem form av behaviorism och social inlärning, en svamp som suger åt sig allt den blir tillsagd och sedan gör likadant.

Vidare i rapporten om algoritmer står det:

Man har också funnit att Google Sök i högre utsträckning visar annonser för välavlönade jobb för manliga profiler än för kvinnliga. Dessa exempel gör det tydligt hur kulturella värderingar, fördomar och etiska förhållningssätt finns inskrivna i algoritmer som i sin tur har möjlighet att påverka andra. Algoritmer och samhälle formar därmed varandra.

Låt oss titta i referensen de hänvisar till. Där står det: ”We cannot determine who caused these findings due to our limited visibility into the ad ecosystem, which includes Google, advertisers, websites, and users.”

Det är med andra ord inte säkert att det är Googles algoritm över huvud taget som är ansvarig för resultatet, utan det kan också vara annonsörerna, webbplatserna eller användarna. Ändå skriver rapportförfattarna att det är inskrivet i algoritmer och att dessa exempel är tydliga. Så referensen de hänvisar till är med andra ord inget stöd till det argument som läggs fram i rapporten om att algoritmer är kulturellt kodade.

Algoritmer, eller rättare sagt modellerna, av ovan nämnda slag gör alltid fel i viss utsträckning, och syftet är oftast att minimera felen snarare än att göra träningen perfekt (så kallad overfitting fungerar sällan utanför det omedelbara sammanhanget).

Kan algoritmer aldrig vara kulturellt kodifierade? Jodå. Men det finns ingen logiskt tvingande nödvändighet i att en algoritm är kulturellt kodifierad. Försök exempelvis hitta den kulturella kodifieringen i kvadratroten. Föreställningen om att eventuella normer är ”inskrivna” i algoritmerna verkar snarare vara något rapportförfattarna har tillskrivit algoritmerna utifrån sina egna kulturella perspektiv.

Hade rapportförfattarna fortsatt på sin analogi som presenterades inledningsvis, att algoritmer är som recept, så hade de också kunna dra den deduktiva slutsatsen att resultatet av algoritmen till stor del också beror på vad man stoppar in i modellen. Ett bakverk är ju som bekant beroende dels av råvarorna och dels av tillagningsproceduren. Enkelt uttryckt gäller principen ”skit in, skit ut” oavsett hur bra tillagningsproceduren i övrigt är, vilket sätter fokus på hur algoritmerna har tränats snarare än hur algoritmerna är skrivna. För skillnaden mellan ett recept och en algoritm är att recept specificerar vilka råvaror du ska tillaga. Algoritmer gör det inte, utan antas kunna lösa generella problem.

Denna distinktion, som rapportförfattarna introducerar men överger, gör mig bekymrad att rapportförfattarna inte riktigt förstår algoritmer eller hur de fungerar, vilket är anmärkningsvärt med tanke på att författarna har till uppgift att lära andra hur algoritmer fungerar och dessutom har skrivit tre rapporter om ämnet för Statens medieråd, Regeringskansliet och Skolverket.

Google kan rimligen anklagas för att skriva en dålig algoritm som exempelvis prioriterar fel innehåll i deras sökmotor, liksom att de kan kritiseras för att träna algoritmen med ett skevt urval av exempel. Detta ska lyftas upp och kritiseras. Men när användare manipulerar innehållet, som modellen ifråga sedan utgår ifrån, kan Google möjligen anklagas för moralisk passivitet om detta innehåll får konsekvenser som Google inte rättar till. Likaså bör vi kritisera Google när de använder träningsdata som är skev i någon bemärkelse. (Givetvis gäller samma argument för andra företag, men Google får tjäna som exempel här.)

Det rapportförfattarna lyfter fram, de etiska aspekterna såsom transparens inför automatiskt beslutsfattande som bygger på proprietära algoritmer, är därför en mycket viktig fråga. I synnerhet om de i vid utsträckning införs allt mer i den offentliga sfären bland myndigheter.

Vidare skriver rapportförfattarna (s. 15):

Big data hanterar, som namnet antyder, stora mängder data, men syftar i sin betydelse snarare på hur man sammanför olika data för att kunna urskilja mönster. Man använder då algoritmer för att utföra så kallade förutsägande (predikativa) analyser genom att förstå hur olika skeenden hänger ihop. Det handlar inte minst om att förutspå konsumentbeteenden och individers preferenser, men andra användningsområden är också tänkbara. Exempelvis kan de ord vi söker på i Google Sök användas för att bedöma allmänhetens intresse för olika politiska frågor, för att förutse valresultat eller hur en influensaepidemi sprider sig. (Google Flu Trends, GFT)

Det kanske inte är ett lyckat exempel då Google Flu Trends är nedlagd sedan flera år tillbaka eftersom det inte fungerade.

Läs mer

Jag har nyligen skrivit ett avsnitt i en kommande rapport om metoder för insamling och analys av data via sociala medier för MSB, och då lade jag fokus (förvisso ytligt) på en del algoritmer för maskininlärning. Jag vet inte när rapporten publiceras, men kan länka in den här senare.

Filosofen John Danaher har skrivit en rad artiklar och intressanta blogginlägg om hoten från ett algokratiskt samhälle, det vill säga ett samhälle där algoritmer snarare än människor står för politiska beslut:

Se också min egen artikel, mer om algoritmer i relation till big data:

Big data: Hur man mäter exakt fel

Floden av upprördhet i sociala medier

20 mars 2017Peter Dahlgren 1 Comment

Intressant diskussion om ökningen av populism mellan tidigare partiledaren för brittiska Liberaldemokraterna Nick Clegg och socialpsykologen Jonathan Haidt i debattmediet intelligence².

Det jag framför allt vid lyfta fram är internets betydelse och vad Haidt kallar floden av upprördhet.

Floden av upprördhet

Sociala mediers betydelse tas upp ungefär 47:10 minuter in i klippet. Här är ett citat jag tycker summerar problemet med sociala medier bra, nämligen floden av upprördhet:

If a swastika is drawn on a locker in a junior high school in Illinois, everybody on the left will hear about it. And if an idiot holds up a sign saying “Patriotism is racism”, everyone on the right will hear about it. So, everyone is immersed in a river of outrage. And it’s very hard to see how we turn down the volume. I think the very idea of democracy is severely challenged by new technology.

Jag tror precis detta är nyckeln till selektiv exponering när det kommer till internet. Det är förvisso möjligt att bara ta del av material som bekräftar vad man redan tror. Det polariserar dock inte människor speciellt mycket, utan snarare tvärtom.

Men när en individ exponeras för information som går emot dennes övertygelser, och i synnerhet information som hotar den sociala identiteten, så tenderar polariseringen att öka.

Så när man tar del av information, dag ut och dag in, som går emot ens egna övertygelser, finns det ökad vilja till att mobilisera sig politiskt. Dock tenderar man att överskatta prevalensen av problemet på grund av en konstant repetition. Med andra ord, det är inte sin egen grupps förträfflighet man exponeras för, utan snarare problemen med alla andras. Lägg därutöver till information som ramas in på ett vis som förstärker, och i vissa fall även överdriver, detta problem.

Jag kommer förhoppningsvis utveckla detta i en artikel under hösten.

Läs och se mer

Jag rekommenderar även debatten When It Comes To Politics, The Internet Is Closing Our Minds, även den genomförd hos intelligence².
Läs också Börja med fakta innan du letar orsaken på min andra blogg som är mer inriktad på filosofi.

6 tjänster som kartlägger (och visar) din politiska användning av sociala medier

13 februari 2017Peter Dahlgren Leave a comment

Det har dykt upp en mängd tjänster under den senaste tiden som visar hur vi använder sociala medier för att få politiska nyheter och information, och kanske i synnerhet hur begränsad bild av verkligheten vi får av sociala medier (eller medier i största allmänhet, egentligen).

Här har jag sammanställt några intressanta tjänster jag stött på, många av dem Chrome-tillägg, som visar vår medieanvändning på nätet eller varnar oss när vi surfar in på tvivelaktiga sajter.

I korthet är tjänsterna i tur och ordning: FlipFeed, PolitEcho, Data Selfie, Emergent, Viralgranskarens varningslista och Ekokammaren.

FlipFeed låter dig se hur en annan persons flöde ser ut på Twitter genom att installera ett Chrome-tillägg. Se flödet genom ögonen från en person från den politiska vänster- eller högerkanten. FlipFeed är utvecklat hos MIT.

PolitEcho är ett Chrome-tillägg som försöker förutsäga dina Facebookvänners politiska åsikter utifrån vilka nyhetssidor som dina Facebookvänner har gillat. Notera att detta tillägg enbart fungerar för amerikanska nyhetssidor.

Data Selfie är ytterligare ett Chrome-tillägg som visar vilken information som skickas till Facebook när du surfar på nätet. Tillägget registrerar vad du tittar på, hur länge du tittar på det, vad du gillar, vad du klickar på och allt du skriver på Facebook. Enkelt uttryckt, du blir kartlagd. Tillägget låter dig sedan se all insamlad information. (Datan som tillägget samlar in sparas bara på din egen dator, den skickas inte vidare.)

Emergent visar hur overifierad information som rykten sprids på nätet, i realtid. Det är ett projekt från Columbia University.

Viralgranskarens varningslista är ett Chrome-tillägg som varnar för svenska sajter som är kända för att sprida exempelvis påhittade nyheter. Tillägget bygger på en amerikansk dito som kallas B.S. Detector.

Ekokammaren visar svenska nyhetssidor och intresseorganisationer som finns på Facebook, kategoriserade efter politisk tillhörighet. Det gör det enkelt att jämföra hur diverse Facebooksidor skriver om ett och samma ämne.