God praxis för tjänsteutvecklare

Ansvarsfullt användande av artificiell intelligens

Snedvridningar måste identifieras av människor

Vad är snedvridning av data?

I samband med datasystemen talas det mycket om snedvridning av data. Ofta används också den engelska termen bias.

Begreppet snedvridning har flera olika definitioner. Ansvarsfull utveckling omfattar åtminstone följande:

ett systematiskt fel i urvalet eller testningen som beror på att man väljer eller förstärker ett resultat eller svar i stället för andra
en förhandsattityd som antingen gynnar eller motsätter sig en viss sak, person eller grupp jämfört med en annan, i allmänhet på ett sätt som anses orättvist.

Den första är en statistisk och datavetenskaplig händelse som orsakas oavsiktligt eller avsiktligt i testsyfte i systemets forsknings- och produktutvecklingsprocess. Den kan också orsakas avsiktligen med illvilja.

Den senare definitionen avser en egenskap hos en människa eller grupp som återspeglas i de datamängder som systemet producerar eller använder antingen oavsiktligt eller avsiktligt.

Uppdaterad: 9.11.2023

Vad leder snedvridningar till?

Snedvridna tränings- eller produktionsdata producerar oundvikligen snedvridna resultat. Konsekvenserna kan variera från oanvändbarhet till direkt skada: diskriminering, kränkningar av de grundläggande fri- och rättigheterna eller andra negativa konsekvenser som är svåra att ersätta.

Att upptäcka och korrigera snedvridningar i data i tid har redan länge varit ett viktigt forskningsobjekt för såväl offentliga som privata aktörer.

Uppdaterad: 9.11.2023

Varför uppstår snedvridningar?

Orsaken till skadliga snedvridningar är vanligtvis någon av dessa:

Historiska data återspeglar en könsbunden arbetsmarknad eller attityder gentemot minoritetsgrupper. Data beskriver alltid det förflutna. Användningen av data som innehåller långvariga snedvridningar i dagens system gör att livscykeln för samma snedvridningar fortsätter i samhället.
För lite data kan i sig återspegla en börda från historien. Det är helt enkelt så att mycket mer data har samlats in om västvärldens befolkning och i synnerhet om den vita majoritetsbefolkningen än om andra befolkningsgrupper och områden. Lättillgängliga data används i större utsträckning.
Snedvridningar förknippade med insamling och urval uppstår genom inkompetent insamling av datamängder och fel som uppkommit i anslutning till detta. Dessa är vanligtvis ensidighet eller det insamlade materialets dåliga lämplighet för det mål som ställts upp för systemet.
Planeringsfel i skedet för träning av den algoritmiska modellen kan snedvrida processen och tolkningen av data, även om träningsdatan i sig är av hög kvalitet.

Uppdaterad: 9.11.2023

Hur kan man förebygga skador orsakade av snedvridningar?

Man har försökt utveckla allmängiltiga applikationer och tjänster för maskinell, automatisk upptäckt och förhindrande av olägenheter (de-biasing) förknippade med snedvridningar av data, men tills vidare finns det ingen sådan på marknaden. Orsaken till detta är att varje algoritmiskt system är bundet till sitt eget användningsfall.

Upptäckten, hanteringen och förebyggandet av skador måste alltså i praktiken fortfarande ske som mänskligt arbete i varje system.

Man kan bekanta sig med de praktiska tumreglerna för hantering av snedvridningar till exempel i Andrea Gaos artikel Data Bias Identification and Mitigation: Methods and Practice (på engelska)Öppnas i ett nytt fönster..

Uppdaterad: 9.11.2023

Är du nöjd med innehållet på denna sida?

Minneslista