Löftet om “Data för alla” möter oro om kvalité, kvantitet och bias. Susannah Matschke, chef för Data och AI på Sopra Steriaa Next I Storbrittanien, undersöker om syntetiska data kan bli AI:s lösning - eller dess nya problem.
Generativ AI har en omättlig aptit på data. I takt med att modellerna blir större och mer sofistikerade så ökar deras hunger efter träningsdata exponentiellt. Organisationer världen över står därför inför samma utmaning: brist på tillräckligt högkvalitativa och varierade dataset för att mata sina AI-system.
Det är här som syntetiska data kommer in i bilden: artificiellt genererad information som efterliknar verkliga data utan att kompromissa med regler, lagar och individers integritet, eller kräva dyra datainsamlingsprocesser.
Samtidigt som detta kan vara en möjlig lösning på AI:s databristsproblem, väcks frågor om vi egentligen bara byter ett problem mot ett annat. Kan artificiellt genererade data verkligen uppfylla löftet om ”Data för alla”, eller är vi på väg mot det den kanadensiske techkritikern Cory Doctorow kallar en ”koprofagisk AI-kris”, där systemen föder sig själva med sitt eget digitala avfall?
Dagens AI-landskap rymmer en grundläggande paradox. Vi producerar mer data än någonsin tidigare, men att få tillgång till högkvalitativa och representativa data för AI-träning är fortfarande svårt. Integritetslagar, höga kostnader för datainsamling och bristen på ovanliga fall i verkliga dataset skapar flaskhalsar som hämmar AI-utvecklingen.
– Syntetiska data har fått en roll inom AI eftersom enorma datamängder behövs för att träna algoritmer. När det inte finns tillräckligt med data eller när kvaliteten inte räcker för att bygga de modeller man vill ha – då kommer syntetiska data in, förklarar Susannah Matschke.
Denna brist blir särskilt tydlig i reglerade branscher som sjukvård och finans, där datakänslighet gör delning och åtkomst extremt svår.
Föreställ dig ett läkemedelsföretag som arbetar på ett banbrytande läkemedel. Algoritmerna är redo att identifiera lovande substanser, men problemet är att patientdata är starkt begränsad av integritetslagar och dessutom speglar en alltför snäv demografi. Klockan tickar, liv står på spel och traditionell datainsamling kan ta år. Syntetiska data kan här möjliggöra AI-utveckling samtidigt som integritet och regelefterlevnad upprätthålls.
Syntetiska data är mer än en teknisk nödlösning; den förkroppsligar en demokratisk vision för AI-utveckling. Genom att skapa konstgjorda dataset som bevarar statistiska egenskaper men tar bort personliga identifierare, kan organisationer dela värdefulla träningsdata utan integritetsrisker.
– Syntetiska data är fantastisk eftersom den eliminerar risken att använda någons personliga data, säger Matschke.
– Det är en game changer i AI-utveckling, där den största flaskhalsen ofta är tillgången till högkvalitativa och varierade data, särskilt i sektorer där integritetslagar eller kostnader gör datainsamling svår, tillägger hon.
Teknologin är särskilt bra på att modellera ovanliga scenarier som är svåra att hitta i verkliga data. För självkörande bilar kan syntetiska data generera tusentals specialfall, från extremt väder till ovanligt fotgängarbeteende, som vore omöjliga eller farliga att samla in i verkligheten.
Ur ett hållbarhetsperspektiv har syntetiska data också fördelar.
– Att samla in, lagra och bearbeta verkliga data kan vara väldigt energikrävande. Med syntetiska data kan man generera exakt det man behöver, när man behöver det. vilket minskar både beräknings- och lagringskostnader och generellt ger en lägre miljöpåverkan, menar Matschke.
Att skapa syntetiska data kräver noggrann kalibrering för att säkerställa realism och användbarhet.
– Du behöver verkliga data för att förstå hur datan ska se ut, vilka värdeintervall som är rimliga. För ett enkelt exempel som ålder, vill du att den börjar vid noll och går upp till 100–110 år, inte att den genererar åldrar på 200 eller 500 år, förklarar Matschke.
För praktisk användning är det avgörande att förstå dessa gränser och fördelningar.
– Om du tittar på åldrar för kreditkortssökande ligger de oftast mellan 18 och 50 år. Du vill inte generera femåringar som ansöker om kreditkort, tillägger hon.
En ”human-in-the-loop”-metod gör det möjligt att styra processen, sätta begränsningar och undvika bias. Resultatet blir data som både bevarar statistisk integritet och möter specifika träningsbehov.
Trots fördelarna finns betydande risker, precis som Doctorow varnar för. I sin essä ”The Coprophagic AI Crisis” beskriver han ett scenario där AI-modeller allt oftare tränas på data som genererats av andra AI-system, vilket leder till det forskare kallar ”modellkollaps”.
– Det finns en legitim oro för modellkollaps, säger Matschke.
– När man använder en modell för att generera data som ska träna en annan modell skapas en cirkel där fel, begränsningar och bias upprepas och förstärks. Med tiden förlorar man nyanser, precision och mångfald i data.
Forskning visar att ”träna en AI på en annan AI:s output gör den exponentiellt sämre”. Den växande mängden AI-genererat innehåll på internet riskerar att förorena framtida träningsdata med alltmer urvattnad information.
Att hantera dessa risker kräver starka styrningsramar som balanserar innovation och kvalitet.
– Styrning är avgörande i AI, understryker Matschke.
– Organisationer behöver tydlig dokumentation om hur syntetiska data används och genereras, med regelbundna granskningar för att upptäcka bias. Det behövs stark intern kontroll, via etiska kommittéer eller oberoende granskningsorgan.
Lösningen är inte att undvika syntetiska data, utan att använda den med eftertanke.
– Använd syntetiska data som komplement till verkliga data, inte som ersättning. Och träna om modellerna regelbundet med verkliga data, förklarar hon.
I kritiska områden som sjukvård eller transport ska syntetiska data stödja, inte ersätta, verkliga dataset.
– För diagnostiska verktyg inom vården eller självkörande bilar kan även små avvikelser från verkligheten få enorma konsekvenser. Här ska den komplettera, inte ersätta, verkliga data.
Framöver ser syntetisk datas roll i AI-utvecklingen både lovande och komplex ut. Den är ingen fullständig lösning på AI:s dataproblem, men den är ett kraftfullt verktyg inom ett bredare ekosystem för ansvarsfull AI.
– Jag ser inte att detta ersätter verkliga data. Men det kommer att bli en central del av AI-utvecklingen, kanske särskilt tidigt i processen. Vi rör oss mot en hybridmodell där syntetiska data fyller luckor, hanterar ovanliga fall eller situationer med höga integritetskrav, avslutar Matschke.
Nyckeln ligger i att, som Matschke uttrycker det, utöva ”due diligence” vid dataintegration. Att säkerställa att dataset är representativa, fria från bias och etiskt försvarbara. Detta kräver fortsatt samarbete mellan teknologer, etiker och domänexperter för att sätta standarder som förhindrar de ”koprofagiska” scenarier Doctorow varnar för.