Fremtidens klimaforskning – Hvordan maskinlæring gir nye muligheter

Maskinlæring er en banebrytende teknologi som er nyttig på veldig mange samfunnsområder. På Nansensenteret brukes maskinlæring til økt kunnskap om miljø- og klimatilstanden, og til å utarbeide raskere og mer pålitelige varsler. Seniorforsker Julien Brajard er ekspert på bruken av maskinlæring, og har nylig bidratt til en artikkel publisert i det anerkjente tidsskriftet Nature Reviews Physics. Her ble det presentert en oversikt over bruken av maskinlæring i klimafysikk-forskningen, og perspektivene for utviklingen fremover.

Den enorme mengden data som kommer fra blant annet satellitter, værstasjoner og sensorer verden over, gir klimaforskere store muligheter, men også betydelige utfordringer. Informasjonsmengden kan være vanskelig å håndtere, både i statistiske analyser og ved bruk i kombinasjon med tradisjonelle klimamodeller. Slike modeller er viktige verktøy for å forstå hvordan og hvorfor klimaet utvikler seg, for å beregne fremtidige klimascenarier og for å se på effektene av klimaendringer. Men de har sine begrensninger, særlig når det gjelder å håndtere store datamengder, og å gjengi småskala-prosesser som f.eks. lokale værfenomener og havstrømmer. Maskinlæring er særlig godt egnet til å kompensere for disse begrensningene, og det reduserer beregningskostnadene for å produsere simuleringer betraktelig. Så hva er maskinlæring, enkelt forklart?

Maskinlæring er en spesialisering innen kunstig intelligens hvor man bruker statistiske metoder for å la datamaskiner finne mønstre og sammenhenger i store datamengder. Datamaskinene vil ved hjelp av algoritmer lære av dataene og bli stadig bedre til å oppdage slike sammenhenger – uten at de er eksplisitt programmert til å gjøre det. Slik kan forskere få en bedre forståelse av hvordan klimavariabler som temperatur, nedbør og vind oppfører seg og hvordan de påvirkes av – og selv påvirker – andre deler av klimasystemet. Bruk av store datamengder, kombinert med maskinlæringsalgoritmer, gjør det mulig å studere klimasystemets fysikk med et detaljnivå som tidligere var helt uoppnåelig.

Bruk av maskinlæring bidrar også til raskere analyser og mer effektiv ressursbruk. Tradisjonelle klimamodeller bruker mye datakraft for å produsere framtidsscenarier, mens modeller som benytter maskinlæring vil lære av tidligere simuleringer og presentere resultater på en brøkdel av tiden til tradisjonelle klimamodeller.  I artikkelen «Machine learning for the physics of climate» beskrives problemstillingene rundt dagens og framtidens bruk av maskinlæring i klimafysikk-forskning. Klimaet er et svært komplekst system, og vi er avhengige av pålitelige data og modeller for å studere det. Observasjoner fra ulike sensorer over hele jorden og fra verdensrommet gir oss tilgang til enorme mengder data, men dekningen er aldri helt fullstendig, verken i tid eller rom. Ofte vil data måtte rekonstrueres, det vil si at hull i datasettene fylles, for å kunne gi så nøyaktige og pålitelige simuleringer av klimaet i som mulig. Artikkelforfatterne skisserer både begrensninger og potensielle løsninger for å bruke maskinlæring til å rekonstruere data på ulike måter, og muliggjøre komplette datasett for optimale simuleringer.

Ved siden av datarekonstruksjoner, er parametrisering et felt som drar nytte av maskinlæring. På dette feltet har, mye skjedd de senere årene. Parametrisering i klimamodellering er en metode som brukes for å beregne prosesser som er for raske eller for små i omfang til å kunne simuleres direkte av modellen. Et eksempel er hvordan skyer og nedbør dannes. I stedet for å simulere småskalaprosesser direkte, bruker parametrisering forenklede ligninger eller statistiske sammenhenger basert på observasjoner for å beregne effektene av prosessene på større skala.

Forfatterne av oversiktsartikkelen beskriver fordeler og mangler ved de forskjellige metodene som kan benyttes til å utvikle bedre parametrisering i klimamodeller. I tillegg beskrives på hvilken måte maskinlæring har forbedret varsling av været og klimaet på forskjellige tidshorisonter, fra dager og uker til måneder og år frem i tid.

Fremtidsutsiktene for bruk av maskinlæring kan oppsummeres på følgende måte: Klimaforskning og klimamodellering er i rask utvikling. og maskinlæring har allerede ført til store forbedringer. I framtiden vil forskere kunne levere raskere og mer pålitelige prognoser, ved at de små, raske prosessene blir bedre representert og systematiske feil luket bort.

Nansensenteret er stolt over Brajards bidrag til denne viktige artikkelen. Maskinlæring er et forskningsfelt som det satses sterkt på ved Nansensenteret. Takket være framsynte forskere er vi i front på utvikling og bruk av ny maskinlærings-teknologi for å forstå og løse de store klima- og miljøutfordringene.

Nøkkelforsker: Julien Brajard

Publikasjon

Nature Reviews Physics:

“Machine learning for the physics of climate”

Hva er maskinlæring?

Maskinlæring er en gren innen kunstig intelligens som gjør det mulig for datamaskiner å lære og forbedre seg basert på data uten å være eksplisitt programmert. Slik kan store mengder data analyseres for å finne mønstre, lage prognoser og løse komplekse problemer. Eksempler på bruken er personlige anbefalinger du får strømmetjenester som Netflix og Spotify, ansiktsgjenkjenning på mobiltelefonen og, fortsatt litt mer fjernt fra vår hverdag, selvkjørende biler. Et annet eksempel er bruken av store språkmodeller som er ryggraden i applikasjoner som ChatGPT.

Maskinlæring ved Nansensenteret

Forskere ved Nansensenteret bruker maskinlæring på ulike fagfelt, og samarbeider for å videreutvikle datadrevet miljøvitenskap. Det utvikles stadig teknikker for forbedring av varsling og prognoser, for eksempel på hvor og når skadelige algeoppblomstringer oppstår. Maskinlæring benyttes også til forbedret oppløsning av informasjon om sjøistykkelse som innhentes fra satellitter. I SuperIce-prosjektet kombineres for eksempel en sjøismodell og en kunstig intelligens-basert modell for å omdanne lavoppløselige satellittdata til høyoppløselige data. Slik får vi mer informasjon om sjøistykkels, noe som har stor betydning ved produksjon av sjøisvarsler og klimaprognoser. Mer generelt brukes maskinlæring til å kombinere data og modeller på en mer effektiv måte, noe som gjør det mulig å levere mer nøyaktige og effektive produkter. Et eksempel på dette er det kommende datasettet om tykkelsen på sjøisen som skal legges til i Copernicus’ marine katalog. Dette innovative produktet er et viktig resultat av TARDIS-prosjektet, som er støttet av Norges forskningsråd.