Denne testen skal skille mennesker fra datamaskiner, men en ny algoritme skal klare å knekke den i mange tilfeller.  (Bilde: Skjermdump, CAPTCHA.net)
Denne testen skal skille mennesker fra datamaskiner, men en ny algoritme skal klare å knekke den i mange tilfeller. (Bilde: Skjermdump, CAPTCHA.net)

Nytt system tar rotta på testen som skal skille mennesker fra datamaskiner

Du har sikkert opplevd å måtte bekrefte for et nettsted at du ikke er en robot? Et nytt system kan skape trøbbel, tror norsk maskinlærings-forsker.

Publisert

CAPTCHA-testen er nok kjent for alle som har opprettet en konto av noe slag på nettet. Dette er det lille vinduet hvor du må taste inn tall og bokstaver for å bevise at du er et menneske.

CAPTCHA står for “Completely Automated Public Turing test to tell Computers and Humans Apart”.

Tallene og bokstavene er forvridd, så de kan være vanskelige å lese. Men vi mennesker klarer å forstå hvilke bokstaver som står der, mens et dataprogram blir forvirret av fordreiningen.  

De er rett og slett ikke intelligente nok til å kunne utlede hvilken bokstav som ligger bak forstyrrelsene.

Dette systemet er på plass for å forhindre at automatiserte dataprogrammer kan råde fritt på nettet. Et program kunne for eksempel ha laget titusenvis av mailkontoer på Gmail på kort tid. med skumle hensikter.

En automatisert prosess kan også for eksempel spamme ned en meningsmåling på nettet, slik at resultatet blir påvirket. Dette prøver CAPTCHA å forhindre.

Men nå har en forskningsgruppe laget en datamodell som er veldig god på å slå denne testen.

– Hvis noen hadde vært klare til å implementere denne algoritmen, ville nok Gmail fått et problem, sier Bjørn Magnus Mathisen til forskning.no, som er stipendiat ved NTNU og forsker på kunstig intelligens og maskinlæring.

Mye raskere læring

Dette er ikke første gang en CAPTCHA-test blir slått, men det nye systemet er mye mer effektivt enn tidligere. Det er både raskere, og det tar knekken på langt flere tester.

– Sammenlignet med de fleste andre maskinlæringsmetoder, lærer dette systemet fra langt færre eksempler, sier Mathisen.

Nevrale nettverk, som er en type maskinlæring, må ofte fores med ekstremt mange eksempler å lære av før de kan begynne å kjenne igjen mønstre og gjøre en oppgave godt nok. For eksempel det kunstig intelligens-programmet AlphaGo, som spiller brettspillet Go, måtte spille ekstremt mange spill før den ble god selv.

Programmene lærer helt på egenhånd og utvikler egne strategier, men dette krever mye tid, massevis av eksempler og datakraft.

Men det nye programmet har innebyggede egenskaper som gjør det svært effektivt å lære opp, og til å løse nettopp denne oppgaven. Programmet er satt opp for å lett kjenne igjen kontraster og forskjeller på flater og konturer, noe som er helt skreddersydd til å kjenne igjen bokstaver på en bakgrunn.

Deretter er systemet satt opp for å trekke slutninger basert på sannsynligheter. Hvis det kommer fram til at det sannsynligvis er bokstaven «A» som står der, så bestemmer det seg for at det er «A».

Systemet blir trent opp til å gjøre bedre vurderinger med tusenvis av CAPTCHA-bilder.

– Dette er hånddesignet til å ligne litt på de samme prosessene som skjer i vårt synssystem, sier Mathisen til forskning.no.

– De viser at det fungerer å bruke de samme strategiene som menneskehjernen og øyet.

Systemet ble trent opp ved hjelp av mange forskjellige CAPTCHA-bilder, for så å bli satt på prøve. Hvis du vil vite mer om hvordan dette systemet fungerer, kan du se på forskningsartikkelen om systemet, som er publisert i tidsskriftet Science.

Slår testen

Programmet klarte å slå godt over 55 prosent av alle CAPTCHA-testene den ble utsatt for. CAPTCHA skal i utgangspunktet ikke bli slått av datamaskiner i mer enn én prosent av testene, så det ser litt mørkt ut for dagens CAPTCHA-system, mener Mathisen.

– Det blir fort et våpenkappløp hvor de som lager CAPTCHA-testene vil prøve å slå disse systemene.

– Jeg tror dette kan være begynnelsen på en endring i CAPTCHA-bransjen.

Selv om dette programmet er svært god på å løse oppgaver, er det fortsatt ikke i nærheten av hva et menneske klarer, som antagelig kan løse nesten 100 prosent av alle CAPTCHA-tester.

Det å kunne gjenkjenne utydelige symboler høres kanskje enkelt ut, men det er faktisk en svært krevende oppgave, ifølge forskerne. Det krever fleksibel intelligens å kunne tolke det som står der.

Folk bruker en kombinasjon av sunn fornuft, erfaringer, kunnskap og tolkninger på en rask og nøyaktig måte når de forstår bokstavene, og dette er en prosess som er ekstremt vanskelig for maskiner å kunne etterligne.

Referanser:

George mfl: A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs. Science, oktober 2017. DOI: 10.1126/science.aag2612. Sammendrag