How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Translator: Aviaja Josenius Reviewer: Anders Finn Jørgensen Lad mig vise jer noget. (Video) Pige: Ok, det er en kat der sidder i en seng. Drengen klapper elefanten. Det er folk, der går ind i en flymaskine. Det er en stor flymaskine. Fei-Fei Li: Det her er et treårigt barn der beskriver hvad hun ser i en række billeder. Hun har endnu masser at lære om verden men hun er allerede ekspert i en meget vigtig ting: at få mening ud af det hun ser. Vort samfund er mere teknologisk avanceret end nogensinde. Vi sender folk til månen, vi laver telefoner der taler til os eller tilpasser radio stationer der kan spille musik som kun vi kan lide. Alligevel har de mest avancerede maskiner og computere stadig problemer med dette. Jeg er her idag for at give jer en statusrapport på de nyeste fremskridt i forskningen af computer vision en af de mest banebrydende og muligvis revolutionære teknologier i computer videnskab. Ja, vi har prototyper af biler, der er selvkørende men uden intelligent vision kan de ikke se forskel mellem en krøllet pose på vejen, der kan køres over og en sten af samme størrelse, der skal undgås. Vi har lavet fabelagtige megapixel kameraer men vi har ikke givet blinde syn. Droner kan flyve over store landområder men vi har ikke nok vision teknologi til at følge forandringerne i regnskoven. Sikkerhedskameraer er allevegne men de advarer os ikke, når et barn drukner i en svømmepøl. Foto og video er blevet en integreret del af det globale liv. De bliver fremstillet hurtigere end noget menneske eller hold af folk kan nå at se og du og jeg bidrager til det ved denne TED. Vor mest avancerede software kæmper stadig med at forstå og administrere dette enorme indhold. Med andre ord er vi kollektivt som samfund stadig meget blinde, for vor klogeste maskiner er stadig blinde. "Hvorfor er det så svært?" spørger du måske. Kameraer tager billeder som dette ved at konvertere lys til en to-dimensionel række af tal kendt som pixler men de er kun livløse tal. De har ingen mening i sig selv. Ligesom at høre ikke er det samme som at lytte er det at tage billeder ikke det samme som at se og ved at se mener vi at forstå. Faktisk tog det Moder Natur 540 mio. års hårdt arbejde at løse denne opgave og megen af den indsats gik til at udvikle det visuelle apparat i vor hjerner og ikke selve øjnene. Vision starter med øjnene men foregår virkelig i hjernen. I 15 år nu, fra min Ph.D. i Caltech og bagefter da jeg førte Stanford´s Vision Lab, har jeg arbejdet med mine mentorer, kolleger og elever med at lære computere at se. Vort forskningsfelt kaldes computer vision og maskinlærdom. Det er en del af det generelle felt af kunstig intelligens. Vi vil lære maskiner at se ligesom os: identificere objekter, mennesker og udlede 3D geometrien af ting at forstå relationer, følelser handlinger og intentioner. Du og jeg udleder hele historier af folk, steder og ting i det sekund vi kigger på dem. Første skridt mod dette mål er at lære computere at se objekter, byggestenene i den visuelle verden. Enklest sagt, kan du forestille dig denne lærdomsproces som at vise computere nogle træningsbilleder af et bestemt objekt, f.eks. katte og designe en model der lærer af disse træningsbilleder. Hvor svært kan det være? En kat er jo en samling af former og farver, og dét er hvad vi gjorde i starten af objekt modelleringen. Vi fortalte computer algoritmen i et matematisk sprog at en kat har et rundt ansigt, en fyldig krop, to spidse ører og en lang hale og det virkede fint. Men hvad med denne kat? (Latter) Den er helt sammenfoldet. Nu bliver du nødt til at tilføje en ny form og udsigtspunkt til objektet. Men hvad hvis katten er gemt? Hvad med disse fjollede katte? Nu ser I problemet. Selv noget så simpelt som et husdyr kan lave uendelige variationer til objekt modelleringen, og det er kun ét objekt. For omkring otte år siden forandrede en meget simpel og dyb observering min tænkemåde. Ingen fortæller et barn hvordan det ser, særlig i de tidligste år. De lærer dette gennem virkelige erfaringer og eksempler. Hvis man ser et barns øjne som et par biologiske kameraer tager de et billede ca. hver 200 millisekunder, gennemsnitstiden for hver bevægelse i øjnene. Ved tre-årstiden vil et barn have set hundrede mio. billeder af den virkelige verden. Det er mange træningseksempler. Istedet for kun at fokusere på bedre og bedre algoritmer var min indsigt at give algoritmerne den slags træningsdata som et barn får gennem erfaringer både i kvalitet og kvantitet. Når vi ved dette, kan vi begynde at samle et data sæt som har langt flere billeder end vi før har haft, måske tusindvis af gange mere, og sammen med professor Kai Li i Princeton University startede vi ImageNet projektet i 2007. Heldigvis behøvede vi ikke at sætte et kamera på hovedet og vente i mange år. Vi tog på Internettet, den største samling af billeder som mennesket nogensinde har lavet. Vi downloadede næsten en milliard billeder og brugte crowdsource teknologier såsom Amazon Mechanical Turk platformen til at hjælpe med at sortere billederne. På sit højeste var ImageNet en af de største arbejdsgivere af alle Amazon Mechanical Turk ansatte: tilsammen hjalp næsten 50,000 ansatte fra 167 lande rundt omkring i verden os med at rense, sortere og rubricere næsten en milliard kandidat-billeder. Så megen indsats tog det at fange selv en brøkdel af alle de billeder som et barns hjerne bearbejder i de første leveår. Set i bakspejlet er denne idé med at bruge massive data til at træne computer algoritmer måske indlysende, men i 2007 var det ikke så enkelt. Vi var ret alene på denne rejse i et godt stykke tid. Nogle venlige kolleger gav mig det råd at bruge arbejdstiden mere effektivt og vi arbejdede hårdt for at skaffe forskningsmidler. Jeg jokede også med mine kandidatstuderende at jeg ville genåbne mit renseri for at skaffe penge til ImageNet. Det er jo hvordan jeg finansierede mine universitetsår. Så vi fortsatte. I 2009 leverede ImageNet projektet en database på 15 millioner billeder bestående af 22,000 klasser af objekter og ting organiseret af engelske dagligdags-ord. I både kvalitet og kvantitet var dette aldrig set før. F.eks. i eksemplet med katte har vi nu mere end 62,000 katte af alle slags udseender og positioner og af alle racer af både hus- og vilde katte. Vi var utrolig glade for at have sammensat ImageNet, og vi ville, at hele forskningsverdenen ville få gavn af dette, så på ren TED-manér åbnede vi for hele data-sættet gratis til hele forsknings-fællesskabet. (Bifald) Nu, da vi har data til at nære vor computer-hjerne er vi klar til at tage fat på selve algoritmerne. Det viste sig at overfloden af information som ImageNet gav passede perfekt til en særlig klasse af maskinlærings-algoritmer kaldet sammenfoldede neurale netværk, udviklet af Kunihiko Fukushima, Geoff Hinton og Yann LeCun i 1970´erne og 80´erne. Ligesom hjernen består af milliarder af sammenkædede neuroner, er et grundlæggende armatur i et neuralt netværk som en neuron-lignende node. Det tager input fra andre noder og sender output til andre. Disse hundrede tusinder eller endda millioner af noder er organiseret i hierarkiske lag, ligesom i hjernen. I et typisk neuralt netværk vi bruger til at træne vor objekt-genkendelsesmodel, er der 24 millioner knuder, 140 millioner parametre, og 15 milliarder tilslutninger. Det er en enorm model. Drevet af de massive data fra ImageNet, og de moderne CPU´er og GPU´er brugt til at træne en så stor model, begyndte det sammenfoldede neurale netværk at blomstre på en måde ingen forventede. Det blev den førende arkitektur til at genere spændende nye resultater i objekt-genkendelse. Dét her er en computer, der fortæller os at dette billede indeholder en kat og hvor katten er. Der er selvfølgelig andre ting end katte så her er en computer algoritme der fortæller at dette billede indeholder en dreng og en bamse; en hund, en person og en lille drage i baggrunden; eller et billede af meget travle ting som en mand, et skateboard, rækværk, en lygtepæl, og så videre. Sommetider, når computeren ikke er så sikker på hvad den ser, har den lært at være klog nok til at give os et sikkert svar i stedet for at være for skråsikker sig, ligesom vi ville, men som regel er algoritmen utrolig god til at fortælle os præcis hvad objekterne er, som fremstillingen, modellen og årgangen af bilerne. Vi anvendte algoritmerne i mio. af Google Street View billeder i hundreder af amerikanske byer, og vi har lært noget meget interessant: vi fik bekræftet den gængse viden at bilpriser korrelerer meget godt med husholdningsindtægter. Men overraskende nok korrelerer bilpriser godt med kriminalitet i byer, eller stemmemønstre ved postnumre. Vent lidt. Er dét alt? Har computeren allerede nået eller endda overhalet menneskelige evner? Øjeblik. Indtil videre har vi kun lært computeren at se objekter. Det er ligesom et barn, der lærer at udtale nogle få navneord. Det er en utrolig stor udrettelse, men det er kun første skridt. Snart vil en ny udviklingsmæssig milepæl blive nået, og barnet begynder at kommunikere i sætninger. Istedet for at sige at dette er en kat på billedet, har vi allerede hørt pigen sige, at dette er en kat der ligger på en seng. For at lære en computer at se et billede og lave sætninger, må sammenføringen af massive data og maskinlærings-algoritmer tages til et nyt niveau. Nu må computeren lære fra både billeder og naturlige sprog-sætninger fra mennesker. Ligesom hjernen integrerer vision og sprog har vi udviklet en model, der sammenfører dele af visuelle ting, eller visuelle klip, med ord og fraser i sætninger. For fire måneder siden fik vi endelig sammensat alt dette og producerede en af de første computervision modeller der er i stand til at lave en menneskelignende sætning når den ser et billede for første gang. Nu er jeg klar til at vise jer hvad computeren siger, når den ser billedet af hvad den lille pige så i starten af dette foredrag. (Video) Computer: En mand står ved siden af en elefant. Et stort fly står på en landingsbane i en lufthavn. FFL: Selvfølgelig arbejder vi stadig hårdt med at forbedre vor algoritmer, og den har stadig meget at lære. (Bifald) Og computeren laver stadig fejl. (Video) Computer: En kat ligger i et tæppe på en seng. FFL: Så selvfølgelig, når den ser for mange katte, tror den at alt ligner en kat. (Video) Comp.: En lille dreng holder et baseball bat. (Latter) FFL: Eller hvis den ikke har set en tand- børste før, tror den at det er et bat. (Video) Comp.: En mand rider en hest på en vej ved siden af en bygning. (Latter) FFL: Vi har ikke lært computere kunst. (Video) Comp.: En zebra står på en eng. FFL: Og den har ikke lært at værdsætte naturens utrolige skønhed som du og jeg. Så det har været en lang rejse. Det var svært at nå treårsalderen. Udfordringen ligger i at nå 13-årsstadiet og endnu længere frem. Lad mig minde jer om billedet af drengen og kagen igen. Indtil videre har vi lært computere at se objekter eller endda fortælle en simpel historie når den ser et billede. (Video) Computer.: En person sidder ved et bord med en kage. FFL: Men der er så meget mere ved dette billede end kun en person og en kage. Hvad computeren ikke ser, er at dette er en speciel italiensk kage som kun bliver serveret ved påske. Drengen er i sin yndlings t-shirt som hans far gav ham efter en tur til Sydney, og vi kan se hvor glad han er og præcis hvad han tænker i dette øjeblik. Dette er min søn Leo. På min mission for visuel intelligens tænker jeg konstant på Leo og fremtidens verden han vil leve i. Når maskiner kan se vil læger og sygeplejersker have ekstra utrættelige øjne til at hjælpe med at diagnosticere og pleje patienter. Biler vil være klogere og sikrere på vejene. Robotter, ikke kun mennesker, vil hjælpe med at redde sårede mennesker på ulykkessteder. Vi vil opdage nye arter, bedre materialer, og udforske nye territorier ved hjælp af maskiner. Vi lærer maskiner at se med tiden. Først lærer vi dem at se. Så lærer de os at se bedre. For første gang vil menneskelige øjne ikke være de eneste som iagttager og udforsker vor verden. Vi vil ikke blot bruge maskiner for deres intelligens, vi vil også samarbejde med dem på måder vi end ikke kan forestille os. Dette er min mission: at give computere visuel intelligens og at skabe en bedre fremtid for Leo og for verden. Tak skal I have. (Bifald)