Tip:
Highlight text to annotate it
X
Translator: Aviaja Josenius Reviewer: Anders Finn Jørgensen
Lad mig vise jer noget.
(Video) Pige: Ok, det er en kat der sidder i en seng.
Drengen klapper elefanten.
Det er folk, der går ind i en flymaskine.
Det er en stor flymaskine.
Fei-Fei Li: Det her er et treårigt barn
der beskriver hvad hun ser i en række billeder.
Hun har endnu masser at lære om verden
men hun er allerede ekspert i en meget vigtig ting:
at få mening ud af det hun ser.
Vort samfund er mere teknologisk avanceret end nogensinde.
Vi sender folk til månen, vi laver telefoner der taler til os
eller tilpasser radio stationer der kan spille musik som kun vi kan lide.
Alligevel har de mest avancerede maskiner og computere
stadig problemer med dette.
Jeg er her idag for at give jer en statusrapport
på de nyeste fremskridt i forskningen af computer vision
en af de mest banebrydende og muligvis revolutionære
teknologier i computer videnskab.
Ja, vi har prototyper af biler, der er selvkørende
men uden intelligent vision kan de ikke se forskel
mellem en krøllet pose på vejen, der kan køres over
og en sten af samme størrelse, der skal undgås.
Vi har lavet fabelagtige megapixel kameraer
men vi har ikke givet blinde syn.
Droner kan flyve over store landområder
men vi har ikke nok vision teknologi
til at følge forandringerne i regnskoven.
Sikkerhedskameraer er allevegne
men de advarer os ikke, når et barn drukner i en svømmepøl.
Foto og video er blevet en integreret del af det globale liv.
De bliver fremstillet hurtigere end noget menneske
eller hold af folk kan nå at se
og du og jeg bidrager til det ved denne TED.
Vor mest avancerede software kæmper stadig med at forstå
og administrere dette enorme indhold.
Med andre ord er vi kollektivt som samfund
stadig meget blinde,
for vor klogeste maskiner er stadig blinde.
"Hvorfor er det så svært?" spørger du måske.
Kameraer tager billeder som dette
ved at konvertere lys til en to-dimensionel række af tal
kendt som pixler
men de er kun livløse tal.
De har ingen mening i sig selv.
Ligesom at høre ikke er det samme som at lytte
er det at tage billeder ikke det samme som at se
og ved at se mener vi at forstå.
Faktisk tog det Moder Natur 540 mio. års hårdt arbejde
at løse denne opgave
og megen af den indsats
gik til at udvikle det visuelle apparat i vor hjerner
og ikke selve øjnene.
Vision starter med øjnene
men foregår virkelig i hjernen.
I 15 år nu, fra min Ph.D. i Caltech
og bagefter da jeg førte Stanford´s Vision Lab,
har jeg arbejdet med mine mentorer, kolleger og elever
med at lære computere at se.
Vort forskningsfelt kaldes computer vision og maskinlærdom.
Det er en del af det generelle felt af kunstig intelligens.
Vi vil lære maskiner at se ligesom os:
identificere objekter, mennesker og udlede 3D geometrien af ting
at forstå relationer, følelser handlinger og intentioner.
Du og jeg udleder hele historier af folk, steder og ting
i det sekund vi kigger på dem.
Første skridt mod dette mål er at lære computere at se objekter,
byggestenene i den visuelle verden.
Enklest sagt, kan du forestille dig denne lærdomsproces
som at vise computere nogle træningsbilleder
af et bestemt objekt, f.eks. katte
og designe en model der lærer af disse træningsbilleder.
Hvor svært kan det være?
En kat er jo en samling af former og farver,
og dét er hvad vi gjorde i starten af objekt modelleringen.
Vi fortalte computer algoritmen i et matematisk sprog
at en kat har et rundt ansigt, en fyldig krop,
to spidse ører og en lang hale
og det virkede fint.
Men hvad med denne kat?
(Latter)
Den er helt sammenfoldet.
Nu bliver du nødt til at tilføje en ny form og udsigtspunkt til objektet.
Men hvad hvis katten er gemt?
Hvad med disse fjollede katte?
Nu ser I problemet.
Selv noget så simpelt som et husdyr
kan lave uendelige variationer til objekt modelleringen,
og det er kun ét objekt.
For omkring otte år siden
forandrede en meget simpel og dyb observering min tænkemåde.
Ingen fortæller et barn hvordan det ser,
særlig i de tidligste år.
De lærer dette gennem virkelige erfaringer og eksempler.
Hvis man ser et barns øjne
som et par biologiske kameraer
tager de et billede ca. hver 200 millisekunder,
gennemsnitstiden for hver bevægelse i øjnene.
Ved tre-årstiden vil et barn have set hundrede mio. billeder
af den virkelige verden.
Det er mange træningseksempler.
Istedet for kun at fokusere på bedre og bedre algoritmer
var min indsigt at give algoritmerne den slags træningsdata
som et barn får gennem erfaringer
både i kvalitet og kvantitet.
Når vi ved dette,
kan vi begynde at samle et data sæt
som har langt flere billeder end vi før har haft,
måske tusindvis af gange mere,
og sammen med professor Kai Li i Princeton University
startede vi ImageNet projektet i 2007.
Heldigvis behøvede vi ikke at sætte et kamera på hovedet
og vente i mange år.
Vi tog på Internettet,
den største samling af billeder som mennesket nogensinde har lavet.
Vi downloadede næsten en milliard billeder
og brugte crowdsource teknologier såsom Amazon Mechanical Turk platformen
til at hjælpe med at sortere billederne.
På sit højeste var ImageNet en af de største arbejdsgivere
af alle Amazon Mechanical Turk ansatte:
tilsammen hjalp næsten 50,000 ansatte
fra 167 lande rundt omkring i verden
os med at rense, sortere og rubricere
næsten en milliard kandidat-billeder.
Så megen indsats tog det
at fange selv en brøkdel af alle de billeder
som et barns hjerne bearbejder i de første leveår.
Set i bakspejlet er denne idé med at bruge massive data
til at træne computer algoritmer måske indlysende,
men i 2007 var det ikke så enkelt.
Vi var ret alene på denne rejse i et godt stykke tid.
Nogle venlige kolleger gav mig det råd at bruge arbejdstiden mere effektivt
og vi arbejdede hårdt for at skaffe forskningsmidler.
Jeg jokede også med mine kandidatstuderende
at jeg ville genåbne mit renseri for at skaffe penge til ImageNet.
Det er jo hvordan jeg finansierede mine universitetsår.
Så vi fortsatte.
I 2009 leverede ImageNet projektet
en database på 15 millioner billeder
bestående af 22,000 klasser af objekter og ting
organiseret af engelske dagligdags-ord.
I både kvalitet og kvantitet
var dette aldrig set før.
F.eks. i eksemplet med katte
har vi nu mere end 62,000 katte
af alle slags udseender og positioner
og af alle racer af både hus- og vilde katte.
Vi var utrolig glade for at have sammensat ImageNet,
og vi ville, at hele forskningsverdenen ville få gavn af dette,
så på ren TED-manér åbnede vi for hele data-sættet
gratis til hele forsknings-fællesskabet.
(Bifald)
Nu, da vi har data til at nære vor computer-hjerne
er vi klar til at tage fat på selve algoritmerne.
Det viste sig at overfloden af information som ImageNet gav
passede perfekt til en særlig klasse af maskinlærings-algoritmer
kaldet sammenfoldede neurale netværk,
udviklet af Kunihiko Fukushima, Geoff Hinton og Yann LeCun
i 1970´erne og 80´erne.
Ligesom hjernen består af milliarder af sammenkædede neuroner,
er et grundlæggende armatur i et neuralt netværk
som en neuron-lignende node.
Det tager input fra andre noder
og sender output til andre.
Disse hundrede tusinder eller endda millioner af noder
er organiseret i hierarkiske lag,
ligesom i hjernen.
I et typisk neuralt netværk vi bruger til at træne vor objekt-genkendelsesmodel,
er der 24 millioner knuder,
140 millioner parametre,
og 15 milliarder tilslutninger.
Det er en enorm model.
Drevet af de massive data fra ImageNet,
og de moderne CPU´er og GPU´er brugt til at træne en så stor model,
begyndte det sammenfoldede neurale netværk
at blomstre på en måde ingen forventede.
Det blev den førende arkitektur
til at genere spændende nye resultater i objekt-genkendelse.
Dét her er en computer, der fortæller os
at dette billede indeholder en kat
og hvor katten er.
Der er selvfølgelig andre ting end katte
så her er en computer algoritme der fortæller
at dette billede indeholder en dreng og en bamse;
en hund, en person og en lille drage i baggrunden;
eller et billede af meget travle ting
som en mand, et skateboard, rækværk, en lygtepæl, og så videre.
Sommetider, når computeren ikke er så sikker på hvad den ser,
har den lært at være klog nok
til at give os et sikkert svar i stedet for at være for skråsikker sig,
ligesom vi ville,
men som regel er algoritmen utrolig god til at fortælle os
præcis hvad objekterne er,
som fremstillingen, modellen og årgangen af bilerne.
Vi anvendte algoritmerne i mio. af Google Street View billeder
i hundreder af amerikanske byer,
og vi har lært noget meget interessant:
vi fik bekræftet den gængse viden
at bilpriser korrelerer meget godt
med husholdningsindtægter.
Men overraskende nok korrelerer bilpriser godt
med kriminalitet i byer,
eller stemmemønstre ved postnumre.
Vent lidt. Er dét alt?
Har computeren allerede nået eller endda overhalet menneskelige evner?
Øjeblik.
Indtil videre har vi kun lært computeren at se objekter.
Det er ligesom et barn, der lærer at udtale nogle få navneord.
Det er en utrolig stor udrettelse,
men det er kun første skridt.
Snart vil en ny udviklingsmæssig milepæl blive nået,
og barnet begynder at kommunikere i sætninger.
Istedet for at sige at dette er en kat på billedet,
har vi allerede hørt pigen sige, at dette er en kat der ligger på en seng.
For at lære en computer at se et billede og lave sætninger,
må sammenføringen af massive data og maskinlærings-algoritmer
tages til et nyt niveau.
Nu må computeren lære fra både billeder
og naturlige sprog-sætninger
fra mennesker.
Ligesom hjernen integrerer vision og sprog
har vi udviklet en model, der sammenfører dele af visuelle ting,
eller visuelle klip,
med ord og fraser i sætninger.
For fire måneder siden
fik vi endelig sammensat alt dette
og producerede en af de første computervision modeller
der er i stand til at lave en menneskelignende sætning
når den ser et billede for første gang.
Nu er jeg klar til at vise jer hvad computeren siger,
når den ser billedet af
hvad den lille pige så i starten af dette foredrag.
(Video) Computer: En mand står ved siden af en elefant.
Et stort fly står på en landingsbane i en lufthavn.
FFL: Selvfølgelig arbejder vi stadig hårdt med at forbedre vor algoritmer,
og den har stadig meget at lære.
(Bifald)
Og computeren laver stadig fejl.
(Video) Computer: En kat ligger i et tæppe på en seng.
FFL: Så selvfølgelig, når den ser for mange katte,
tror den at alt ligner en kat.
(Video) Comp.: En lille dreng holder et baseball bat.
(Latter)
FFL: Eller hvis den ikke har set en tand- børste før, tror den at det er et bat.
(Video) Comp.: En mand rider en hest på en vej ved siden af en bygning.
(Latter)
FFL: Vi har ikke lært computere kunst.
(Video) Comp.: En zebra står på en eng.
FFL: Og den har ikke lært at værdsætte naturens utrolige skønhed
som du og jeg.
Så det har været en lang rejse.
Det var svært at nå treårsalderen.
Udfordringen ligger i at nå 13-årsstadiet og endnu længere frem.
Lad mig minde jer om billedet af drengen og kagen igen.
Indtil videre har vi lært computere at se objekter
eller endda fortælle en simpel historie når den ser et billede.
(Video) Computer.: En person sidder ved et bord med en kage.
FFL: Men der er så meget mere ved dette billede
end kun en person og en kage.
Hvad computeren ikke ser, er at dette er en speciel italiensk kage
som kun bliver serveret ved påske.
Drengen er i sin yndlings t-shirt
som hans far gav ham efter en tur til Sydney,
og vi kan se hvor glad han er
og præcis hvad han tænker i dette øjeblik.
Dette er min søn Leo.
På min mission for visuel intelligens
tænker jeg konstant på Leo
og fremtidens verden han vil leve i.
Når maskiner kan se
vil læger og sygeplejersker have ekstra utrættelige øjne
til at hjælpe med at diagnosticere og pleje patienter.
Biler vil være klogere og sikrere på vejene.
Robotter, ikke kun mennesker,
vil hjælpe med at redde sårede mennesker på ulykkessteder.
Vi vil opdage nye arter, bedre materialer,
og udforske nye territorier ved hjælp af maskiner.
Vi lærer maskiner at se med tiden.
Først lærer vi dem at se.
Så lærer de os at se bedre.
For første gang vil menneskelige øjne ikke være de eneste
som iagttager og udforsker vor verden.
Vi vil ikke blot bruge maskiner for deres intelligens,
vi vil også samarbejde med dem på måder vi end ikke kan forestille os.
Dette er min mission:
at give computere visuel intelligens
og at skabe en bedre fremtid for Leo og for verden.
Tak skal I have.
(Bifald)