Objektgjenkjenning

Visuell objektgjenkjenning er å identifisere objektene vi ser, eller persiperer, i det visuelle feltet. Persiperer vi en sylinderlignende form med en hank, gjenkjenners objektet straks som en kopp. Vi identifiserer objekter i verden rundt oss titusentalls ganger hver eneste dag. Til tross for at gjenkjenning av objekter skjer automatisk og krever lite anstrengelse, er det en relativt kompleks prestasjon. Prosessen innebærer å oppfatte et sammensatt sensorisk stimuli, skille objektet fra bakgrunnen, og videre omdanne denne informasjonen slik at den kan tolkes i lys av eksisterende kunnskap. Kognitive evner som hukommelse, oppmerksomhet og bevissthet påvirker vår evne til å gjenkjenne objekter.

Objektkonstans

Objektgjenkjenning avhenger hovedsakelig av formen på stimuli, men andre kjennetegn, som farge og tekstur, kan være til hjelp. Begrepet objektkonstans refererer til vår evne til å gjenkjenne objekter i utallige situasjoner. Den visuelle informasjonen fra objektet (formen) kan variere. Siden både observatøren og objektet kan flytte på seg, oppfatter vi objektet fra ulike synsvinkler. Objektet kan også se annerledes ut avhengig av hvordan det belyses. Videre ser vi ofte objekter sammen med andre ting i synsfeltet, som for eksempel kan dekke til deler av det. Til tross for denne variasjonen i hvordan objektene viser seg for oss, identifiserer vi dem lett.

Teorier om objektgjenkjenning

Det er foreslått flere teorier om objektgjenkjenning. En innflytelsesrik tilnærming er Irving Biedermans (1987)^[1] recognition-by-components teori. Her antas det at objekter består av ulike geometriske komponenter («geons»). Ifølge Biederman er det omtrent 36 ulike geons. På samme måte som bokstavene i alfabetet kan settes sammen til uendelig mange ord, antas det at ulike kombinasjoner av disse grunnformene danner objektene vi kan identifisere. Ifølge teorien definerer vi først hvilke geometriske komponenter vi ser og forholdet mellom disse, deretter sammenligner vi denne informasjonen med representasjoner vi har lagret i minnet. Den objektrepresentasjonen som passer best med informasjonen fra det visuelle objektet avgjør hva vi gjenkjenner. Videre antas det at de ulike geometriske formene identifiseres like raskt og presist uavhengig av hvilken synsvinkel de sees fra. Recognition-by-components er med andre ord synsvinkel-invariant (viewpoint-invariant).

Ifølge andre teoretikere påvirkes objektgjenkjenning av hvilken synsvinkel vi ser objektene fra (viewpoint-dependent theories). Her hevdes det at synsvinkelen har betydning for hastighet og nøyaktighet i identifiseringen. Det antas at lageret med objektrepresentasjoner er en samling der objektene vises fra bestemte synsvinkler, og at identifiseringen er lettere dersom den faktiske synsvinkelen korresponderer med den lagrede synsvinkelen.

Tarr og Bülthoff (1995)^[2] argumenterer for at objektgjenkjenning avhenger av synsvinkel (viewpoint-dependent) i noen situasjoner, men er uavhengig i andre (viewpoint-independent).Når vi skiller mellom enkle kategorier (f.eks. mellom fugler og fisker) er gjenkjenningen uavhengig av synsvinkelen, men skal vi definere noe mer presist innenfor kategorien (f.eks. hvilken type fisk det er) er synsvinkelen viktigere. Andre teoretikere hevder at synsvinkel avhengig og uavhengig informasjon kombineres i objektgjenkjenning.

Hjernemekanismer

Lysbølger fra objektene i synsfeltet vårt går gjennom øyet og treffer reseptorer på netthinnen. Via synsnerven overføres informasjonen fra netthinnen til impulser hjernen kan tolke og forstå. Synsnervene møtes i optic chiasm og herfra sendes informasjonen til primær visuell cortex i bakhodelappen. Videre spres signalene til andre visuelle områder i cortex. Visuell informasjon om objektets form og farge antas å gå via en ventral bane (ventral pathway) til inferotemporal cortex.

Deler av inferotemporal cortex antas å spille en avgjørende rolle i visuell objektgjenkjenning, da studier har vist assosiasjoner mellom neural aktivitet i inferotemporal og persepsjon. Mer spesifikt peker fMRI studier mot at neuroner i inferotemporal cortex kan være spesialiserte og respondere kraftig på en bestemt kategori av objekter (f.eks. ansikt, steder, biler, fugler, sko), men det er også evidens som støtter at andre neuroner er mer tolerante og fyrer tilnærmet likt på objekter uavhengig av orientering, størrelse osv. Bevis som støtter at neuroner har liten toleranse (er spesifikke) kan støtte teorier som hevder at objektgjenkjenning er avhengig av synsvinkel (viewpoint-dependent). På samme måte gir bevis for neuroner med høy toleranse støtte til teorier som argumenterer for at identifisering av objekter er uavhengig av synsvinkel (viewpoint-invariant).

Litteratur

Eysenck, M. W. & Keane, M. T. (2010). Cognitive Psychology: A Student’s Handbook (6th ed.). Psychology Press.
Gazzaniga, M., Ivry, R.B. & Mangun, G. R (2009). Cognitive Neuroscience: The Biology of the Mind (3rd ed). Norton.
Matlin, M.W. (2009). Cognition (7th ed). John Wiley & Sons.

Referanser

^ Biederman, I. (1987). Recognition-by-components: A theory of human image understanding. Psychological Review, 94, 115-147.
^ Tarr, M.J., & Bülthoff, H.H. (1995). Is human object recognition better described by geon structural descriptions or by multiple views? Comment on Biederman and Gerhardstein (1993). Journal of Experimental Psychology: Human Perception & Performance, 21, 1494-1505.

[1] Biederman, I. (1987). Recognition-by-components: A theory of human image understanding. Psychological Review, 94, 115-147.

[2] Tarr, M.J., & Bülthoff, H.H. (1995). Is human object recognition better described by geon structural descriptions or by multiple views? Comment on Biederman and Gerhardstein (1993). Journal of Experimental Psychology: Human Perception & Performance, 21, 1494-1505.

[1]

[2]