Details

Visual attention using game theory

by Ramström, Ola

Abstract (Summary)
The question “what is on the table?” is normally simple for a human, but difficult for a machine. The problem is that the machine does not know what to search for, as no visual properties of the targets are known. Machine-vision algorithms, in general, need explicit knowledge of visual properties to perform object detection. Moreover, several visual properties must be considered to provide robustness. Such requirements make object detection computationally demanding and hence common algorithms scale poorly with respect to the number of objects and their visual properties. To address these problems a system has been developed that is inspired by findings from experimental psychology. The system is designed to search for objects on a specified place, e.g. things on a table or obstacles on a road. For such tasks many visual properties need to be processed. The presented system distributes the processing of visual properties and integrates only a relevant subset of the processed data. The relevant subset of data is found by forming object hypotheses from homogeneous regions in the scene. Hence the complexity of integrating a large set of visual properties is reduced. This thesis first provides a survey of findings from experimental psychology, which give insight into the strategies used by the human visual system. From this survey it is clear that the processing of visual data is distributed across our visual cortex. Attentional mechanisms cooperate to fuse only a relevant subset of the data. One example of such mechanisms is object formation. The presented system is also inspired by game theory, a field in which distributed computing and cooperation has been studied for quite some time. This thesis provides an overview of game theory and evaluates its applicability to visual attention. The system is evaluated in the context of a tabletop scenario; detecting objects on a table in a natural environment. The evaluation demonstrates that a sparse set of data is indeed enough for object detection when the visual context is known and the scene not too cluttered. iv v Sammanfattning Frågan “vad finns på bordet?” är vanligtvis enkel för en människa men svår för en dator. Problemet för datorn är att den inte vet vad den ska leta efter; den vet inte vilka visuella egenskaper de sökta objekten har. I allmänhet behöver datorseendealgoritmer explicit kunskap om visuella egenskaper för objektdetektion. Dessutom behövs många visuella egenskaper beaktas för att ge robusthet. Sådana krav gör algoritmer för objektdetektion beräkningsintensiva och begränsar deras skalbarhet med avseende på antal objekt och deras visuella egenskaper. Ett system som angriper dessa problem har utvecklats. Systemet är inspirerat av experimentell psykologi och är ämnat att söka efter objekt på ett specificerat ställe; t ex saker på ett bord eller hinder på en väg. Beräkningarna av visuella egenskaper är distribuerade och endast en relevant delmängd av data integreras. Den relevanta delmängden identifieras genom att forma objekthypoteser från homogena ytor i scenen. Därigenom minskas komplexiteten för integrationen av en stor mängd visuella egenskaper. Denna avhandling ger en översikt av rön från experimentell psykologi, vilket ger insikter om strategier som det mänskliga seendet använder. Det är tydligt från översikten att bearbetningen av data distribueras över visuella cortex och att all data inte integreras. Flertalet mekanismer för visuell uppmärksamhet samarbetar för att integrera endast en relevant delmängd av all data. Ett exempel på en sådan mekanism är objektformering. Det presenterade systemet är också inspirerat av spelteori, ett fält som har studerat distribuerade och samarbetande system sedan länge. Denna avhandling ger en överblick över fältet och utvärderar dess användbarhet för visuell uppmärksamhet. Systemet utvärderas i ett bordsscenario; detektera objekt på ett bord i en naturlig miljö. Utvärderingen visar att en liten delmängd data verkligen räcker för att detektera objekt när den visuella miljön är känd och inte för rörig. vi vii
Bibliographical Information:

Advisor:

School:Kungliga Tekniska högskolan

School Location:Sweden

Source Type:Master's Thesis

Keywords:TECHNOLOGY; Information technology; Computer engineering; Datorteknik; Datorteknik

ISBN:91-7283-848-5

Date of Publication:01/01/2004

© 2009 OpenThesis.org. All Rights Reserved.