Medien Kunst Netz | Mapping und Text

GIFT; GNU Image Finding Tool (Viper), 2000

Die Zahl der elektronischen Dokumente wächst jeden Tag beständig und exponentiell an. Erst vor Kurzem war zu lesen, dass weltweit im Jahr 2002 ca. 5 Billionen Gigabytes Datenmaterial generiert wurden (die auf diese Weise gegenwärtig den Speicherplatz auf 50 Millionen herkömmlicher Festplattenlaufwerke einnehmen). Ein Teil dieses riesigen Datenaufkommens besteht aus dem Austausch von Texten (wie E-Mails). Diese Datenmenge kann demzufolge auf einem semantischen Level mit Hilfe von Techniken verwaltet werden, die sich mit der Suche nach Textinformationen vergleichen lassen – wie sie z. B. bei Google erfolgreich angewandt werden. Allerdings besteht ein Großteil des Datenmaterials aus Bild- und Multimediadaten wie Bildern und Videos.

Was diese visuellen Dokumente betrifft, so kann das Verwalten der Daten nicht automatisch mit der größten Genauigkeit durchgeführt werden. Der Grund dafür ist die allgemein bekannte semantic gap (Semantische Lücke), mit der man den Unterschied zwischen Mensch und Maschine bei der Wahrnehmung von visuellen Inhalten bezeichnet. Trotz jahrzehntelanger Forschungsarbeit ist dieautomatisierte Bild- (und Video-) Analyse immer noch viel zu unwirksam, als dass sie einen Menschen zuverlässig bei der Bewältigung der Datenverwaltung ersetzen könnte. Auf lokaler Ebene gehen wir in unserer VIPER-Forschungsgruppe verschiedenen Forschungsansätzen nach, um zu komplementären Lösungen des Problem zu kommen, semantisch sinnvolle Interpretationen von visuellen Inhalten abzuleiten. Unsere erste Forschungsarbeit im Bereich des inhaltsbasierten Suchens in Bilddatenbanken, »GIFT« [GIFT], hat dazu geführt, dass wir kommentierte Bilddatenbanken in Erwägung gezogen haben. Das Problem der Anmerkungen ist an sich alles andere als unbedeutend: Wir beschäftigen uns damit, wie man unbeweglichen Bildern erläuternde Texte zuordnen kann (Annotation). Dieses Verfahren hat mit der Semantic-Web-Initiative (SEMWEB) vieles gemeinsam. Wir befassen uns zudem damit, wie man Textbausteine automatisch (mit Hilfe von Lern-Maschinen) aus visuellen Inhalten [1] extrahieren kann, und legen unsere Fortschritte im Bereich der Visualisierung von Multimediadaten dar.

In unserem Kontext geht es darum, die Verwaltung

von Datenbanken so umfassend wie möglich zu automatisieren, auch wenn die Anwesenheit eines menschlichen Anwenders immer noch unerlässlich ist, um ein ausreichendes Maß an Leistungsfähigkeit und Genauigkeit zu erreichen. Das einfache Beispiel eines privaten Users, der die eigene digitale Foto- und Video- Datenbank verwaltet, zeigt allein schon, dass man eine ganze Reihe von Tools braucht, um effektiv den Überblick über die digitalen Inhalte behalten zu können. Inhaltsbasierte Tools bieten Lösungen für derartige Probleme. Ihr Ziel ist es, die Dokumentensuche und –abfrage zu erleichtern, indem sie sich allein auf die automatisierte Analyse und Merkmalsgewichtung der visuellen Inhalte konzentrieren. Während sie bei der Durchführung von Suchabfragen durchaus Erfolge vorweisen können, stellt dies nur eine Teillösung des Problems der Datenverwaltung dar. Es kann mitunter vorkommen, dass das Problem gar nicht einmal so sehr darin besteht, in einer Datenbank etwas finden zu können, sondern darin, dass die Datenbank selber genauer untersucht werden muss.

In diesem Fall betrachten wir die Verwaltung vonvisuellen Multimedia-Informationen in einem Kontext, der »ohne Suchanfrage« auskommt. Der User ist mit einer (großen) Anzahl an Multimedia-Daten konfrontiert. Die Tools sollen dem User dabei behilflich sein, auf effektive Art und Weise einen umfassenden Überblick über den Inhalt dieser Datenbanken zu bekommen. Das zugrundeliegende System ist ein einfaches Bildbetrachtungs-System, das die einzelnen Objekte in einer zufälligen Reihenfolge abbildet. Während dies eine rein technische Herausforderung zu sein scheint, beinhaltet die Entwicklung dieses Systems die Einbeziehung der menschlichen Wahrnehmung, was zu Problemen führt, für die analytische Lösungen nicht so einfach zu finden sind.

Von dem Kontext ausgehend, in dem diese Art von Tools entwickelt werden sollten, betrachten wir zunächst einmal diejenigen, die uns bereits zu Verfügung stehen, um unser Ziel zu erreichen. Anschließend bauen wir sie in einen gemeinsamen Kontext ein. Dies führt uns unmittelbar zum Konzept des »Collection Guiding« [CGUIDE] (»Führung durch die Datenbank«), bei dem der User zu einer Reise durch den Multimedia-Raum aufbricht, der automatisch

generiert wird, wenn man modernste Techniken für die automatisierte Analyse von visuellen Daten verwendet. Unser Ansatz räumt dem User den zentralen Platz im System ein und rückt damit von der Forderung ab, dass die Interaktion zwischen Mensch und Computer im Mittelpunkt stehen sollte.

Menschliche Wahrnehmung von visuellen Multimedia-Daten

Studien belegen, dass sich ein Mensch mit nicht mehr als 1000 Fotos gleichzeitig beschäftigen kann (dies hängt sicherlich von der Verschiedenheit der Objekte und von der Aufgabe ab). Heutzutage können Foto-Kameras einige Hundert Fotos speichern. Das bekannte GIMP Savvy- Archiv mit frei zugänglichen Fotos enthält ca. 27.000 Bilder, und Google führt über 425 Millionen Bilder auf, die man über das Internet aufrufen kann (Stand: Februar 2004). Ein kommerzieller Bilderdienst wie Corbis sollte in der Lage sein, einen Bestand von mehr als einer Million Objekte zu verwalten, um wettbewerbsfähig bleiben zu können.

Im letzteren Fall ist es wichtig, dass keine ›Grauzone‹ entsteht. Mit anderen Worten: DerDatenbank-Verwalter sollte zu jedem Objekt in der Datenbank einen ungehinderten Zugang gewähren. Daraus ergibt sich in zweifacher Hinsicht ein Problem: Der Verwalter sollte zunächst einmal wissen, dass ein Bild eines bestimmten Typus existiert. Außerdem sollte er wissen, wie er eine Anfrage an das System formuliert, um dieses Bild zu suchen. Während inhaltsbasierte visuelle Indizierungs-Tools, die im nächsten Kapitel behandelt werden, vielleicht den zweiten Teil des Problems lösen können, ist ebenso wichtig, den genauen Überblick über den visuellen Bestand zu behalten. Um diesen Teil des Problems zu lösen, kann man – wie am Ende dieses Textes beschrieben wird – auf interessante visuelle Eigenschaften und Merkmale zurückgreifen, die über die technischen Einzelheiten der Entwicklung eines solchen Systems hinausgehen.

Die Suche nach visuellen Multimedia-Dokumenten

Die meisten herkömmlichen Multimedia-Informations-Management-Systeme basieren heutzutage auf einer Suchabfrage. Das heißt, sie verlassen sich hauptsächlich auf die Annahme, dass der

User nach etwas sucht und in etwa weiß, wonach er/sie sucht. Diese Methode kann zum Konzept der Suchabfrage durch die Eingabe eines Beispiels weiterentwickelt werden, bei dem der User in der Lage ist, ein Beispiel dessen zu produzieren, wonach er/sie sucht. Das Browsen ist ein weiteres Konzept im Hinblick auf die Suche nach Informationen. Es geht davon aus, dass der User die Definition eines bestimmten Ziels parat hat. Bei beiden Konzepten sollte der User in der Lage sein, eine Suchanfrage für die von ihm benötigte Information generieren zu können. Gemäß dem bekannte Zitat, dass »ein Bild mehr wert ist als tausend Worte«, will das Queryby- Visual-Example (QBE)-Paradigma [Suchanfrage mit Hilfe eines visuellen Beispiels] die mühsame und ungenaue textliche Beschreibung des gesuchten Objekts vermeiden. Wenn man nach einem Bild sucht, wird der User eines solchen QBE-Systems gebeten, eins oder mehrere Positiv- bzw. Negativ-Bilder für das System zu generieren, um die gewünschten Merkmale zum Ausdruck zu bringen. Das zugrunde liegende Ziel besteht eindeutig darin, die semantischen Elemente des Inhalts zu definieren, um auf diese Art und Weiseeinen möglichst genauen Grad der Suchabfrage zu erreichen. Allerdings haben sich neuere Studien wieder der Verwendung von relativ einfachen Merkmalen des visuellen Inhalts zugewandt. Die am häufigsten verwendeten Merkmale sind:

• die Farben, die von den Zahlenwerten bzw. von einem Index in einer Palette charakterisiert werden;

• die Struktur, die das durchgängige Muster des vorhandenen visuellen Inhalts abbildet – die mit ihr verbundenen Zahlenwerte können die wichtigsten Orientierungshilfen sein bzw. können zu einem gewissen Maß an Grobkörnigkeit beitragen;

• die Form, mit Hilfe derer der Aufbau von wieder erkennbaren Objekten verschlüsselt wird. Geometrische Werte wie Flächeninhalt und Umfang können hier verwendet werden. Diese Aspekte charakterisieren zwar visuelle Inhalte, aber keine bzw. nur wenige semantische Merkmale. Um zusätzliche visuelle Eigenschaften zu definieren, haben System-Designer sich verstärkt speziellen Klassifikationen zugewandt, wie z. B.

• visuelle Merkmale, die den Hintergrund des Bildes ausmachen, wie z. B. die Landschaft, das Stadtbild oder das Meerespanorama;

• Text, das heißt man sucht nach Text-Hinweisen innerhalb des visuellen Kontextes, um eine bessere Identifizierung zu erreichen.

• menschliche Gesichter, deren Ermittlung auf verlässliche Art und Weise automatisch generiert werden kann und die einen wirkungsvollen Hinweis auf die Klassifikation darstellen.

• Objekt-Detektoren (wie z. B. einen »Auto-Detektor«), die man in einem sehr allgemeinen Setting fein aufeinander abstimmen kann.

Je mehr man allerdings ins Detail geht, desto anfälliger wird die Merkmalsbestimmung für das Auftreten von Irrtümern. Trotz dieser Kritik hat die automatisierte Bild-Analyse zweifellos zu Erfolgen geführt. Die Durchführung von Bildkomprimierungs-Systemen wie z. B. dem JPEGStandard, der einen leistungsfähigen Austauschvon Bildern über das Internet ermöglicht, verlässt sich auf ein oberflächliches Verständnis des Inhalts. Außerdem sind, wie bereits erwähnt, Gesichter und Texte Objekte, die durch automatisierte Systeme erfolgreich verwertet werden können.

In unserem GIFT-System [GIFT] kann das Bild mit Hilfe seiner visuellen Inhalte, die auf Farbe und Struktur basieren, interaktiv gesucht werden. Indem man die Positiv-Bild- und die Negativ-Bild-Beispiele markiert, wird die Suche verfeinert. Die Merkmale werden so herausgefiltert, dass sie mit einem zugrunde liegenden semantischen Konzept übereinstimmen. Während das System seine Aufgabe, Bilder einer bestimmten Kategorie aufzufinden, erfüllt, zeigt eine sorgsame Betrachtung der Ergebnisse, dass unser GIFT-System – selbst gegen Ende der Suche – nicht in der Lage ist, die zugrunde liegenden semantischen Konzepte zum Ausdruck zu bringen. Das bedeutet, dass es immer noch von bestimmten visuellen Beispielen in Verwirrung gebracht werden kann, die mit den gesuchten in keinerlei Beziehung stehen. Dies wäre mit Sicherheit nicht der Fall, wenn man ein textbasiertes System benutzen würde, aber dann würde man eine

vollständige und umfangreiche Kommentierung des Inhaltes benötigen, die bekanntermaßen unpraktisch ist und die wir in diesem Fall zu vermeiden versuchen. Zusammenfassend läst sich Folgendes sagen: Wenn man das System im Bereich der Kunst anwendet, so kann man z. B. ein bestimmtes Gemälde anhand seiner Farbe und seines dazugehörigen Layouts identifizieren, so dass man in der Lage wäre, Kopien dieses speziellen Gemäldes von anderen Gemälden innerhalb einer Bilddatenbank zu unterscheiden. Dies wäre sinnvoll, wenn man z. B. die illegale Verwendung von Abbildungen dieses Gemäldes im Internet aufspüren will. [2] Am anderen Ende der Skala könnte man zudem eine Malerschule anhand der Farbe und der Pinselstriche festmachen. Impressionisten lassen sich auf diese Weise leicht identifizieren. Dieses Vorgehen kann auch dabei behilflich sein, Gemälde schon vorher zu klassifizieren. Allerdings haben automatisierte Systeme große Probleme, mit dem mittleren Bereich des Problems zurecht zu kommen, das heißt mit der automatischen Merkmalsbestimmung eines Gemäldes eines bestimmten Malers. Dies macht zweifelsohne deutlich, wie sehr eine solche Unterscheidung vondem semantischen und kulturellen Hintergrund abhängt.

Eine erste Ableitung des QBE-Paradigmas ist das Konzept der target search (Zielsuche), das dem User Beispiele der Datenbank vorschlägt, von denen aus man bestimmte Richtungen verfolgen kann (im Gegensatz zu zutreffenden bzw. unzutreffenden Objekten). In diesem Fall werden Entscheidungen in Beziehung zueinander gefällt und nicht als absolute relevante Urteile. Man kann daher erwarten, dass z. B. an einem bestimmten Punkt des Suchablaufs einander entgegen gesetzte Farbbilder vorgeschlagen werden, um auf diese Weise die Frage der vorherrschenden Bildfarbe zu verdeutlichen. In gewisser Weise stellt ein solches System dem User nacheinander eine ganze Reihe Fragen, deren Antworten dabei behilflich sind, das Problem der Suche zu lösen. Das zugrunde liegende Ziel der oben erwähnten Zielsuche ist es, ein gesuchtes Bild so schnell wie möglich ausfindig zu machen – am besten gleich auf den ersten Blick. Es besteht daher nicht die Absicht, dem User gezielt den Besuch der kompletten Datenbank vorzuschlagen.

Führung durch die Datenbank

Wir sind allerdings der Meinung, dass diese Führung durch die Datenbank ein nützliches Werkzeug für die Verwaltung einer Datenbank ist. Wir stellen dem oben erwähnten Suchkontext, bei dem der User als Kunde des System fungiert (das heißt er braucht einen Suchdienst) einen neuen Kontext entgegen, bei dem der User als Verwalter des Systems agiert. Wir definieren das Ziel dahingehend, dass Operationen auf dem Datenbank-Level (im Gegensatz zu Operationen auf Dokumenten-Level) durchgeführt werden, wie z. B. das Sortieren, Filtern und Zusammenstellen einer Datenbank.

Das grundlegende Ziel der Entwicklung von »Collection Guiding« [CGUIDE] [Führung durch die Datenbank] besteht darin, ein Werkzeug bereit zu stellen, das es einem (unbefangenen) User erlaubt, den Inhalt einer Bilddatenbank so schnell wie möglich zu erfassen. Unsere Entwicklungen lassen sich mit einfachen Herangehensweisen vergleichen, wie z. B.

• lineare Besuche der Datenbank: die Bilder werden einfach nacheinander in beliebiger Reihenfolge gezeigt (wie in der visuellen Zusammenfassung der Texte im »Media Art Net«);

• Auswahl von Beispielen nach dem Zufallsprinzip: Aus der Bilddatenbank werden Beispiele mit einerhandhabbare Dateigröße ausgesucht und dem User nacheinander gezeigt (wie auf der Startseite von »Media Art Net«). Wir schlagen vor, dass sich unser Werkzeug mit der Fähigkeit der Suchdurchführung beschäftigt:

• Intelligentes Sampling: Teilmengen der Bilddatenbank werden extrahiert, die die Vielfalt der ursprünglichen Datenbank gut wiedergeben;

• organisierte Führungen: für den Besuch der Datenbank wird ein zusammenhängender Weg entwickelt – vergleichbar der Führung durch ein Museum;

• hierarchische Besuche: Die Datenbank ist hierarchisch geordnet, damit auf diese Art und Weise entweder nur die interessanten Bereiche oder aber alle Bereiche interaktiv erkundet werden können. Auch hier trifft die Analogie zu den Räumen und Abteilungen eines Museums zu.

Eine interessante Tatsache besteht darin, dass die grundlegenden visuellen Merkmale in dem oben erwähnten Kontext eindeutig genug definiert sind, um ein ausreichendes organisatorisches Level zu erreichen, das es dem User erlaubt, den Inhalt der Datenbank verfolgen zu können. Die Lösung besteht in

diesem Fall nicht so sehr darin, dass man das Bild (wie zuvor) versteht, sondern dass man die Mannigfaltigkeit der Datenbank begreift. Die oben erwähnten Merkmale der Vielfalt, des Zusammenhangs und des Interesses kann man definieren, indem man unser Low- Level-Merkmals-Set verwendet, zu dem die Merkmale Farbe, Struktur und Form gehören. Der wichtigste Teil in unserem System ist der User. Innerhalb dieses Kontexts liegt das Hauptaugenmerk wieder auf der Kommunikation zwischen Mensch und Maschine, die als ein wichtiger Faktor bei der Entwicklung von auf Semantik basierenden Systemen allgemein anerkannt ist. Es ist nun die Aufgabe der Designer (die z. B. Interfaces entwerfen), entsprechende Transfer-Modelle für Datenbank-Informationen zu entwickeln, die in Form von Entwürfen wie dem oben gezeigten abgebildet werden können.

Schlussfolgerung

Heutzutage sorgen die riesigen Mengen an Multimedia-Daten dafür, dass die Verwendung von automatisierten Tools für die Datenverwaltungzwingend nötig wird. Während sich die Durchführbarkeit dieser Vorgehensweise bei Text-Daten z. B. anhand der Entwicklung von Suchmaschinen wie Google bewährt hat, bleibt das Problem bei visuellen Daten auch weiterhin bestehen.

Jüngste Forschungen und Entwicklungen haben sich auf einen auf Suchabfragen basierenden Kontext konzentriert, der den User als Kunden in dem System betrachtet. Wir schlagen hingegen den Kontext des »Collection Guiding« (Führung durch die Datenbank) vor, der sich als geeigneter für die gegenwärtigen unterschiedlichen Bedürfnisse erwiesen hat und zudem auch flexibler ist, was die Anpassung an die Bedürfnisse der User und an die Modalitäten der Interaktionen angeht.

Weitere Forschungsvorhaben werden sich darauf konzentrieren, die Techniken der Visualisierung von Daten noch weiter zu entwickeln, um auf diese Weise die Entdeckung von nützlichen Strukturen in visuellen Datensätzen zu ermöglichen. Wir gehen davon aus, dass dies zukünftig vor allem bei Video-Dokumenten von großer Wichtigkeit werden wird, bei denen diese

Techniken neue Aspekte von Video-Dokumenten erzeugen werden, indem sie deren starre lineare Zeitstruktur aufbrechen. Dies wird alternative Navigations-Methoden ermöglich, die interessante Merkmale von Video-Dokumenten offenbaren werden.

Dies wird sicherlich Hand in Hand gehen mit der Entwicklung von Human-Computer- Interaction-Techniken (HCI-Techniken), um auf diese Weise die erzielten Fortschritte zu bestätigen. Das Ziel ist (und bleibt auch in Zukunft), ein Feedback zwischen inhaltsbasierten Interpretationstechniken für visuelle Daten und wichtigen Fortschritten in ähnlichen Arbeitsbereichen zu bekommen. Wir wollen das Konzept von voll automatisierten Interpretationssystemen für visuelle Inhalte nicht ganz aufgeben. Vielmehr wollen wir sie praktikabler machen, indem wir die menschliche Interaktion mit einbeziehen, wann immer sie (vorübergehend) benötigt wird.

Übersetzung Uli Nickel