Metadaten sind im Prinzip „Daten über andere Daten“. Auf das Web bezogen wird dieser Ausdruck meistens als deskriptive Information über Web Ressourcen (XHTML Dokumente, Bilder, Audio, Videos, PDFs, etc.) verwendet. Für die Beschreibung solcher Metadaten kann man auf eine in den letzten Jahren explosionsartig zugenommene Anzahl von Standards zugreifen.
Diese Standards sind untereinander interoperabel und können zusammen in verschiedenen Konstellationen verwendet werden. Bei vielen davon handelt es sich um semantische Technologien, welche als Wegbereiter vom Informations- zum Wissenszeitalter dienen sollen. Deren Umsetzung hat noch nicht die breite Akzeptanz gefunden.
Nova Spivack beschreibt auch diese Technologien als eine der voraussichtlichen Web3.0 Stützen. Kurzfristiger absehbare Trends mit diesen Werkzeugen sind beispielsweise:
- Vertikale Suchen: Hochspezialisierte Suche in einem klar abgesteckten semantischen Bereich. Die resultierenden Ergebnisse sind von bedeutend höherer Qualität, da man den Kontext des Suchers kennt. Beispiel: Suche nach „Keramik“ bei Google gibt viele Hobbytöpferei-Kurse und –Anleitungen zurück. Für einen Zahnarzt hat dieser Begriff einen ganz anderen Stellenwert und auf ihn fokussierte Suchmaschine wird entsprechende Implantatsergebnisse liefern können.
- Ontologien: Diese beschreiben die Begriffswelt in welcher man sich befindet. Aus dieser Beschreibung lassen sich Aussagen ableiten oder neu erstellen lassen, unabhängig der bestehenden Informationen. Im Zahnarzt (oder –techniker) Beispiel oben könnte die Suche verfeinert werden mit der Angabe ob der Sucher sich für Zirkon, Zirkoniumdioxid oder Aluminiumoxid interessiert (allesamt Hochleistungskeramiken). Diese Information wird in der Begriffswelt als Generalisierung/Spezialisierung abgelegt. Ein weiteres Beispiel ist die Begriffswelt der Familien: Beschreibt die Ontologie die Elternteil-von Beziehung auf einer Instanz kann man daraus die inverse Beziehung Kind-von logisch bestimmen. Darauf basierend die Geschwister-von. Weitere Beziehungen wie Cousin oder Grosseltern-Beziehungen sind dann auch trivial und unabhängig der eigentlich Zuweisung zur Ressource. Beispielfrage: „Gib mir die Titel aller Filme in welchen mindestens ein Geschwisterteil von Alec Baldwin mitspielt“
Durch die per Definition abgesteckte Begriffsdomäne sind Intranets besonders interessant in bezug auf den Einsatz solcher Technologien. Nachfolgend werden ein paar Technologien herausgegriffen und deren Anwendbarkeit auf heutige Lösungen untersucht:
Dublin Core
Der Dublin Core Standard, in seiner einfachsten Form, beschreibt eine Menge (15, um genau zu sein) von Attributen, welche man auf einer HTML Seite im Kopf (als META Tag) ablegt. Dieser Einsatz ist im RFC2731 beschrieben. Dies kann dann beispielsweise so aussehen:
<meta name="DC.Title" content="Technologien für die Definition von Metadaten zu Ressourcen" />
<meta name="DC.Creator" content="Savini, Marco" />
Jedes Meta Tag kann noch ein lang Attribut haben, welches die Sprache des Inhalts beschreibt. Ausserdem ist es möglich, pro Tag noch ein Schema anzugeben um zu definieren, wie der Inhalt interpretiert werden soll. Die folgenden Attribute wurden dabei definiert (detaillierte Beschreibung unter http://dublincore.org/documents/usageguide/elements.shtml):
- DC.Title: Titel des Dokumentes.
- DC.Creator: Ersteller. Zusammen mit dem lang Attribut kann man auch zwischen Plato und Platon unterscheiden. Ausserdem kann die scheme Angabe den Autorenkreis einschränken (z.B. in einem Intranet).
- DC.Subject: Betreff des Dokumentes. Diese Angabe kann einem Schema entsprechen, so dass weitere Informationen daraus abgeleitet werden können (z.B. scheme=“MESH“ um anzugeben, dass es sich um eine medizinische Information handelt, welche dann entsprechend interpretiert werden kann).
- DC.Description: Enthält eine längere Beschreibung des Inhaltes. Kann sprachabhängig sein.
- DC.Publisher: Der Herausgeber der Information.
- DC.Contributor: Weitere Entität, welche an der Ressource mitgewirkt hat.
- DC.Date.*: Das Datum eines Ereignisses im Lebenszyklus der Ressource (möglichst, aber nicht unbedingt, im ISO8601 Format). Das Ereignis wird dahiner geschrieben und kann beispielsweise so aussehen: DC.Date.Created
- DC.Type: Genre oder Kategorie der Ressource
- DC.Format: Format der Ressource, hier ist der Einsatz des IMT Schemas wohl für Web Ressourcen am Sinnvollsten (MIME).
- DC.Identifier: Eindeutiger Schlüssel der Ressource, z.B. mit dem Schema ISBN um ein Buch zu kennzeichnen.
- DC.Source: Quelle der Ressource.
- DC.Language: Sprache der Ressource, z.B. mit dem RFC1766.
- DC.Relation.*: Bezug zu einer anderen Ressource. Beispiel: DC.Relation.IsPartOf
- DC.Coverage: Domäne der Ressource (zum Beispiel geographische Angabe oder Gerichtsstand).
- DC.Rights: Angabe oder Referenz auf Rechtemanagement Text.
Ein Problem der Einbindung von Dublin Core Informationen auf einem HTML Dokument im Web liegt darin, dass nur das HTML Dokument, nicht aber die darin eingebetteten oder referenzierten Bilder/Videos/Audio Dokumente, beschrieben werden (man kann zwar auf binäre Dateien auch Informationen ablegen, aber das ist u.U. ziemlich problematisch fürs Auslesen). Dafür bietet sich dann die Externalisierung in eine RDF Datei an, welche auch besser durch Maschinen interpretiert und ausgewertet werden kann. Dies wird im nächsten Absatz beschrieben.
Resource Description Framework (RDF)
Auch mit dem RDF kann man Eigenschaften von Ressourcen im Web beschreiben und zueinander in Beziehung stellen. Im Prinzip beschreibt man so einen gerichteten Graphen welcher qualifizierte Beziehungen beschreibt.
Dublin Core und RDF ergänzen einander; die DC-Syntax kann in ein RDF Dokument eingebunden werden (als XML Namespace) und so können beliebige Ressourcen mit den gleichen Bezeichnern beschrieben werden. Nachfolgend ein Beispiel aus dem Using Dublin Core Dokument:
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<rdf:Description rdf:about="http://media.example.com/audio/guide.ra">
<dc:creator>Rose Bush</dc:creator>
<dc:title>A Guide to Growing Roses</dc:title>
<dc:description>Describes process for planting and nurturing different kinds of rose bushes.</dc:description>
<dc:date>2001-01-20</dc:date>
</rdf:Description>
</rdf:RDF>
Mikroformate
Es gibt viele Mikroformate, welche auf semantischen Konzepten basieren. Eines der ersten Formate ist z.B. FOAF (Friend of a friend), welche dazu dient, Beziehungen zwischen Personen in sozialen Netzwerken abzubilden. Dieses Format integriert sich wieder, wie Dublin Core, in ein RDF.
Auch hier ist die Vermengung zwischen Dublin Core und FOAF Informationen möglich, um beispielsweise den Titel einer Interessensressource definieren zu können.
Ein weiteres Beispiel eines solchen Mikroformats ist RSS, welches für die Verbreitung von Inhalten überall Verwendung findet.
Empfehlungen
Der Einsatz von semantischen Technologien geht meistens einher mit darauf spezialisierten Produkten, z.B. für eine semantische Suche in einem Intranet. Daher wird empfohlen, in dieser frühen Phase der Technologien, zuerst ein optimales Vorgehen (z.B. externes RDF mit Dublin Core Beschreibungen) mit dem Hersteller oder Lösungsanbieter zu bestimmen.
Gegebenenfalls muss eine Ontologie noch für eine spezielle Domäne erstellt werden. Dieser Aufwand darf auf keinen Fall unterschätzt werden. Auf der anderen Seite ist eine sorgfältige Erstellung auch eine sinnvolle Investition ins Wissensmanagement einer Unternehmung. Sobald man einmal Zehntausende von Dokumenten sauber beschrieben hat, lässt sich mit den oben erwähnten und weiteren Abfragetechnologien das ganze Wissen effizient und sehr dynamisch abfragen, was auf lange Sicht hinaus wohl eines der wichtigsten Assets eines jeden Unternehmens sein kann.