Bestehende Standard-Identifier

von Julia Clasen

Angesichts der wachsenden Menge von online verfügbaren Inhalten wird die Notwendigkeit eines universellen Identifiers immer dringender. Ein Content-Identifier ist ein wesentlicher Faktor, wenn es darum geht, aus Content Wert zu generieren. Ein universeller und automatisch erzeugter Identifier wird die Verwaltung, Distribution, das Tracking und das Lizenzieren von Inhalten erleichtern. Eine kostenlose und quelloffene Lösung für das Erstellen, Verwalten und Integrieren eines solchen Identifiers wird darüber hinaus Zusammenarbeit fördern und Content zwischen verschiedenen Parteien interoperabel machen. Auf diese Weise werden viele Abläufe in allen Bereichen der Content-Industrie drastisch beschleunigt.

Insbesondere im Bereich des Online-Journalismus stellt das Fehlen interoperabler Identifier ein Problem dar. Ohne gemeinsamen Standard gibt es keinen einfachen Weg, Inhalte über die verschiedenen Marktteilnehmer hinweg zu identifizieren und zu verfolgen.

Höhere Effizienz und Geschwindigkeit gewinnen immer größere Bedeutung, da sich alte Geschäftsmodelle wie die Vermarktung von Werbung immer weniger rentieren und die gegenwärtigen Abläufe im Journalismus häufig manuell und demzufolge kostenintensiv sind.

Darüber hinaus ist gewöhnlich mehr als eine Partei an der Produktion, Distribution und den Lizenzierungsabläufen von Inhalten beteiligt, und es ist ohne einen interoperablen Identifier oft schwierig, alle nötigen Schritte nachzuverfolgen und zu verwalten, z. B. die Nutzung von Inhalten zu tracken oder nachzuweisen, was jemand beigetragen hat und wann.

Auf Basis der Stärken und Schwächen existierender Identifier für verschiedene Medienarten werden wir technische und wirtschaftliche Anforderungen an einen neuen universellen Identifier definieren.

Einführung

Gegenwärtig werden etliche Identifier für verschiedene Medienarten verwendet. Jeder dieser Identifier eignet sich üblicherweise nur für einen spezifischen Zweck und lässt sich nicht generisch einsetzen. Darüber hinaus sind die meisten Identifier nicht interoperabel.

Im Folgenden werden verschiedene Content-Identifier aufgelistet und hinsichtlich ihres Anwendungsbereichs untersucht. (Identifier für Personen oder nicht Content-bezogene Instanzen werden in diesem Paper nicht diskutiert, da sie außerhalb des Bereichs der Projektaktivitäten liegen.)

Texte / Bücher und Artikel

ISBN – International Standard Book Number

Gegenstand	Bücher / textbasierte monografische Veröffentlichungen
Details	Eine neue ISBN für jede Ausgabe, jedes Format oder jede Version eines Buches (ausgenommen Nachdrucke)
Ausgeber / Ausgabeprozess:	Nationale ISBN-Agentur vergibt unterschiedlich große ISBN-Blöcke an Verlage. Es besteht keine Pflicht für den Verlag, Metadaten über die zugeordneten Publikationen bereitzustellen.
Standard	ISO 2108
Kosten pro ID:	Variiert je nach ausgebendem Land / Territorium und der Menge der ausgegebenen IDs. Beginnt bei 125,- USD für eine ID, größere Mengen günstiger.
Format	Feste Länge, dreizehn Ziffern, aufgeteilt in: Präfix (3 Stellen) Gruppennummer-Element (1-5 Stellen) Verlagsnummer (bis zu 7 Stellen) Titelnummer (bis zu 6 Stellen) Prüfziffer (1 Stelle)
Umfang / Kapazität	Lässt sich nicht exakt berechnen. Große Gruppennummer-Blöcke wurden zu Beginn vergeben, von denen unklar ist, ob / wie sie genutzt werden.
Interoperabilität	Untergruppe der EAN-13 (seit Anfang der 2000er)

Verlage erhalten ihr eigenes, unterschiedlich langes Präfix (Verlagsnummer) und einen begleitenden Block ISBNs innerhalb der Verlagsnummer von ihrer nationalen ISBN-Agentur. Größere Verlage erhalten ein kürzeres Präfix, da sie eine größere Zahl an ISBNs benötigen. Sobald ein Verlag all seine ISBNs zugewiesen hat, kann er ein neues Präfix / einen neuen ISBN-Block anfordern. Folglich lässt sich ein Buch (theoretisch) anhand dieses Präfixes stets einem konkreten Verlag zuordnen.

Da jede Ausgabe, jedes Format oder jede Version ihre eigene ISBN erhalten muss, können diese von Buchhändlern, Bibliotheken und Lagerhäusern unterschieden werden. Da ein Werk jedoch gewöhnlich mehrere ISBNs hat (z. B. eine ISBN pro Edition), lassen sich Werke und ihre unterschiedlichen Ausprägungen nicht anhand ihrer ISBNs gruppieren.

BICI - Book Item and Component Identifier

Der BICI ist als Erweiterung der ISBN gedacht und stellt eindeutige Identifier für einzelne Teile eines Werkes (z. B. Kapitel) zur Verfügung. Er hat eine vorgegebene Struktur, aber variable Länge. Er soll für Menschen lesbar sein und enthält einen Großteil der Informationen in abgekürzter Form innerhalb des Identifiers. Leider führt diese Praxis zu sehr langen Identifiern, die für Menschen alles andere als lesbar sind. Es gibt einen BICI-Standardentwurf der NISO (United States National Information Standards Organisation) aus dem Jahr 2000, es scheint aber, als sei der Ansatz seitdem nicht weiter verfolgt worden.

ISTC - International Standard Text Code

Gegenstand	Bücher / textbasierte monografische Veröffentlichungen
Details	Identifiziert ein Werk unabhängig von Editionen und Versionen
Ausgeber / Ausgabeprozess	Es muss eine Anfrage an die ISTC Registrierungsagentur gestellt werden
Standard	ISO 21047
Kosten pro ID	Keine Kosten (bis auf Widerruf)
Format	Feste Länge, 16 Zahlen (einige davon Hexadezimal): Registriernummer (3 Stellen) Jahr der Registrierung (4 Stellen in menschenlesbarem Format) Publikation (8 Hexadezimal-Ziffern) Prüfziffer (1 Stelle)
Umfang / Kapazität	ca. 4 Mrd.
Interoperabilität	–

Im Unterschied zur ISBN identifiziert der ISTC ein Werk, nicht eine Version. Er dient auf diese Weise einem anderen Zweck und lässt sich nicht in Lagerverwaltungen oder ähnlichen Kontexten verwenden. Der ISTC und die ISBN sind nicht interoperabel, ergänzen einander jedoch, wenn sie gemeinsam eingesetzt werden.

ISSN - International Standard Serial Number

Gegenstand	Sammelwerke
Details	Identifiziert Sammelwerke und andere fortlaufende Ressourcen im elektronischen wie im Print-Bereich
Ausgeber / Ausgabeprozess	Registrierung bei einem nationalen ISSN-Zentrum
Standard	ISO 3297
Kosten pro ID	kostenlos
Format	feste Länge, 8 Stellen: Code (7 Stellen) Prüfziffer (1 Stelle)
Umfang / Kapazität	~10 Millionen
Interoperabilität	lässt sich in eine EAN überführen

Die ISSN identifiziert laufende Publikationen wie Zeitungen, Zeitschriften, Magazine und andere Periodika. Es identifiziert lediglich eine Reihe und kodiert keinerlei Informationen über die Reihe oder ihren Kontext. Auch identifiziert sie nicht einzelne Ausgaben / Fassungen. Es steht eine zentrale ISSN-Registratur zur Verfügung. Der vollständige Datensatz kann für 19.768 EUR erworben werden.

SICI - Serial Item and Component Identifier

Gegenstand	Artikel in Sammelwerken
Details	Identifiziert einzelne Teile / Artikel eines Sammelwerks unter Angabe der Stelle, an der diese innerhalb derselben zu finden sind
Ausgeber / Ausgabeprozess	Eigenvergabe
Standard	Von NISO ausgegebener Standard
Kosten pro ID	kostenlos
Format	variable Länge, außergewöhnlich lang
Umfang / Kapazität	theoretisch unbegrenzt
Interoperabilität	soll mit DOI kompatibel sein

Der SICI erweitert die ISSN, indem er Informationen über einzelne Artikel eines Sammelwerks bereitstellt. Ein Teil des SICI besteht aus der ISSN, sodass jeder Artikel dem Sammelwerk zugeordnet werden kann, in dem er veröffentlicht ist. Für den Zweck, die ISSN zu präzisieren, ist der SICI hilfreich, seine Struktur ist aber, vergleichbar mit dem BICI, äußerst komplex.

DOI - Digital Object Identifier

Gegenstand	Jegliche Art von Objekt (physisch, digital oder abstrakt)
Details	Identifiziert jegliche Art von Objekt, das verwaltet oder nachverfolgt werden muss. Es existieren keine Regeln hinsichtlich der Zuweisung eines neuen Identifiers für den Fall, dass sich ein identifiziertes Objekt oder dessen Metadaten ändern. Er findet verbreitet Anwendung bei wissenschaftlichen Artikeln.
Ausgeber / Ausgabeprozess	Organisations-Kennungen werden von Registraturen ausgegeben. Der jeweilige DOI-Ausgabeprozess variiert je nach Ausgabeagentur.
Standard	ISO 26324
Kosten pro ID	Variieren je nach Agentur und Dienst (Beispiel mEDRA)
Format	variable Länge, 10.ORGANISATION/ID 10 (stets 10) Organisation (z.B. Verlag) ID für das Objekt
Umfang / Kapazität	unbegrenzt
Interoperabilität	Die übergreifende, generische Gestaltung des DOI-Systems kann andere existierende Identifier-Systeme aufnehmen / integrieren. So handelt es sich zum Beispiel bei der ISBN-A um eine Integration der ISBN in das DOI-System.

Der DOI ist ein generischer Identifier für jegliche Art von Objekt mit beliebiger Detailgenauigkeit, also z. B. ein Buch, eine Seite in einem Buch, ein Satz in einem Buch. Ein DOI soll permanent sein und sich in veränderliche Information über das identifizierte Objekt „auflösen“ lassen.

Audio / Musik

ISWC - International Standard Music Work Code

Gegenstand	Musikalische Werke
Details	Identifiziert musikalische Werke, nicht jedoch spezifische Aufnahmen oder Notationen
Ausgeber / Ausgabeprozess	Örtliche Organisationen geben ISWCs aus (z. B. in Deutschland GEMA)
Standard	ISO 15707
Kosten pro ID	kostenlos
Format	feste Länge, 11 Stellen: Präfix (1 Stelle, stets „T“) Code (9 Stellen) Prüfziffer (1 Stelle)
Umfang / Kapazität	1 Milliarde
Interoperabilität	–

ISMN - International Standard Music Number

Gegenstand	Musik
Details	Identifiziert musikalische Notationen (digital und Print)
Ausgeber / Ausgabeprozess	Durch nationale Agenturen ausgegeben
Standard	ISO 10957
Kosten pro ID	variieren
Format	feste Länge, 13 Stellen Präfix (4 Stellen, stets 979-0) Verlag (3 bis 7 Stellen) Publikation (1 bis 5 Stellen) Prüfziffer (1 Stelle)
Umfang / Kapazität	lässt sich nicht berechnen
Interoperabilität	gleiches Format wie ISBN -> lässt sich als EAN verwenden

ISRC - International Standard Recording Code

Gegenstand	Musik
Details	Identifiziert musikalische Aufnahmen für die Lizenzierung
Ausgeber / Ausgabeprozess	IDs lassen sich online bestellen
Standard	ISO 3901
Kosten pro ID	beginnen bei etwa 50,- EUR für eine ID, größere Mengen sind günstiger
Format	feste Länge, 12 Stellen: Ländercode (2 Buchstaben) Verlagscode (3 Stellen) Jahr (2 Stellen) Code (5 Stellen, ansteigende Zahl)
Umfang / Kapazität	bis zu 100 Millionen
Interoperabilität	EAN für CDs usw. können über ISRCs bestellt werden

Alle drei Identifier dienen geringfügig unterschiedlichen Zwecken, da sie aber nicht interoperabel sind, scheint eine Unterscheidung zwischen ihnen etwas kompliziert und verwirrend. Effektiver wäre vermutlich, wenn es einen Identifier für musikalische Werke gäbe, der sich so erweitern lässt, dass er eine einzelne Notation oder Aufnahme darstellen kann.

Videos

ISAN - International Standard Audiovisual Number

Gegenstand	Audiovisueller Content (z. B. Videos)
Details	Die in der ID enthaltene Information bezieht sich nur auf den Inhalt, nicht auf den Herausgeber
Ausgeber / Ausgabeprozess	Durch örtliche ISAN-Agenturen vergeben, es scheint eine offline-Registrierung notwendig zu sein
Standard	ISO 15706
Kosten pro ID	variieren (16 EUR in Deutschland)
Format	feste Länge, 12 Stellen (gewöhnlich hexadezimal): Root (48 Bits) Part (16 Bits) Version (32 Bits)
Umfang / Kapazität	etwa 30 Billionen + unterschiedliche Versionen und Episoden
Interoperabilität	–

YouTube Content-ID

Die Youtube Content-ID ermöglicht Rechteinhabern, ihren Content in Youtube-Videos aufzufinden. Copyright-Inhaber können ihren Content in die Content-ID-Datenbank hochladen, worauf hochgeladene Videos mit diesem verglichen werden. Wurde eine Copyright-Verletzung entdeckt, kann der Rechteinhaber entscheiden, ob er das Video blockieren oder Werbung platzieren will, um Erlöse aus dem Video zu generieren. Die Content-ID ist proprietär und lässt sich daher nicht verwenden, um Copyright-Verletzungen außerhalb von Youtube zu erkennen.

Stärken und Schwächen existierender Identifier

Datenbankstruktur

Die Notwendigkeit einer zentralen Agentur, die die Datenbanken führt und Identifier ausgibt, scheint eines der Hauptprobleme fast sämtlicher bestehenden Identifier zu sein. Zwar behaupten einige Agenturen, Identifier sehr rasch auszustellen, doch es dauert gewöhnlich mindestens einige Stunden, einen Identifier auszustellen, von der Zeit, die benötigt wird, um die Daten, die die Agentur benötigt, zusammenzustellen und bereitzustellen, ganz zu schweigen. Überdies verlangen die meisten Agenturen Gebühren für das Ausstellen einer ID.

Für Verlage, die pro Jahr nur einige hundert IDs benötigen, funktioniert dies gut, doch wenn wie im Online-Journalismus täglich eine große Anzahl von Inhalten erzeugt werden, sollte der Prozess der ID-Erzeugung kostenlos und automatisiert sein.

An diesem Punkt zeigt sich ein weiteres Problem mit Agenturen. Besonders wenn es um große Datenmengen geht, ist der Unterhalt von Servern sehr kostspielig, sodass die Betreiber gezwungen sind, Gebühren zu verlangen.

Dennoch ist es wichtig, eine weltweite Datenbank und einen universellen Identifier für alle Arten digitaler Inhalte zu haben, um in der Lage zu sein, Inhalte global zu identifizieren, nicht nur innerhalb eines Unternehmens oder einer gewissen Region. Über einen universellen Identifier zu verfügen, vereinfacht den Austausch von Inhalten zwischen verschiedenen Unternehmen. Eine wartungsfreie globale Datenbank ließe sich erreichen, indem Identifier in einer dezentralisierten Blockchain gespeichert werden. Auf diese Weise wäre die Datenbank stets für jedermann verfügbar, um Identifier hinzuzufügen oder auszulesen. Identifier, die der Blockchain einmal hinzugefügt wurden, können nicht verändert werden, was bedeutet, dass niemand in der Lage wäre, die Daten zu manipulieren.

Identifier-Struktur

Was die Struktur von Identifiern betrifft, lassen sich zwei grundlegende Arten unterscheiden: Der erste grundlegende Typ ist gewöhnlich eine aufsteigende Zahl, die manchmal um eine Prüfziffer ergänzt wird. Der Identifier selbst besitzt keine interne Struktur und dient nur als Primärschlüssel in Datenbanken. Um einen Identifier auszugeben, muss eine verbindliche globale Datenbank abgefragt werden. Auf diese Weise erhält der Empfänger einen Identifier, der nicht bereits vergeben worden ist. Der zweite grundlegende Typ ist eine Nummer, die sich in unterschiedliche Teile gliedert, die es ermöglichen, unterschiedliche IDs zu gruppieren, z. B. über den gleichen Präfix. Beispiele hierfür sind die ISBN und der SICI. Die ISBN hat ein recht grobes Auflösungsvermögen und unterscheidet nur zwischen der Region, dem Verlag und der Publikation, während der SICI ein sehr hohes Auflösungsvermögen hat, sodass sogar die Seite, auf der der Artikel veröffentlicht ist, ihre eigene Entsprechung innerhalb der ID hat. Grundsätzlich ist ein hohes Auflösungsvermögen nützlich, da sich auf diese Weise viele Informationen direkt aus der ID ablesen lassen, doch dies lässt sich nur auf eine eng begrenzte Art von Inhalten anwenden.

Da die auf der Blockchain gespeicherte Datenmenge so klein wie möglich gehalten werden sollte, ist es wichtig, dass der Identifier in sinnvolle Abschnitte aufgeteilt wird, die allgemein genug sind, um auf viele verschiedene Content-Arten angewendet werden zu können (gut: Verlag, Edition …; schlecht: Seite, Länge …).

Auch wenn einige IDs zwischen verschiedenen Elementen unterscheiden, dienen diese Elemente doch gewöhnlich als Primärschlüssel wie beim ersten Identifier-Typ. Folglich wird in diesen Fällen noch immer eine zentrale Datenbank benötigt, die zusätzliche Informationen über die Inhalte bereitstellt und die Abfrage ermöglicht, ob ein Element bereits zugewiesen ist.

Um einen neuen Identifier zu erzeugen, sollte es nicht notwendig sein, einen zentralen Dienst zu kontaktieren, um eine noch nicht vergebene ID zu beziehen. Es sollte möglich sein, neue und eindeutige Identifier, die vom Inhalt abgeleitet sind, selbst zu erzeugen. Dies lässt sich erreichen, indem Identifier aus Hash-Werten erzeugt werden. Kryptografische Hash-Funktionen sind dahingehend optimiert, einen eindeutigen Hash-Wert zu erzeugen, der eine geringe Kollisionswahrscheinlichkeit aufweist. Dies bedeutet, dass Eingaben, die sich nur auf sehr geringe Weise unterscheiden, gänzlich unterschiedliche Hash-Werte erzeugen. Locality Sensitive Hashing– (LSH) Funktionen erzeugen ähnliche Hashes aus ähnlichen Eingaben. Für einen eindeutigen, aber vergleichbaren Identifier ist es zweckmäßig, sich einer Mischung aus beiden Typen von Hash-Funktionen zu bedienen: Für grundlegende Metadaten und den eigentlichen Inhalt ließen sich LSH-Funktionen verwenden, und Ähnlichkeiten sollten feststellbar sein, um entweder ähnliche Inhalte zu gruppieren oder mögliche Copyright-Verstöße zu erkennen. Dennoch sollte selbst ein ähnlicher Inhalt eindeutig identifiziert werden. Folglich sollte mindestens ein Element der ID mittels einer kryptografischen Hash-Funktion erzeugt werden.

Setzt sich der Identifier aus den Resultaten mehrerer verschiedener Hash-Funktionen zusammen, verweist der gleiche Inhalt stets auf den gleichen Identifier. Der Identifier selbst verrät nichts über den Inhalt, sofern er nicht mit anderen Identifiern verglichen wird, doch die Richtigkeit des Identifiers lässt sich überprüfen, indem anhand des ursprünglichen Inhalts erneut ein Hash-Wert errechnet wird. Dies bedeutet, dass die Content-Identifier öffentlich nachverfolgt und vom eigentlichen Inhalt getrennt werden können, wobei die Überprüfbarkeit weiterhin gegeben bleibt. Jeder kann den Inhalt mit der ID vergleichen und prüfen, ob es Ähnlichkeiten gibt. Woraus diese Ähnlichkeiten aber genau bestehen, lässt sich nur herausfinden, indem die Rohinhalte verglichen werden, z. B. von einem Rechteinhaber eines Musikvideos, der auf ein Video mit einer ähnlichen ID gestoßen ist. Durch Veröffentlichung des Identifiers über eine Blockchain erstellt der Eigentümer des Inhalts außerdem einen Hinweis, dass er oder sie der Erste im Besitz dieses Inhalts war.

Schlussfolgerung

Die bestehenden Identifier sind gut geeignet für die Zwecke, denen sie dienen, weisen aber gewisse Beschränkungen auf. Das Hauptproblem ist, dass sich diese Identifier nur in einem sehr kleinen Bereich einsetzen lassen, entweder aufgrund ihrer Struktur, oder weil es sich bei ihnen nicht um einen offenen Standard handelt, oder weil sie für die gewaltige Menge an existierenden Inhalten einfach zu kostspielig sind. Es besteht Bedarf für einen neuen Identifier, der sich auf verschiedene Arten digitaler Inhalte anwenden lässt. Es sollte möglich sein, solche Identifier automatisch zu erzeugen und sie mit geringem Aufwand zu veröffentlichen.

Dies lässt sich auf effiziente Weise erreichen, indem Identifier mithilfe einer Mischung aus verschiedenen Hash-Funktionen erzeugt werden und diese auf einer wartungsfreien, kostenlosen, öffentlichen Blockchain gespeichert werden.