Arbeitsprogramm

Die Gemeinsame Normdatei (GND) soll auch im Filmsektor als Normdatei etabliert werden, um im deutschsprachigen Raum etwa über Personensucheinstiege gleichermaßen Filme und Publikationen von und zu gesuchten Personen zu finden. IN2N stellt aus Sicht der Deutschen Nationalbibliothek (DNB) einen wichtigen Beitrag dazu dar, die Normdaten der GND im deutschsprachigen Raum als übergreifende Rechercheinfrastruktur für den Kultur- und Wissenschaftssektor zu etablieren. Aus Sicht des Deutschen Filminstituts dient das Projekt darüber hinaus dazu, seine Datenbestände für die zahlreichen GND-Nutzer recherchierbar zu machen und umgekehrt: den eigenen Nutzern das Angebot der mit der GND erschließenden Bibliotheken anbieten zu können.

Abgeleitet von den konkreten Zielen in IN2N ist die Aufgabe, ein generelles Kooperationsmodell für die domänenübergreifende Normdatenpflege zu entwickeln und zu erproben. Ein solches Kooperationsmodell muss hierfür die zwei folgenden Phasen für neue Kooperationspartner behandeln:

  1. Initialer Datenabgleich zwischen dem Datenbestand des Partners und der GND sowie anschließender beiderseitiger Import von Informationen, die durch die Gegenseite erwünscht sind, aber bislang nicht lokal existieren.
  2. Ein redaktioneller Routinebetrieb über das Web, wobei durch den Partner in Echtzeit in der GND gesucht wird sowie Änderungen im Bestand des Partners über Differenzmeldungen in die GND übermittelt werden.

Die benannten Ziele sollen durch Bearbeitung der folgenden Arbeitspakete erreicht werden:

Arbeitspaket 1:
Datenanalyse

Ziele

  • Bestimmung äquivalenter Datenelemente der zugrundeliegenden Datenmodelle, anhand derer Datensätze identifiziert werden können, die sich auf dieselben Entitäten beziehen
  • Definition eines „Kernsets“ von identifizierenden Angaben, die auch beim gewählten verteilten Ansatz in beiden Datenbeständen vorgehalten werden sollen
  • Erstellung einer Konkordanz zwischen dem GND-Internformat und Encoded Archival Context – Corporate bodies, Persons, and Families (EAC-CPF, dem durch filmportal.de eingesetztem Austauschformat) sowie ggf. weiterer Konkordanzen als Vorbereitung für den Routinebetrieb
  • Definition des EAC-CPF-Schemas in RDF

Datenelemente und Datenstruktur der Personendaten in filmportal und GND werden abgeglichen, äquivalente Datenelemente identifiziert und daraus ein Kernset definiert. Die Erstellung der Konkordanzen zwischen allen Datenformaten dient zum einen der Ermittlung von Möglichkeiten und Aufwand des Datenaustauschs auch für künftige Partner-Institutionen, zum anderen der Identifizierung des besten Weges für den Datenaustausch, der als Projektziel in den nachfolgenden Arbeitspaketen verfolgt wird. Gebildet werden Konkordanzen zwischen folgenden Datenformaten:

Konkordanzen

Die Modellierung der in der GND vorgehaltenen Personendaten orientiert sich an den Functional Requirements for Authority Data (FRAD) und damit an den Resource Description and Access (RDA), dem neuen Regelwerk für die Bibliotheken. Für die Behandlung der Personendaten des Filminstituts wird der EAC-CPF-Standard („Encoded Archival Context – Corporate Bodies, Persons and Families“) zugrunde gelegt. filmportal verfügt bereits über eine Exportschnittstelle nach der EAC-CPF-Spezifikation für Daten zu Personen und Körperschaften. Nach einer Evaluation der beiden Ausgangsformate und der Anforderungen an die gemeinsame verteilte Datenhaltung wird eine Entscheidung über das zu nutzende Austauschformat getroffen.

Arbeitspaket 2:
Überführung der filmportal-Daten in RDF

Ziele

  • Konversion der Daten aus filmportal.de in eine RDF-Repräsentation
  • Aufbau eines RDF-Triplestores zur Bereitstellung der DIF-RDF-Daten
  • Konzeption und Implementierung einer internen Updateschnittstelle zwischen DIF-Datenbank und RDF-Triplestore

Zentrales Element der angestrebten Normdaten-Kooperation über verteilte Quellen ist die virtuelle Informationsintegration mit Hilfe von Linked-Data-Technologien. Die prototypische Integration wird neben dem direkten Nutzen für die Beteiligten als Grundlage für zukünftige Kooperationen dieser Art dienen.

Die Deutsche Nationalbibliothek betreibt einen eigenen Linked-Data-Service und bietet in diesem Rahmen bereits die Personendaten der GND in einer geeigneten RDF-Modellierung an. Im Projekt wird geprüft, ob die Daten des filmportals lediglich in RDF übersetzt werden müssen. Diese könnte dann nicht nur zur virtuellen Informationsintegration herangezogen werden (Arbeitspaket 7), sondern auch für den Abgleich im Rahmen des Match&Merge-Verfahrens (Arbeitspaket 3) sowie bei der zu implementierenden Updateschnittstelle für den Routinebetrieb (Arbeitspaket 5) in Betracht gezogen werden. Es soll auch geprüft werden, ob andere Ansätze oder Datenformate (z.B. schema.org) für die angestrebte Kooperation geeignet sind.

Arbeitspakete 3 & 4:
Konzeption und Implementierung des Match&Merge-Verfahrens

Die Realisierung einer kooperativen Redaktion verlangt zunächst, die bestehenden Datensets der Kooperationspartner initial auf Übereinstimmungen innerhalb der Entitätenbeschreibungen zu prüfen. Entsprechend wird ein Verfahren zum Datenabgleich mit dem Ziel konzipiert, eine weitgehend automatische Zusammenführung von Datensätzen, die sich auf identische Personen beziehen, zu entwickeln (Match&Merge). Der Datenabgleich findet zwischen den in Arbeitspaket 1 bestimmten äquivalenten Datenelementen der beiden Datenmodelle statt.

Für den Abgleich werden genaue Kriterien entwickelt, um zu entscheiden:

  1. bei welchen Konstellationen von Datenelement-Übereinstimmungen die Personendatensätze automatisch zu einem gemeinsamen Datensatz zusammengeführt werden können,
  2. bei welchen Konstellationen die möglichen Treffer als „Kandidaten“ für eine Zusammenführung gekennzeichnet werden und
  3. bei welchen Konstellationen keine Übereinstimmung angenommen werden kann.

Als Resultat liefert das Abgleichsverfahren neben den automatisch zusammengeführten „Matches“ (Fall 1) eine Menge von Datensatzpaaren aus filmportal.de und GND, die im obigen Sinne als „Kandidaten“ für eine Zusammenführung gelten (Fall 2) und einer Überprüfung und Bestätigung durch menschliche Bearbeiter verlangen. Zur Unterstützung der Kandidaten-Auflösung wird eine Web-Applikation entwickelt. Für jeden Datensatz aus filmportal.de, bei dem keine Übereinstimmung mit einem Datensatz in der GND festgestellt werden kann (Fall 3), wird ein entsprechender Datensatz in der GND angelegt.

Für die intellektuelle Nachbearbeitung der Kandidatenpaare muss ein geeignetes Benutzerinterface bereitstehen, das Bearbeitern eine einfache Identifizierung und Zusammenführung bedeutungsgleicher Datensatzpaare ermöglicht. Gerade mit Blick auf Kooperationen mit Institutionen außerhalb des Bibliothekssektors ist hier ein Werkzeug gefragt, dessen Handhabung intuitiv und ohne bibliothekarische Vorkenntnisse möglich ist.

Ziele

  • Anforderungsspezifikation für eine Ähnlichkeitserkennungssoftware für Personen aus GND und filmportal
  • Entwicklung der Ähnlichkeitserkennungssoftware mit dem Anspruch einer weitgehend automatischen Zusammenführung von Match-Paaren
  • Evaluation zur Verfügung stehender geeigneter Produkte zur intellektuellen Kandidatenauflösung
  • Bereitstellung einer webbasierten und benutzerfreundlichen Software zur Kandidatenauflösung

Mit Abschluss der initialen Einspielung gehen die Partner in den redaktionellen Routinebetrieb über. Zu diesem Zeitpunkt ist jeder Person aus filmportal exakt eine GND-Person zugewiesen. Des Weiteren stehen allen bisherigen GND-Kooperationspartnern die Personendaten aus filmportal auf ihren gewohnten Datenbezugswegen bereit.

Arbeitspaket 5:
Konzeption und Implementierung einer GND-Update-Schnittstelle und eines erweiterten filmportal-Redaktionssystems

Ziel von IN2N ist es, nicht-bibliothekarischen Einrichtungen die Nachnutzung und den Zugriff auf die GND zu ermöglichen. Hierzu gehören die Suche in der GND, die Übernahme von Daten sowie das Eintragen von neuen und Anpassen existierender Datensätze.

In der Regel setzt jede Dokumentationseinrichtung ein Redaktionswerkzeug ihrer Wahl ein – dies soll auch bei einer Teilnahme an der kooperativen GND-Pflege unverändert bleiben. Ein Redakteur soll in seiner gewohnten Umgebung arbeiten und eine zusätzliche Funktionalität zum Zugriff auf die GND erhalten. Hierfür sind zwei Weiterentwicklungen notwendig:

  1. Das GND-Repositorium muss eine Schnittstelle anbieten, über die Maschinen inhaltsbasierte Suchen absenden, Daten in einer bestimmten Repräsentation übernehmen und Änderungen übermitteln können.
  2. Das Redaktionssystem muss die unter 1. Beschriebene Schnittstelle ansteuern und die beschriebenen Funktionalitäten für den Redakteur grafisch zugänglich machen.

GND-Update-Schnittstelle

Im Bibliothekswesen haben sich neben den bibliotheksspezifischen Datenformaten wie MARC 21 auch auf die Bedürfnisse von Bibliotheken zugeschnittene Datenbankschnittstellen entwickelt. IN2N hat zum Ziel, spartenfremden Akteuren, denen die eingesetzten Technologien oft nur schwer zugänglich sind, Normdaten mit möglichst wenig Aufwand maschinell zugänglich zu machen. Entsprechend gilt es, eine intuitiv verständliche Repräsentationsform der Daten zu finden und eine einfach zu handhabende Schnittstelle anzubieten, deren Konzept den aktuellen Web-Standards Rechnung trägt.

Die in IN2N vorzunehmenden Schnittstellenerweiterungen beschränken sich auf schreibende Operationen für die Datenneueinspielung und inkrementelle Updates auf bestehenden Datensätzen. Für die inhaltsbasierte Suche und die Datenübernahme wird auf die existierenden Lösungen unter Verwendung von SRU als Schnittstelle und GND/RDF als Datenformat zurückgegriffen.

Ziele

  • Erstellung eines technischen  Konzepts für die verteilte Datenpflege: Rollenverteilung, Datenfluss, Prozesse
  • Evaluation möglicher Austauschformate für die angestrebte Erweiterung der Online-Normschnittstelle und Festlegung des Transferformats
  • Anpassung des GND-Redaktionskonzepts zur Einbindung nicht-bibliothekarischer Einrichtungen
  • Einführung eines Rechtemanagements auf Datenelement-Ebene
  • Konzeption und Implementierung einer Web-Schnittstelle für inkrementelle Updates

Im Gegensatz zum aktuellen Datenaustauschverfahren soll die zu entwickelnde Schnittstelle für den schreibenden Zugriff Updates auf Datenelement-Ebene zulassen. Der daraus entstehende Vorteil ist, dass nicht wie bisher ein gesamter Datensatz übernommen, manipuliert und in die GND zurückgespielt werden muss, sondern Informationen, wie ein Name oder Lebensdaten ohne Kenntnis des gesamten Datensatzes eingetragen werden können.

Dadurch bestünde sogar die Möglichkeit für Akteure, die keine GND-Daten beziehen, bibliothekarische Normdaten mitzugestalten. Vorstellbar wäre die Übernahme von Informationen aus Online-Plattformen, insofern die Angaben in der GND nicht vorliegen. Falls beispielsweise ein Wikipedia-Artikel mit einer GND-Person verknüpft ist und ein Sterbedatum eingetragen wird, könnte dies einfach und bequem in die GND eingepflegt werden. Ähnliches gilt für soziale Netzwerke von Wissenschaftlern, in denen Forscher ihre personenbezogenen Daten sowie ihre Publikationstätigkeit selbst verwalten.

filmportal-Redaktionssystem

Die filmportalseitige Neuerfassung und Änderung von Personeneinträgen für den Filmbereich wird wie bisher im filmportal-Redaktionssystem erfolgen. Hierfür sind Anpassungen notwendig, die den Bearbeitern bei Neuansetzungen eine Personensuche in der GND gestatten, und die ihnen die Möglichkeit geben, das Kernset neuer Datensätze bzw. Veränderungen am Kernset vorhandener Datensätze über die zu entwickelnde Update-Schnittstelle in die GND zu schreiben. Dafür wird das Kernset des filmportal-Internformats in das gewählte Transferformat konvertiert. GND-seitig erfolgt die Konversion in das Internformat der GND und eine Validierung des jeweiligen Datensatzes. Für den filmportal-Redakteur stellt sich dieser Vorgang so dar, als würde er zeitgleich im filmportal und der GND erfassen.

Ziele

  • Funktionslayout für Anpassungen im filmportal-Redaktionssystem, für die Personenidentifikation in filmportal und GND und für die Übernahme von Datensätzen aus der GND in die filmportal-Datenbank
  • Anpassung der filmportal-Bearbeiterschnittstelle
  • Definition eines geänderten Redaktionsworkflows bei filmportal unter den neuen Bedingungen der verteilten Normdatenkooperation bei der Datenrecherche und -eingabe

Arbeitspaket 6:
Realisierung einer bestandsübergreifenden Suche

Im verfolgten Kooperationsansatz werden die Informationen zu Personen auch in Zukunft in den verteilten Beständen von DNB und DIF vorgehalten. Damit verbunden ist die Herausforderung, diese verteilten Bestände effektiv und effizient durchsuchen zu können. So sollte eine personenbezogene Suchanfrage auf GND-Daten auch dann zum Erfolg führen, wenn sie sich auf Datenelemente bezieht, die nur in filmportal vorgehalten werden und umgekehrt.

Ziele

  • Anforderungskatalog bestandsübergreifende Personensuche
  • Inbetriebnahme einer bestandsübergreifenden Personensuche über filmportal.de und GND

Verschiedene Ansätze zur Realisierung der bestandsübergreifenden Suche sollen untersucht und evaluiert werden. Ein naheliegender Ansatz besteht darin, eine Suchfunktion auf der Basis der im Verlauf des Projektes zur Verfügung stehenden RDF-Repräsentationen (siehe Arbeitspaket 2) zu implementieren. Da bei diesem Vorgehen aufgrund der Datenmengen mit Performanzproblemen gerechnet werden muss, sind an dieser Stelle auch alternative Ansätze zu prüfen. Zu nennen sind hier eine Suche über SRU sowie eine Suchfunktion, die mit einer (Vor-)Indexierung der beiden Datenbestände arbeitet.

Arbeitspaket 7:
Implementierung einer integrierenden Ergebnisanzeige

Der Ansatz, Daten in verteilten Beständen institutionenübergreifend vorzuhalten, verlangt nach einer Möglichkeit, Informationen aus den kooperierenden Quellen gemeinsam anzuzeigen. So sollen Nutzer, die eine Personenrecherche etwa über das DNB-Portal durchführen, Informationen zu der gesuchten Person aus der GND erhalten und – sofern vorhanden – zusätzliche (d.h. keine redundanten) Informationen zu der fraglichen Person aus dem filmportal-Bestand – selbstverständlich mit Hinweis auf die Quelle sowie einem Link zum entsprechenden Datensatz auf filmportal.de. Ebenso soll auf Seiten des filmportals eine entsprechende Möglichkeit geschaffen werden.

Ziele

  • Integrierende Ergebnisanzeige auf der Basis verteilter Datenbestände
  • Anpassung der Präsentationsdienste in den Rechercheportalen

Nach Abschluss von Arbeitspaket 4 sind alle Personendaten des DIF mit den URIs der GND ausgestattet, die eine eindeutige und standortunabhängige Identifizierung ermöglichen. Über den URI greifen die Präsentationsdienste im DNB-Katalog und in filmportal.de auf den jeweils anderen Datenbestand zu. Es wird festgelegt welche Angaben aus der Repräsentation des jeweils anderen Datenbestands vom eigenen Präsentationsdienst verwendet werden und wie diese dargestellt werden sollen.

Arbeitspaket 8:
Dokumentation und Öffentlichkeitsarbeit

Die in IN2N erzielten Ergebnisse gilt es, in die Normdaten-Community zu transportieren, um einerseits anderen Forschungsvorhaben die gesammelten Erfahrungen zur Verfügung zu stellen und andererseits zur Akquise neuer Partner für die kooperative Normdatenpflege auf Basis der entwickelten Konzepte und Technologien beizutragen.

Ziele

  • Bekanntmachung der Arbeitsergebnisse und gesammelten Erfahrungen
  • Erstellung eines Leitfadens zur Überführung von EAC-CPF Daten nach RDF und Einführung in die Normdatenkooperation auf Linked-Open-Data-Basis
  • Workshop zur Akquise weiterer Normdatenkooperationspartner

Als spartenübergreifendes Pilotprojekt im deutschen Personennormdatenbereich sind die in IN2N gewonnenen Erfahrungen und Ergebnisse auch für andere Institutionen und Verbände aus dem Bereich der Bibliotheken, Archive und Museen und nicht nur in Deutschland von Interesse. Geplant sind Projektvorstellungen in Form von Vorträgen, Veröffentlichungen in Fachzeitschriften sowie ein abschließender Workshop, der über erste Erfahrungen mit der entwickelten Normdatenkooperation über verteilte Bestände berichten wird. Die im Projekt erzielten Ergebnisse sowie eine Beschreibung des Verfahrens und der entstandenen Technologien werden in einer Dokumentation zusammengefasst, die zukünftigen GND-Kooperationspartnern zur Verfügung gestellt wird.

Um anderen Archiven, die ebenfalls EAC-CPF einsetzen, von den im Projekt gewonnenen Erkenntnissen zum Umgang mit Linked Data profitieren zu lassen, soll des Weiteren ein Leitfaden erarbeitet werden, der die Vorgehensweise bei der Überführung von EAC-CPF nach RDF beschreibt sowie Anwendungsszenarien für den Einsatz von Linked Open Date bei der verteilten Datenhaltung diskutiert.