Jörg Prante 10.3.2010 Dokumentation "hbz-Neutralformat" Das hbz setzt für Suchmaschinenladevorgänge Zwischendateien ein, in denen unter anderem auch die Titeldaten aus dem hbz-Verbundkatalog gespeichert sind. Diese Zwischendateien fallen temporär an und sind nicht im Format des Herkunftssystems, sondern in einem "Neutralformat" gehalten, das vom hbz entwickelt wurde und hier in knapper Form dokumentiert wird. Eine Lieferung im hbz-Neutralformat besteht aus ein oder mehreren Archiven, d.h. einer Gruppe zugehöriger Archive. Die zugehörigen Archive sind per Konvention mit einem Tagesstempel versehen und fortlaufend durchnummeriert. Sie tragen die Endung "tar.bz2". Eingesetzt wird das GNU-tar-Archiv-Format, dokumentiert unter http://www.gnu.org/software/tar/manual/ sowie der bzip2-Algorithmus zur Kompression, dokumentiert unter http://www.bzip.org/1.0.5/bzip2-manual-1.0.5.html oder der gzip-Algorithmus, dokumentiert unter http://www.gzip.org/ Es handelt sich um Archive, deren Einträge durch parallele Verarbeitung erzeugt wurden. Die in den Archiven vorhandenen Dateien sind nicht zwangsläufig in einem fortlaufend durchnummeriert. Erst durch Verarbeitung aller Dateien aus allen zugehörigen Archiven der Lieferung ist die Vollständigkeit der Lieferung gegeben. Im Tar-Archiv befinden sich Directory-Einträge der Form /// wobei ein Zähler im Bereich 0000-9999 läuft. Die Zähler bündeln somit jeweils 10.000 Directory-Einträge. Damit ist sichergestellt, dass beim händischen Auspacken von Archivdateien nie mehr als 10.000 Dateien in einem Verzeichnis stehen. Eine Datei, aus dem Archiv ausgepackt, entspricht einem Titelsatz. Sie besitzt keine Dateiendung. steht für eine aus der Quelle gewonnene, eindeutige Kennzeichnung. Im Falle der hbz-Titelkatalogdaten wurde die Verbund-ID ("HT-Nummer") ausgewählt. Die Datei besteht aus Zeilen aus einfachem Text mit der Zeichensatzkodierung UTF-8 und dem "Line feed"-Symbol (LF) als Zeilenendekennung. Jede Zeile enthält ein Schlüssel/Wert-Paar, gefolgt von einer Zeilenendekennung. = Die hbz-Titeldaten sind von dem MAB-Format "MAB-TITEL" abgeleitet. Die Dokumentation zu MAB-TITEL befindet sich unter der URL http://www.d-nb.de/standardisierung/txt/titelmab.txt Der Schlüssel besteht aus einer bis zu sechs Oktett langen Folge, der sich aus Kategorien und Indikatoren zusammensetzt. Für den Schlüssel gibt es zwei Varianten: Die Kategorie aus drei Ziffern entspricht der MAB-TITEL-Kategorie. Der erste Indikator entspricht dem MAB-Indikator, er ist entweder leer (Leerzeichen (SP)) oder ein Kleinbuchstabe im Bereich a-z. Der zweite Indikator ist entweder leer (Leerzeichen (SP)) oder enthält eine "1" oder eine "2". Der Unterfeldindikator ist ein Kleinbuchstabe im Bereich a-z. Der Wert ist eine beliebige Zeichenkette kodiert in UTF-8.