solyp

zurück

Neue Perspektiven fürs Content Management

Innovative Weltneuheit setzt eherne Regeln außer Kraft

Von Thomas Nagel

Es gibt einige Probleme im Bereich Content Management, die galten bisher als unlösbar und wurden billigend in Kauf genommen. Doch seit kurzem ist eine Applikation auf dem Markt, die nicht nur diese löst, sondern auch darüber hinaus der Informationstechnik vielversprechende Möglichkeiten eröffnet.

Content Management ist momentan der Trend. Immer mehr Unternehmen haben die Zeichen der Zeit erkannt und nutzen Technologie wie (Kommunikations-)Potenzial des Internet. Sie setzen auf Systeme, die es ihnen ermöglichen, auf Basis zentraler Datenhaltung sowohl den unternehmensinternen Workflow zu optimieren als auch, von dieser einen Plattform aus, crossmedial zu publizieren. Im Zentrum derartiger Bemühungen steht das Konzept der medienneutralen Datenbank, beflügelt vom Zauberwort „XML“. Seit diese Meta-Sprache 1998 in ihrer ersten Version veröffentlicht wurde, ist sie aus der digitalen Welt nicht mehr wegzudenken. Gerade innerhalb von Datenbank-Systemen fungiert sie als Schnittstelle für relationale Datenhaltung, mit der beliebige Anwendungen bedient werden können und garantiert auf diese Weise jene Universalität, die das Konzept der medienneutralen Datenbank so effizient macht.

Wunde Punkte, blinde Flecken

Jedoch ergab sich schnell ein mächtiges Problem bei der Konvertierung bestehender Daten in die neue Umgebung. Der Grund dafür lag im altbekannten Dilemma des Information Retrieval, der bislang erfolglosen Suche nach einer praktikablen Möglichkeit, automatisiert Inhalte (und Layouts) von der Syntax ihres Speicherformats zu trennen. Mangels einer solchen Lösung war der Transfer wichtiger Contents in eine medienneutrale Datenbank höchst aufwendig und fehlerintensiv: Für viele Unternehmen Grund genug, das Projekt „Content Management“ als unbezahlbar ad acta zu legen.

Diejenigen, die sich trotzdem an die Sache heranwagten, mussten wohl oder übel immens umständliche Behelfsstrategien in Kauf nehmen, um ihre Altdaten ins multimediale Zeitalter hinüberzuretten. Merck Eurolab beispielsweise sah bei der Übertragung vorhandener Produktdaten in ein medienübergreifendes Katalogverwaltungssystem keine Alternative zur Neuerfassung per Handarbeit: „Das ist die Strafarbeit, wenn man mit einem solchen System anfängt“, lautet der zähneknirschende Kommentar von Merck-Manager Labonté zu diesem Thema (Computerwoche 37/1999).

Eine weitere, oft praktizierte Behelfsstrategie besteht in der Verwendung von PERL. Doch auch daraus ergeben sich einige Nachteile, die in Aufwand und Fehlerpotential denen schlichter Handarbeit kaum nachstehen. Zwar kann man in PERL mit regular expressions arbeiten, was die Syntax-Analyse im Prinzip wesentlich vereinfacht, Schwierigkeiten bleiben jedoch auch bei dieser Wahl der Mittel nicht aus: Zum einen liefert PERL als Such- oder Analysefunktion nur Lösungen für den längsten oder den kürzesten match eines strings, andere Möglichkeiten gehen verloren:

Analyse der Zeichenkette aaaBcccBeeeBgggBjjj mit dem regulären Ausdruck .*B.*B.*

Lösungen:

1) für den kürzesten Match die Teile aaa , ccc und eeeBgggBjjj

2) für den längsten Match die Teile aaaBcccBeee , ggg und jjj

Nicht berücksichtigte mögliche Lösungen: z.B. aaaBccc , eeeBggg und jjj

Zum anderen haben regular expressions an sich den Nachteil, dass schon in der Anwendung auf relativ kleine Datenmengen, wie zum Beispiel eine einzelne Webpage, ihr Umfang und damit ihre Komplexität explosionsartig anschwellen. Also ist auch hier wieder Handarbeit gefragt, diesmal um Ketten regulärer Ausdrücke zu analysieren, deren Länge gegen unendlich geht. Eine Möglichkeit, dieses Problem mit PERL in den Griff zu kriegen, soll heißen, unüberschaubare Mengen regulärer Ausdrücke in irgendeiner Form automatisch zu strukturieren wäre theoretisch denkbar. Allerdings birgt diese Möglichkeit ihrerseits offensichtlich zu viele Probleme in sich, als dass sie bis dato ernsthaft in Erwägung gezogen worden wäre.

Licht am Ende des Tunnels

Eine Lösung für derartige Schwierigkeiten bietet die SOLYP Informatik GmbH aus Nürnberg an. Mit Hilfe der Applikation ReDesigner ist es möglich, weitestgehend automatisiert Contents aus beliebigen Speicherformaten zu lösen und in eine medienneutrale Datenhaltung zu überführen.

Der Prototyp dieses Tools wurde im Laufe des Jahres 1999 innerhalb verschiedener Großprojekte (siehe Kasten) eingesetzt - mit durchschlagendem Erfolg: Sowohl beim Relaunch umfangreicher Websites als auch bei der Aufbereitung von Daten für cross-mediale Katalogproduktion wurde der Aufwand an Zeit, Kosten und Personal auf ein bis dahin nicht für möglich gehaltenes Maß reduziert.

Features step by step

Im Grundsatz ist der ReDesigner eine äußerst effektive Kombination verschiedener Module, die einen breitgefächerten Einsatz erlauben und ein Höchstmaß an Flexibilität gewährleisten. Analyse und Wiederaufbereitung von beliebigen Datensätzen erfolgen step by step:

Erster Schritt eines solchen Vorgangs ist sinnvollerweise immer die Identifikation der Struktur, die den vorliegenden Daten zugrundeliegt. Schon hier hat der ReDesigner anderen Lösungen etwas entscheidendes voraus, er verfügt über eine automatische Strukturerkennung und ist bezüglich Input wie auch Output formatunabhängig. Damit entfällt unter anderem die ansonsten notwendige Vorstrukturierung des zu bearbeitenden Materials. „Alleinstellungsmerkmal des ReDesigners ist (...) vor allem die automatische Erkennung von Formaten, bevor der eigentliche Separationsprozess von Information und Layout erfolgt. Der derzeit auf dem Markt erscheinende ‚Blade Runner‘ der Firma Interleaf ist als klassisches Beispiel zu erwähnen, der über die Möglichkeiten der Trennung von Layout und Information verfügt, aber ein spezielles Format benötigt, um sie lesen zu können. Eine Vorformatierung der Daten ist erforderlich. Nicht so beim ReDesigner, gerade das automatische Erkennen von Formaten macht den ReDesigner so effizient“, schreibt Dipl.-Ing. Dieter Maier vom Fraunhofer TEG in einem Gutachten.

Für den Fall, dass der Quellcode eines Datensatzes nur binär (z.B. WORD) vorliegt, wird eine Konverterfunktion abgerufen, um diesen in einer benutzerfreundlicheren Syntax, etwa HTML, aufzubereiten. Konverter sind ja bekanntlich nichts neues, entscheidend ist hier die funktionale Platzierung solcher Tools im Gesamtsystem.

Den Kern der Funktion bildet die eigentliche Trennung Semantik – Syntax, das sogenannte Information Retrieval. In der Auflösung der damit verbundenen Problematik liegt denn auch die wesentliche Innovation der SOLYP-Entwickler. Analysiert wird in der Hauptsache mit regulären Ausdrücken, also genau wie bei der Verwendung von PERL. Nur ist es mit dem ReDesigner gelungen, einen wesentlich mächtigeren Algorithmus zu entwickeln, der zum einen die beschriebene Expansion derselben kontrollierbar macht und zum anderen sämtliche Möglichkeiten, einen string zu zerlegen, verfolgt. Der Algorithmus selbst ist verständlicherweise ein wohl gehütetes Geheimnis, funktional betrachtet generiert er, ähnlich wie bei Java, eine zusätzliche, objektorientierte Abstraktionsebene: Anstatt in einer unendlichen Zeichenkette wird das Ergebnis der verschiedenen matches für eine Datei in Form einer übersichtlichen, benutzerfreundlichen Baumstruktur erzeugt. Zusätzlich bietet der ReDesigner eine Menge weiterer Features. Herausragend sind in diesem Kontext „Lernfähigkeit“ sowie eine Art „Dialog-Funktion“: Sollten mehrere gleichwertige Möglichkeiten vorliegen, einen string zu analysieren, bietet Anwendung eine Hilfsfunktion bei der Auswahl der weiter zu verfolgenden. Lernfähigkeit beweist die Applikation, indem sie innerhalb eines Datensatzes bereits fertiggestellte Analyseschritte dazu heranzieht, Hypothesen über die Struktur der noch zu bearbeitenden Teile zu entwerfen, was praktisch eine sukzessive Beschleunigung des Arbeitsablaufs insgesamt nach sich zieht.

In der Datenhaltung- und Ausgabe fungiert die Applikation auf Basis der multilingualen Metasprachen XML bzw. SGML wiederum als formatunabhängige, unbegrenzt kommunikative Schnittstelle. Die extrahierte Information kann in jedem beliebigen Format – WORD, PDF-Files, Quark-Express, etc. - an beliebige Redaktionssysteme weitergegeben werden. Dies eröffnet die Option, den ReDesigner als Schnittstelle zwischen Intranet und medienneutraler Datenbank einzusetzen. Hier arbeitet die Applikation als „Wiederaufbereitungsanlage“ für Dokumente, die in den Workflow integriert oder im Hinblick auf crossmediale Publikation generiert werden sollen.

Perspektiven

„Die Konkurrenz schläft nicht. Um die weltweite Technologieführerschaft zu behalten, haben wir ein Entwicklerteam vom Tagesgeschäft freigestellt, das den ReDesigner vom Prototypen zur Produktreife bringt. Schwerpunktmäßig werden wir mit Hilfe von Ansätzen aus der KI-Forschung versuchen, die kommunikativen Potenziale der Applikation bis zum Optimum auszureizen“, skizziert SOLYP-Geschäftsführer Alexander Zimmermann die weiteren Vorhaben seines Unternehmens.

Im einzelnen ist ein schrittweises Vorgehen im Zuge der Weiterentwicklung des ReDesigner geplant. Einzelne Bausteine der Applikation werden Zug um Zug optimiert und in den Prototypen integriert, gleichzeitig sind zusätzliche Features wie beispielsweise ein Basis-Redaktionssystem in Planung. Das „look and feel“ der Benutzeroberfläche soll bis dahin verbessert werden, dass diese, je nach Geschmack und Bedarf, bei gleicher Logik ausgetauscht werden kann - geplant ist, den ReDesigner in eine Java-Umgebung zu implementieren. Mittelfristig wollen die Entwickler ein Baukastensystem schaffen, das sich der Endanwender nach Bedarf zusammenstellen kann. Eine Vision für die fernere Zukunft ist der Ausbau der System-Intelligenz: Auf der Basis neuronaler Netze könnte irgendwann eine intelligente Software entstehen, die als multilinguales System selbstätig sämtliche Inkompatibilitätsprobleme zwischen verschiedenen Plattformen beseitigt und so der digitalisierten Kommunikation unbegrenzte Möglichkeiten eröffnet.

zurück