Neue Perspektiven fürs Content Management
Innovative Weltneuheit setzt eherne Regeln außer
Kraft
Von Thomas Nagel
Es gibt einige Probleme im Bereich Content Management,
die galten bisher als unlösbar und wurden billigend
in Kauf genommen. Doch seit kurzem ist eine Applikation
auf dem Markt, die nicht nur diese löst, sondern
auch darüber hinaus der Informationstechnik vielversprechende
Möglichkeiten eröffnet.
Content Management ist momentan der Trend.
Immer mehr Unternehmen haben die Zeichen der Zeit
erkannt und nutzen Technologie wie (Kommunikations-)Potenzial
des Internet. Sie setzen auf Systeme, die es ihnen
ermöglichen, auf Basis zentraler Datenhaltung
sowohl den unternehmensinternen Workflow zu optimieren
als auch, von dieser einen Plattform aus, crossmedial
zu publizieren. Im Zentrum derartiger Bemühungen
steht das Konzept der medienneutralen Datenbank, beflügelt
vom Zauberwort „XML“. Seit diese Meta-Sprache
1998 in ihrer ersten Version veröffentlicht wurde,
ist sie aus der digitalen Welt nicht mehr wegzudenken.
Gerade innerhalb von Datenbank-Systemen fungiert sie
als Schnittstelle für relationale Datenhaltung,
mit der beliebige Anwendungen bedient werden können
und garantiert auf diese Weise jene Universalität,
die das Konzept der medienneutralen Datenbank so effizient
macht.
Wunde Punkte, blinde Flecken
Jedoch ergab sich schnell ein mächtiges
Problem bei der Konvertierung bestehender Daten in
die neue Umgebung. Der Grund dafür lag im altbekannten
Dilemma des Information Retrieval, der bislang erfolglosen
Suche nach einer praktikablen Möglichkeit, automatisiert
Inhalte (und Layouts) von der Syntax ihres Speicherformats
zu trennen. Mangels einer solchen Lösung war
der Transfer wichtiger Contents in eine medienneutrale
Datenbank höchst aufwendig und fehlerintensiv:
Für viele Unternehmen Grund genug, das Projekt
„Content Management“ als unbezahlbar ad
acta zu legen.
Diejenigen, die sich trotzdem an die
Sache heranwagten, mussten wohl oder übel immens
umständliche Behelfsstrategien in Kauf nehmen,
um ihre Altdaten ins multimediale Zeitalter hinüberzuretten.
Merck Eurolab beispielsweise sah bei der Übertragung
vorhandener Produktdaten in ein medienübergreifendes
Katalogverwaltungssystem keine Alternative zur Neuerfassung
per Handarbeit: „Das ist die Strafarbeit, wenn
man mit einem solchen System anfängt“,
lautet der zähneknirschende Kommentar von Merck-Manager
Labonté zu diesem Thema (Computerwoche 37/1999).
Eine weitere, oft praktizierte Behelfsstrategie
besteht in der Verwendung von PERL. Doch auch daraus
ergeben sich einige Nachteile, die in Aufwand und
Fehlerpotential denen schlichter Handarbeit kaum nachstehen.
Zwar kann man in PERL mit regular expressions
arbeiten, was die Syntax-Analyse im Prinzip wesentlich
vereinfacht, Schwierigkeiten bleiben jedoch auch bei
dieser Wahl der Mittel nicht aus: Zum einen liefert
PERL als Such- oder Analysefunktion nur Lösungen
für den längsten oder den kürzesten
match eines strings, andere Möglichkeiten gehen
verloren:
Analyse der Zeichenkette aaaBcccBeeeBgggBjjj mit
dem regulären Ausdruck .*B.*B.*
Lösungen:
1) für den kürzesten Match die Teile aaa
, ccc und eeeBgggBjjj
2) für den längsten Match die Teile aaaBcccBeee
, ggg und jjj
Nicht berücksichtigte mögliche Lösungen:
z.B. aaaBccc , eeeBggg und jjj
Zum anderen haben regular expressions an sich den
Nachteil, dass schon in der Anwendung auf relativ
kleine Datenmengen, wie zum Beispiel eine einzelne
Webpage, ihr Umfang und damit ihre Komplexität
explosionsartig anschwellen. Also ist auch hier wieder
Handarbeit gefragt, diesmal um Ketten regulärer
Ausdrücke zu analysieren, deren Länge gegen
unendlich geht. Eine Möglichkeit, dieses Problem
mit PERL in den Griff zu kriegen, soll heißen,
unüberschaubare Mengen regulärer Ausdrücke
in irgendeiner Form automatisch zu strukturieren wäre
theoretisch denkbar. Allerdings birgt diese
Möglichkeit ihrerseits offensichtlich zu viele
Probleme in sich, als dass sie bis dato ernsthaft
in Erwägung gezogen worden wäre.
Licht am Ende des Tunnels
Eine Lösung für derartige
Schwierigkeiten bietet die SOLYP Informatik GmbH aus
Nürnberg an. Mit Hilfe der Applikation ReDesigner
ist es möglich, weitestgehend automatisiert Contents
aus beliebigen Speicherformaten zu lösen und
in eine medienneutrale Datenhaltung zu überführen.
Der Prototyp dieses Tools wurde im
Laufe des Jahres 1999 innerhalb verschiedener Großprojekte
(siehe Kasten) eingesetzt - mit durchschlagendem Erfolg:
Sowohl beim Relaunch umfangreicher Websites als auch
bei der Aufbereitung von Daten für cross-mediale
Katalogproduktion wurde der Aufwand an Zeit, Kosten
und Personal auf ein bis dahin nicht für möglich
gehaltenes Maß reduziert.
Features step by step
Im Grundsatz ist der ReDesigner
eine äußerst effektive Kombination verschiedener
Module, die einen breitgefächerten Einsatz erlauben
und ein Höchstmaß an Flexibilität gewährleisten.
Analyse und Wiederaufbereitung von beliebigen Datensätzen
erfolgen step by step:
Erster Schritt eines solchen Vorgangs
ist sinnvollerweise immer die Identifikation der Struktur,
die den vorliegenden Daten zugrundeliegt. Schon hier
hat der ReDesigner anderen Lösungen etwas
entscheidendes voraus, er verfügt über eine
automatische Strukturerkennung und ist bezüglich
Input wie auch Output formatunabhängig. Damit
entfällt unter anderem die ansonsten notwendige
Vorstrukturierung des zu bearbeitenden Materials.
„Alleinstellungsmerkmal des ReDesigners
ist (...) vor allem die automatische Erkennung von
Formaten, bevor der eigentliche Separationsprozess
von Information und Layout erfolgt. Der derzeit auf
dem Markt erscheinende ‚Blade Runner‘
der Firma Interleaf ist als klassisches Beispiel zu
erwähnen, der über die Möglichkeiten
der Trennung von Layout und Information verfügt,
aber ein spezielles Format benötigt, um sie lesen
zu können. Eine Vorformatierung der Daten ist
erforderlich. Nicht so beim ReDesigner, gerade
das automatische Erkennen von Formaten macht den ReDesigner
so effizient“, schreibt Dipl.-Ing. Dieter Maier
vom Fraunhofer TEG in einem Gutachten.
Für den Fall, dass der Quellcode
eines Datensatzes nur binär (z.B. WORD) vorliegt,
wird eine Konverterfunktion abgerufen, um diesen in
einer benutzerfreundlicheren Syntax, etwa HTML, aufzubereiten.
Konverter sind ja bekanntlich nichts neues, entscheidend
ist hier die funktionale Platzierung solcher Tools
im Gesamtsystem.
Den Kern der Funktion bildet die eigentliche
Trennung Semantik – Syntax, das sogenannte Information
Retrieval. In der Auflösung der damit verbundenen
Problematik liegt denn auch die wesentliche Innovation
der SOLYP-Entwickler. Analysiert wird in der Hauptsache
mit regulären Ausdrücken, also genau wie
bei der Verwendung von PERL. Nur ist es mit dem ReDesigner
gelungen, einen wesentlich mächtigeren Algorithmus
zu entwickeln, der zum einen die beschriebene Expansion
derselben kontrollierbar macht und zum anderen sämtliche
Möglichkeiten, einen string zu zerlegen, verfolgt.
Der Algorithmus selbst ist verständlicherweise
ein wohl gehütetes Geheimnis, funktional betrachtet
generiert er, ähnlich wie bei Java, eine zusätzliche,
objektorientierte Abstraktionsebene: Anstatt in einer
unendlichen Zeichenkette wird das Ergebnis der verschiedenen
matches für eine Datei in Form einer übersichtlichen,
benutzerfreundlichen Baumstruktur erzeugt. Zusätzlich
bietet der ReDesigner eine Menge weiterer Features.
Herausragend sind in diesem Kontext „Lernfähigkeit“
sowie eine Art „Dialog-Funktion“: Sollten
mehrere gleichwertige Möglichkeiten vorliegen,
einen string zu analysieren, bietet Anwendung eine
Hilfsfunktion bei der Auswahl der weiter zu verfolgenden.
Lernfähigkeit beweist die Applikation, indem
sie innerhalb eines Datensatzes bereits fertiggestellte
Analyseschritte dazu heranzieht, Hypothesen über
die Struktur der noch zu bearbeitenden Teile zu entwerfen,
was praktisch eine sukzessive Beschleunigung des Arbeitsablaufs
insgesamt nach sich zieht.
In der Datenhaltung- und Ausgabe fungiert
die Applikation auf Basis der multilingualen Metasprachen
XML bzw. SGML wiederum als formatunabhängige,
unbegrenzt kommunikative Schnittstelle. Die extrahierte
Information kann in jedem beliebigen Format –
WORD, PDF-Files, Quark-Express, etc. - an beliebige
Redaktionssysteme weitergegeben werden. Dies eröffnet
die Option, den ReDesigner als Schnittstelle
zwischen Intranet und medienneutraler Datenbank einzusetzen.
Hier arbeitet die Applikation als „Wiederaufbereitungsanlage“
für Dokumente, die in den Workflow integriert
oder im Hinblick auf crossmediale Publikation generiert
werden sollen.
Perspektiven
„Die Konkurrenz schläft
nicht. Um die weltweite Technologieführerschaft
zu behalten, haben wir ein Entwicklerteam vom Tagesgeschäft
freigestellt, das den ReDesigner vom Prototypen
zur Produktreife bringt. Schwerpunktmäßig
werden wir mit Hilfe von Ansätzen aus der KI-Forschung
versuchen, die kommunikativen Potenziale der Applikation
bis zum Optimum auszureizen“, skizziert SOLYP-Geschäftsführer
Alexander Zimmermann die weiteren Vorhaben seines
Unternehmens.
Im einzelnen ist ein schrittweises
Vorgehen im Zuge der Weiterentwicklung des ReDesigner
geplant. Einzelne Bausteine der Applikation werden
Zug um Zug optimiert und in den Prototypen integriert,
gleichzeitig sind zusätzliche Features wie beispielsweise
ein Basis-Redaktionssystem in Planung. Das „look
and feel“ der Benutzeroberfläche soll bis
dahin verbessert werden, dass diese, je nach Geschmack
und Bedarf, bei gleicher Logik ausgetauscht werden
kann - geplant ist, den ReDesigner in eine
Java-Umgebung zu implementieren. Mittelfristig wollen
die Entwickler ein Baukastensystem schaffen, das sich
der Endanwender nach Bedarf zusammenstellen kann.
Eine Vision für die fernere Zukunft ist der
Ausbau der System-Intelligenz: Auf der Basis neuronaler
Netze könnte irgendwann eine intelligente Software
entstehen, die als multilinguales System selbstätig
sämtliche Inkompatibilitätsprobleme zwischen
verschiedenen Plattformen beseitigt und so der digitalisierten
Kommunikation unbegrenzte Möglichkeiten eröffnet.
zurück
|