Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD DEVICE AND COMPUTER PROGRAMME FOR ARCHIVING A DATA FLOW
Document Type and Number:
WIPO Patent Application WO/2002/019086
Kind Code:
A2
Abstract:
The invention relates to a method, device or a computer programme for archiving a print data stream, produced by a computer (Host), whereby several document templates are produced from a number of possible index parameters and stored, each containing a group of index parameters, a print data stream for archiving is fed to an indexing unit (CIS) (data acquisition), a document template is assigned to the print data stream (data attribution), index data are formed from the print data stream using the document template, container document data are formed from the print data stream and corresponding index data and container document data are logically connected by a document ID and placed in an archive memory (16, 23).

Inventors:
LIBION FABIAN (BE)
PARDONGE PIERRE-ETIENNE (BE)
Application Number:
PCT/EP2001/009953
Publication Date:
March 07, 2002
Filing Date:
August 29, 2001
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
OCE PRINTING SYSTEMS GMBH (DE)
LIBION FABIAN (BE)
PARDONGE PIERRE ETIENNE (BE)
International Classes:
G06F3/12; (IPC1-7): G06F3/12
Domestic Patent References:
WO1999012337A21999-03-11
Foreign References:
US5940584A1999-08-17
Attorney, Agent or Firm:
Schaumburg, Karl-heinz (Postfach 86 07 48 München, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zum Archivieren von Druckdatenströmen, die von einem Computer (4, Host) abgegeben werden, bei dem aus einer Vielzahl möglicher Indizierungsparameter (index parameters) mehrere Indizierungssets (document templates) gebildet und abgespeichert werden, die je weils eine Gruppe von Indizierungsparametern enthal ten, ein zu archivierender Druckdatenstrom einer Indizie rungseinheit (25, CIS) zugeführt wird (data acquisiti on), dem Druckdatenstrom ein Indizierungsset (document template) zugeordnet wird (data attribution), aus dem Druckdatenstrom anhand des Indizierungssets (document template) Indexdaten (index data) gebildet werden, aus dem Druckdatenstrom individuelle Dokumentendaten (container document data) gebildet werden und zusammengehörige Indexdaten und Dokumentendaten mit tels Kennummern (document ID) logisch verbunden und in einem Archivspeicher (16,23) abgelegt werden.
2. Verfahren nach Anspruch 1, wobei die Indizierungsin formationen (61, document templates) in einem vorbe stimmten Speicherbereich des Computers (4, Host) und/oder im Druckdatenstrom enthalten sind.
3. Verfahren nach einem der Ansprüche 1 oder 2, wobei der Datenstrom dateiweise in einem Zwischenspeicher (42, 43, entry point) abgelegt wird.
4. Verfahren nach Anspruch 3, wobei mehrere Zwischenspei cher (42,43, shared folders) vorgesehen sind und die Dateiablage derart gesteuert wird, dass in einem vor bestimmten Zwischenspeicher (42,43, shared folder) jeweils nur Dateien (documents) abgelegt werden, denen ein und dasselbe Indizierungsset (61, document templa te) zugeordnet sind.
5. Verfahren nach Anspruch 4, wobei der Zwischenspeicher (42,43, shared folder) von einem Uberwachungsmodul (acquisition service daemon) fortwährend auf neu hin zugekommene Dateien überwacht wird (automatic file de tection) und nach dem Feststellen einer neuen Datei eine Indizierung der Daten der neuen Datei eingeleitet wird.
6. Verfahren nach Anspruch 5, wobei eine Datei nach der Ablage im Zwischenspeicher (42,43) automatisch einer Datenvalidierungskomponente (44, validation component) zugeführt wird, in der Daten des Datenstroms hinsicht lich Ihres Datenformats (date, integer, float) mit den Ihnen zugeordneten Indizierungsparametern verglichen und mit dem Ergebnis auf Ihre ArchivierungsIntegrität überprüft werden.
7. Verfahren nach einem der vorhergehenden Ansprüche wo bei automatisch geprüft wird, ob das Indizierungsset (61, template) bestimmte zur Archivierung benötigten Indizierungsdaten enthält und je nach Überprüfungser gebnis entweder fehlende Indizierungsdaten automatisch ergänzt oder zur Auswahl angeboten oder zur Eingabe abgefragt werden.
8. Verfahren nach einem der vorhergehenden Ansprüche, wo bei zusätzlich zu den Indexdaten eines Indizierungs sets (document template) ergänzende Indexdaten archi viert werden, die dokumentenspezifisch aufgrund von Indizierungsdaten, die im Druckdatenstrom enthalten sind, gebildet werden.
9. Verfahren nach einem der vorhergehenden Ansprüche, wo bei zusätzlich zu den Indexdaten Zugangsberechtigungs daten (security attributes) dokumentenweise im Archiv (16,23) abgespeichert werden.
10. Verfahren nach einem der vorhergehenden Ansprüche, wo bei Zuordnungsregeln (rules) für die Zuordnung der In dizierungssets (61, document templates) und/oder der Zugangsberechtigungsdaten vorgegeben werden, insbeson dere druckauftragsweise (jobweise) oder dokumentenwei se, bevor die Zuordnung (data attribution) erfolgt.
11. Verfahren nach einem der vorhergehenden Ansprüche, wo bei die Zuordnung des Indizierungssets (document tem plate) zum Druckdatenstrom automatisch anhand von In dizierungsinformationen erfolgt, die im Druckdaten strom enthalten sind (rules in the client applicati on).
12. Verfahren nach einem der vorhergehenden Ansprüche, wo bei aus Ressourcen, die in dem Druckdatenstrom enthal ten sind, zusätzlich Ressourcendaten gebildet werden, die mit den Dokumentendaten und den Indexdaten über die Dokumentennummer (document ID) logisch verknüpft sind.
13. Verfahren nach einem der vorhergehenden Ansprüche, wo bei im Archivspeicher (16,23) jeweils für mehrere Do kumente (n : 1 relation) eine Indexinformationsdatei (61, document template) abgelegt wird, in der die zu den Dokumenten gebildeten Indices enthalten sind.
14. Verfahren nach Anspruch 13, wobei die Indexinformati onsdatei (61, document template) zum Bilden einer Suchmaske (query mask) verwendet wird, wenn nach den Dokumenten gesucht wird.
15. Verfahren nach einem der vorhergehenden Ansprüche, wo bei der Datenstrom auf ein vorbestimmtes Datenformat konvertiert wird, bevor in der Indizierungseinheit die Indexdaten gebildet werden.
16. Verfahren nach einem der vorhergehenden Ansprüche, wo bei der Datenstrom ein AdvancedFunctionPresentation Datenstrom (AFP), insbesondere im Format MO : DCA, ist.
17. Verfahren nach einem der vorhergehenden Ansprüche, wo bei der Druckdatenstrom vom Computer (4, Host) einer SpoolingEinrichtung zugeführt wird, in der gleichzei tig mehrere Druckdatenströme (jobs) zwischenspeicher bar sind und von dem der Druckdatenstrom einem Druck gerät (6,7) zugeführt wird und der Druckdatenstrom in der SpoolingEinheit (20) von einem DetektorModul (Archive Detector, 32) untersucht wird und bei Feststellung vorbestimmter Archivierungs Informationen einer Archivierungseinheit (23) zuge führt wird.
18. Verfahren zum Auffinden (retrieval) eines Dokuments in einem Archivspeicher (16,23), in dem sowohl Dokumen tendaten als auch Indizierungsdaten abgespeichert sind, wobei aus den in dem Archivspeicher (16,23) abgelegten Indizierungsdaten eine individuelle Such maske (72) erzeugt wird, anhand der die Suchkriterien eingegeben werden und das Dokument automatisch gesucht wird.
19. Verfahren nach Anspruch 18, wobei die Indizierungsda ten und/oder die Dokumentendaten nach einem Verfahren gemäß einem der Ansprüche 1 bis 17 abgespeichert sind.
20. Vorrichtung zum Durchführen eines Verfahrens nach ei nem der Ansprüche 1 bis 19.
21. Computerprogrammprodukt, welches beim Laden und Ablau fen auf einem oder mehreren Computern ein Verfahren nach einem der Ansprüche 1 bis 17 bewirkt.
Description:
Verfahren, Gerät und Computerprogramm zum Archivieren ei- nes Druckdatenstroms Die Erfindung betrifft ein Verfahren, ein Gerätesystem und ein Computerprogramm zum Archivieren eines Druckdaten- stroms. Sie ist insbesondere zur kommerziellen Anwendung in Rechenzentren geeignet, in denen unter Hochgeschwindig- keits-Produktionsbedingungen umfangreiche Datenströme in kurzer Zeit archiviert werden müssen.

In Großrechenzentren werden Daten typischerweise in einem Host Computer (Main Frame) verarbeitet, Druckdaten in ei- nem Spooling-Vorgang zusammengetragen und daraus Druckauf- träge (Jobs) generiert, die derart zur Ausgabe auf Hochleistungsdrucksystemen angepaßt sind, dass die Hochleistungsdrucksysteme im Produktionsbetrieb zeitlich optimal ausgelastet werden können. Sie können dabei weit- gehend im kontinuierlichen Betrieb eingesetzt werden.

Derartige Hochleistungsdrucker mit Druckgeschwindigkeiten von etwa 40 DIN A 4 Seiten pro Minute bis zu über 1000 DIN A 4 Seiten pro Minute sind beispielsweise in der Veröf- fentlichung"Das Druckerbuch", herausgegeben von Dr. Gerd Goldmann (Oce Printing Systems GmbH), Ausgabe 4C, Oktober 1999, ISBN 3-000-00 1019-X beschrieben. Im Kapitel 12 (Seiten 12-1 bis 12-18) dieser Publikation ist das unter dem Namen PRISMA PROs bekannte Server-System beschrieben, welches in Produktions-Druck-Umgebungen der Aufbereitung von Druckdatenströmen dient.

Ein typisches Druckdatenformat in elektronischen Produkti- ons-Druck-Umgebungen ist das Format"Advanced Function Presentation", abgekürzt AFP, welches beispielsweise in der Publikation Nr. F-544-3884-01 der Firma International Business Machines Corp. (IBM) mit dem Titel"AFP Program- ming Guide and Line Data Reference"beschrieben ist. Der Druckdatenstrom AFP wurde weiterentwickelt zu dem Druckda-

tenstrom MO : DCA, welcher in der IBM-Publikation SC31-6802- 04 mit dem Titel"Mixed Object Document Content Architec- ture Reference"beschrieben ist. Weitere Details dieses Datenformats, insbesondere die Verwendung von strukturier- ten Feldern (structured fields), sind auch in der US-A- 5,768,488 beschrieben.

Mit den Datenformaten AFP bzw. MO : DCA ist es möglich, Do- kumente zwischen verschiedenen Plattformen und/oder Anwen- dungen wie Spoolern, Viewern, Archivierungssystemen etc. auszutauschen. In der US-A-5,727,220 und in der US-A- 5,717,922 sind entsprechende Verfahren und Systeme be- schrieben, in denen zusammengehörige Objekte eines Doku- ments über einen strukturierten Datenstrom wie MO : DCA oder IPDS (Intelligent Print Data Stream) verarbeitet werden.

Von der Firma IBM ist des weiteren ein unter der Bezeich- nung ACIF bekannt gewordene Programm geschaffen worden, mit dem es möglich ist, Druckdatenströme zu konvertieren und zu indizieren. Die ACIF-Anwendung ist in der IBM- Broschüre G544-3824-00 mit dem Titel"Conversion and inde- xing facility application programming guide"sowie in der IBM-Broschüre Nr. S544-5285-00 mit der Bezeichnung, AFP conversion and indexing facility (ACIF) user's guide"be- schrieben.

In der US-A-5,613,110 ist ein Verfahren zum Indizieren von Daten beschrieben. Ein weiteres Verfahren zum Indizieren von Daten ist in der von der Anmelderin eingereichten deutschen Patentanmeldung Nr. 100 17 785.9 mit dem inter- nen Aktenzeichen 2000-0303 DE beschrieben. Die Daten wer- den dabei zunächst in ein normiertes Datenformat umge- setzt, dann indiziert und können schließlich nach vorgege- benen Sortierparametern sortiert werden, bevor sie zur weiteren Verarbeitung, z. B. zum Drucken und/oder Archivie- ren ausgegeben werden. Das dort beschriebene System bzw.

Verfahren (converting, indexing, sorting, abgekürzt CIS)

eignet sich insbesondere zur Anwendung in Datenströmen wie AFP, die einer normierten Einteilung in variable Daten und statische Ressourcendaten folgen.

In der WO 99/12337 A2 ist ein Verfahren und ein Gerät zum elektronischen Archivieren eines Computer-Datenstroms be- schrieben, bei dem zu archivierende Daten bildpunktweise abgespeichert werden und in einem elektronischen Lang- zeitspeicher, beispielsweise auf einer optischen Speicher- platte oder einer CD-ROM indiziert abgespeichert werden.

Die gespeicherten Daten können dann zu einem beliebigen späteren Zeitpunkt anhand der Indexdaten elektronisch auf- gefunden werden. Danach können sie durch elektronische An- zeige oder durch Ausdrucken exakt reproduziert werden. In der US 5,404,435 ist ein Archivierungssystem für Objekte beschrieben, die keine Texte enthalten.

Die Inhalte der oben genannten Veröffentlichungen und Pa- tentanmeldungen werden hiermit durch Bezugnahme in die vorliegende Beschreibung aufgenommen.

Es ist Aufgabe der Erfindung, das hochperformante Archi- vieren von Datenströmen zu ermöglichen.

Diese Aufgabe wird durch die in den unabhängigen Patentan- sprüchen beschriebene Erfindung gelöst. Vorteilhafte Aus- führungsformen sind Gegenstand der Unteransprüche.

Gemäß einem ersten Aspekt der Erfindung werden aus einer Vielzahl möglicher Indizierungsparameter, nach denen sich Druckdatenströme einteilen lassen, verschiedene Indizie- rungssets, sog. Dokument Templates gebildet und abgespei- chert. Ein Dokument Template enthält dabei jeweils eine Gruppe von Indizierungsparametern, mit denen jeweils der Inhalt eines Dokuments inhaltlich erschließbar ist.

Gemäß dem ersten Aspekt der Erfindung ist weiterhin vorge- sehen, dass ein zu aktivierender Druckdatenstrom einer In- dizierungseinheit zugeführt wird, wobei dem Druckdaten- strom ein Indizierungsset zugeordnet wird und anhand des Indizierungssets aus dem Druckdatenstrom Indexdaten gebil- det werden. In einem weiteren Schritt werden aus dem Druckdatenstrom individuelle Dokumentendaten gebildet und jeweils zusammengehörige Indexdaten und Dokumentendaten mittels Kennummern logisch verbunden und dann die Indexda- ten, die Dokumentendaten und die Kennummern in einem Ar- chivspeicher abgelegt.

Mit der Erfindung wird damit ein System geschaffen, durch das Datenströme vollautomatisch indiziert und archiviert werden können. Dies ermöglicht insbesondere, Druckdaten- ströme, die von einem Host-Computer an Spooling-Systeme übertragen werden, automatisch zu untersuchen, zu indizie- ren und zu archivieren. Insbesondere AFP-Druckdatenströme können dabei automatisch speicheroptimiert archiviert wer- den, indem statische Resourcen-Daten, die in mehreren Do- kumenten identisch vorkommen, nur einmalig abgespeichert werden und über entsprechende Verbindungen (Kennummern) den zugehörigen Indexdaten und variablen Daten zugeordnet werden. Als Indizierungseinheit wird insbesondere ein Com-- puterprogramm verwendet, das in der Lage ist, eingehende Daten auf ein einheitliches Datenformat zu konvertieren, diese Daten zu indizieren und die Daten nach vorgegebenen Parametern zu sortieren. Erfindungsgemäß ist insbesondere vorgesehen, ein derartiges Computerprogramm bzw. Modul zweifach zu verwenden, nämlich einerseits zum Aufbereiten eines Druckdatenstroms zur sortierten Zuführung an ein Druckgerät und andererseits zum Indizieren desselben oder eines beliebigen anderen Druckdatenstroms für Archivie- rungszwecke.

Die erfindungsgemäß archivierten Daten können mit an sich bekannten Verfahren zum Aufsuchen, Laden, Betrachten

und/oder Drucken von Daten erfolgen, beispielsweise durch Anwenderprogramme, die einen Zugriff auf die archivierten Daten über ein Netzwerk, z. B. über das Internet, erlauben.

In einem weiteren Aspekt der Erfindung werden Dateien des zu archivierenden Datenstroms in einem Zwischenspeicher abgelegt, der von einem Überwachungsmodul fortwährend auf neu hinzugekommene Dateien überwacht wird. Diese Zwischen- speicherung kann beispielsweise im Rahmen eines Druckda- tenspoolings erfolgen, wobei eine Spoolingdatei entweder im Spooler oder in einem mit dem Spooler verbundenen Sy- stem zwischengespeichert und hinsichtlich einem oder meh- reren Indizierungssets, die vorgegebene Indizierungspara- meter enthalten, untersucht wird. Dabei kann auch vorgese- hen sein, dass das Indizierungsset automatisch dahingehend geprüft wird, ob bestimmte, zur Archivierung benötigten Indizierungsparameter enthalten sind, und je nach Überprü- fungsergebnis entweder fehlende Indizierungsdaten automa- tisch ergänzt oder zur Auswahl angeboten oder zur Eingabe abgefragt werden.

In einem weiteren Aspekt der Erfindung ist vorgesehen, dass zusätzlich zu den Indexparametern eines Indizierungs- sets im Zuge der Archivierung ergänzende Indexdaten doku- mentenspezifisch aufgrund eines im Dokument enthaltenen, insbesondere von einem Anwender erzeugten, Indizierungs- sets gebildet werden.

Die Indizierungsdaten sind benutzerdefiniert und können neben üblichen Daten wie Namen, Adressen, Postleitzahlen, Rechnungsnummern auch Zugangsberechtigungsdaten enthalten, die Zugriffsberechtigungen auf die jeweiligen Dokumente angeben. Die Zugangsberechtigungsdaten werden vorzugsweise im Archivspeicher abgelegt und im Zuge eines späteren Ab- rufs er archivierten Daten zur Steuerung der Datenfreigabe verwendet. Derartige Zugriffsberechtigungsdaten, z. B. die Restriktion des Zugriffs auf eine bestimmte Anwendergruppe

(Operator, Administrator, Finanzabteilung) können dann bei dem späteren Suchen von Daten den Zugriff regeln.

In einem weiteren Aspekt der Erfindung wird ein Verfahren und/oder ein System bereitgestellt, mit dem Dokumente, die zusammen mit den Indizierungssets abgespeichert wurden, aufgefunden werden, wobei in dem Archivspeicher abgelegte Indizierungsdaten verwendet werden, um eine individuelle Suchmaske zu erzeugen, anhand der die Indizierungsdaten entsprechende Suchkriterien eingegeben werden können und das Dokument automatisch gesucht wird.

Nachfolgend werden Ausführungsbeispiele der Erfindung an- hand einiger Figuren näher beschrieben : Es zeigen : Figur 1 : Komponenten einer Druckproduktionsumgebung Figur 2 : Einen typischen Ablauf, bei dem Druckdaten einem Drucker und/oder einem Archiv zugeführt werden Figur 3 : Archivierungskomponenten Figur 4 : Details des Spoolers Figur 5 : Eine Archivierungskomponente Figur 6 : Wesentliche Prozeßschritte der Archivierung Figur 7 :

Erweiterte Prozeßschritte und Schnittstellen der Archivie- rung Figur 8 : Die logische Verbindung zwischen Daten des Datenstroms und verschiedenen Dokument Templates Figur 9 : Eine Konvertierungs-Indizierungs-und Sortiereinheit Figur 10 : Daten eines Dokument Templates Figur 11 : Eine Suchmaske In Figur 1 ist ein Hochleistungsdrucksystem 1 gezeigt, bei welchem verschiedene System-Komponenten über ein Daten- netzwerk 2, welches ein lokales Netz (Local Area Network, LAN) oder auch ein größeres Netzwerk (Wide Area Network, WAN) sein kann. An dem Netzwerk 2 hängt mindestens ein Client-Terminal 3, an dem Druckaufträge erzeugt werden können. Das Terminal 3 ist ein an sich bekannter Computer (z. B. Personal Computer PC) mit angeschlossenem Bildschirm 3a.

Die Druckaufträge können wahlweise auch auf einem Hauptcomputer (Main Frame) 4 erzeugt werden und/oder Daten von dem Main Frame 4 in den Druckauftrag eingefügt werden.

Der Main Frame 4 des Rechenzentrums wird über eine geeig- nete Betriebssystem-Steuerung wie MVS, BS2000 oder VSE ge- steuert. Am Main Frame 4 können Steuerungsfunktionen und Anzeigen über den daran angeschlossenen Bildschirm 4a er- folgen. An den Hauptcomputer 4 (Main Frame) ist außerdem ein Bandlesegerät 5 sowie ein erster Hochleistungsdrucker 6 direkt angeschlossen.

Am Datennetzwerk 2 sind außerdem ein zweiter Drucker 7, ein Druckserver 8 sowie ein Archivserver 9 angeschlossen.

Der Druckserver 8 wiederum ist mit einem zweiten Bandlese- gerät 10 sowie einem Bildschirm 8a verbunden. Zusätzlich zur Verbindung 11 zwischen dem Druckserver 8 und dem Haupt-Datennetz-werk 2 ist der Druckserver 8 über die Ver- bindung 12 mit einem zweiten, lokalen Netzwerk 15 verbun- den, an dem weitere Drucker 13,14 angeschlossen sind. Der Druckserver 8 sowie der Drucker 14 können optional mit ei- ner Anlage 16b zur Produktion von Archivspeichern 16, z. B. mit einer Schreibeinrichtung für optische Speicherplatten (CD-ROM, DVD), Magnetspeicherplatten (magnetic disks), Bandspeicher, Kassettenspeicher,"write once read many" (WORM)-Einrichtungen, oder für andere, nicht löschbar Speicher, verbunden werden. Die Archivanlage 16 arbeitet aber hauptsächlich mit dem Archivserver 9 zusammen. Über zusätzliche Bildschirme 9a, 16a und 14 a können die je- weils mit ihnen verbundenen Geräte 9,16 und 14 bedient und optional auch Verbindungen zu anderen, an das Netzwerk 2 angeschlossene Komponenten hergestellt werden.

Figur 2 zeigt Grundkomponenten für die Archivierung. Der von dem Host Computer 4 abgegebene Datenstrom wird in ei- nem Spooler 20 gesammelt, wobei Parameter des Spoolers 20 von einem Bediener über eine Administrator-Einheit 21 ein- gegeben bzw. bereitgestellt werden. Der Spooler 20 ist als Software-Programm im Druckserver 8 oder im Host-Computer 4 installiert. Er nutzt verschiedene Einrichtungen (Interfa- ces, Speicher, Bussystem) des Servers 8 und/oder des Host- Computers 4. Der Spooler 20 gibt dann eine Spool-Datei 22 aus und führt sie dem Drucker 6 und/oder einer Archivie- rungskomponete 23 zu. Von dort können die einzelnen Doku- mente auf Arbeitsplätzen 24 zur Anzeige gebracht oder wie- derum ausgedruckt werden.

Die Spool-Datei kann in verschiedenen Datenformaten, bei- spielsweise im Zeilendatenformat (Line Data) oder im AFP-

Format übertragen werden. Im Zuge der Archivierung werden die Dokumente mit allen benötigten Informationen abgespei- chert, so dass es in originaler Druckqualität jederzeit wieder abgerufen und dupliziert werden kann, selbst wenn sich die Computersystem-Umgebung oder die Druckumgebung zu einem späteren Zeitpunkt geändert hat. Die Arbeitsplätze 24 können auf die Archivkomponente 23 insbesondere über ein Netzwerk zugreifen, beispielsweise auch über das In- ternet, wobei der Zugriff dabei durch an sich bekannte Browser-Technologien wie dem Browser Microsoft Internet Explorer@ oder dem Netscape Communicator@ eingesetzt wer- den können.

Figur 3 zeigt einige Details und beteiligte Komponenten der Archivierung. Innerhalb der Spooling-Einheit 20 wird überprüft, ob eine Spooling Datei zu archivieren ist. Ggf. wird die Spooling Datei einem Programm Modul 25 zugeführt, welches aus der Spool-Datei drei Datensätze erzeugt, näm- lich variable Daten 26a, Indexdaten 26b und Resourcendaten 26c. Zur Erzeugung dieser drei Datensätze ist insbesondere eine Konvertierungs-, Indizierungs-, Sortierungseinheit (CIS) vorgesehen, wie sie in der bereits eingangs genann- ten deutschen Patentanmeldung Nr. 100 17 785.9 der Anmel- derin beschrieben ist.

Die Datensätze 26a, 26b und 26c werden dann dem Speicher- system 27 (umfassend den CD ROM Archivspeicher 16 und den Archivserver 9) zugeführt und können später von den über das Netzwerk angebundenen Arbeitsplätzen 24 abgefragt und abgerufen werden.

Figur 4 zeigt Details des Spooling Systems 20. Datenströ- me, insbesondere AFP-Datenströme, die am Eingangsmodul 30 ankommen, werden im Druckauftragsgenerator 31 mit den Re- sourcendaten verbunden. Dazu können dem Druckauftrag ent- sprechende Archivierungsregeln, wie z. B. die Angabe einer Sammlung von Indizierungsparametern (Dokument Templates),

Zugriffsinformationen etc. bereits bei der Erstellung des Druckauftrags in einem Anwenderprogramm oder im Host Com- puter beigefügt werden. Im Archiverkennungsmodul 32 wird der vollständige Druckauftrag (job) auf Parameter unter- sucht, die festlegen, dass der Druckauftrag zu archivieren ist. Nach dem Erkennen eines Archivierungsparameters lei- tet es den Druckauftrag an die Indizierungskomponente 25 weiter. Im Druckauftrag enthaltene Attribute, beispiels- weise die o. g. Archivierungsregeln oder typische Attribute innerhalb des MO : DCA Datenstroms, können dabei in entspre- chende Attribute umgesetzt werden, die das Archivsystem erkennt. Die Eingangsattribute bzw. Eingangsparameter kön- nen dabei hinsichtlich ihrer Gültigkeit und Vollständig- keit abgeprüft werden. Falls in diesen, im Druckdatenstrom enthaltenen Parametern Fehler enthalten sind, werden diese mit einem Korrekturprogramm erkannt und ggf. korrigiert.

In Figur 5 sind nochmals wesentliche Einheiten der Archi- vierungskomponente 23 gezeigt, sowie verschiedene, damit zusammenwirkende andere Komponenten. Die Archivierungskom- ponente 23 wird von Eingangsparameter und Regeln 31 ge- steuert, die in einer Steuerungsdatei 39 abgelegt sind.

Diese Parameter und Regeln werden zum über eine Admini- stratoranwendung 32 manuell über ein grafisches Benutzer- Interface (graphical user interface, GUI) oder über ein Interface auf Kommandoebene (command line interface, CLI) in die Archivierungskomponente 23 eingegeben. Alternativ dazu können diese Parameter und Regeln 31 auch automatisch durch Anwendungen 33,34,35 der Archivierungskomponente 23 über ein Interface auf Anwendungsprogrammebene (appli- cation program interface, API) zugeführt werden.

Die Archivierungskomponente 23 enthält zur Verarbeitung der Druckdatenströme drei Verarbeitungskomponenten : Erste Komponente : Datenbeschaffung (Data Acquisition)

Eine erste Verarbeitungskomponente ist die Datenbeschaf- fungskomponente 36. Mit ihr wird gesteuert, über welchen Weg (Schnittstelle) der Datenstrom bzw. die darin enthal- tenen Dokumente in das Archivierungssystem 23 aufgenommen werden, beispielsweise über die oben genannte Indizie- rungseinheit 25. Sie bildet damit quasi ein Eintrittstor (Entry Point) in das Archivsystem. Die Flexibilität und Schnelligkeit des Systems ergibt sich insbesondere da- durch, dass über die automatische Definition von Regeln und Eingangsparametern (vergleiche Anwendungen 33,34,35) Daten vollautomatisch in das Archivierungssystem 23 aufge- nommen werden können. Das ermöglicht insbesondere in Hochleistungsdruckumgebungen, dass große Spooling Dateien, die regelmäßig eine ähnliche oder identische Struktur ha- ben, vollautomatisch mit hoher Geschwindigkeit in das Speichersystem aufgenommen werden. Derartige große Spoo- ling Dateien haben häufig eine bekannte Datenstruktur, wo- durch die Bearbeitung derartiger Druckströme nach vorgege- benen Regeln erfolgen kann. Diese Regeln können entweder innerhalb des Datenstroms enthalten sein und automatisch in das Archivierungssystem 23 eingespielt werden, oder sie können manuell über das Administratormodul 32 erzeugt wer- den und als Indexparameterset in der Datenbank 39 des Speichersystems hinterlegt werden.

Um die Archivierung vollautomatisch korrekt steuern zu können, müssen Archivierungsregeln festgelegt werden. Im vorliegenden System können dabei zum einen Regeln über Ei- genschaften und Beschreibungen des Datenstroms sowie Sets von Indizierungsparametern (Document Templates) angegeben werden und zum anderen Sicherheitsparameter.

Die Indizierungsparameter bestehen aus Werten, die für den Anwender hinsichtlich der Dokumenteninformationen oder Do- kumententypen von Bedeutung sind. Sie können im Zuge der späteren Dokumentensuche (Retrieval) dazu verwendet wer-

den, Dokumente anhand dieser Parameter einfach aufzufin- den. Beispielsweise können bei Literaturdaten der Autor, der Titel oder die ISBN-Nummer als Indizierungsparameter verwendet werden oder bei Rechnungen die Rechnungsnummer, das Rechnungsdatum, der Rechnungsadressat oder seine Kun- dennummer. Derartige Attribute können entweder manuell über das Administrator-Interface 32 eingegeben werden oder automatisch direkt aus den Dokumentendaten bzw. aus den Anwenderprogrammen 33,34,35, in welchen die Dokumente bzw. der Druckdatenstrom erzeugt wurden, übernommen wer- den.

Neben den Eingabeparametern können auch Regeln vergeben werden, nach denen Archivierungsparameter auf Informatio- nen im Datenstrom oder umgekehrt angewandt werden. Auch dabei ist es zum einen möglich, derartige Regeln bereits im Datenstrom bzw. in den Datenstrom erzeugenden Anwendun- gen 33,34,35 anzugeben, oder die Regeln mit dem Admini- strator-Interface 32 im Archivsystem festzulegen.

Zweite Komponente : Datenzuordnung (Data Attribution) Wenn die Datenbeschaffung abgeschlossen ist, werden inner- halb einer Datenzuordnungskomponente 37 Zuordnungswerte gesammelt und/oder aus dem Datenstrom extrahiert, die be- nötigt werden, um das Dokument innerhalb des Archivsystems korrekt anzuordnen. Diese Attribute erlauben das spätere Finden des Dokuments genauso wie das Absichern eines Doku- ments vor unberechtigtem Zugriff. Die Zuordnung basiert auf den Eingangsparametern, die in der Datenbeschaffungs- phase von der Datenbeschaffungskomponete 36 ermittelt wur- den.

Dritte Komponente : Datenspeicherung (Data Storage) Wenn die Datenzuordnung abgeschlossen ist, können die Do- kumente zusammen mit ihren Attributen im Archiv abgespei-

chert werden, wobei die Dokumente in einem Dokumentenbe- reich abgelegt werden, mit einer individuellen Dokumenten- nummer versehen und über diese Dokumentennummer mit ihren Attributen logisch verbunden werden. Die Attribute werden in einer Kontrolldatenbank 39 des Speichersystems abge- legt. Die Dokumentendaten und ggf. Resourcen, die zu die- sen Dokumentendaten gehören, werden im Speicherbereich 40 des Archivspeichers abgelegt.

In Figur 6 ist gezeigt, wie die Phase der Datenbeschaffung (Data Acquisition) innerhalb der Archivierungskomponente 23 gesteuert wird.

Dazu ist eine Acquisition Service-Routine 41 vorgesehen, die ständig überwacht, ob neue Dateien in vorbestimmten Speicherbereichen (Ordnern) 42,43 von den Anwendungen 33, 34,35 abgelegt wurden. Jeder Ordner (shared folder) bil- det damit eine Eingangsschnittstelle (entry point) für den Archivierungsprozess. Dabei ist einem bestimmten Ordner (z. B. 42) auch ein bestimmtes Dokument Template zugeord- net, mit dem die in dem Ordner abgelegten Dateien verar- beitet werden. Sobald ein neues Dokument in einem der Ord- ner 42,43 von dem Acquisition Service Daemon 41 entdeckt wurde, überprüft dieses, ob in dem Dokument bzw. in der neu abgelegten Datei Daten enthalten sind, die zur Archi- vierung vorgesehen sind. Eine Validierungseinheit 44 ver- gleicht dann die Daten der im Ordner 42 bzw. 43 abgelegten Datei mit der im zugeordneten Dokument Template abgespei- cherten Sammlung von Parametern hinsichtlich ihres Daten- typs. Ist beispielsweise in dem Dokument Template hinter- legt, dass der Datentyp eine bestimmte Information vom Typ "Zeit"ist, dann muß eine entsprechende Information im Da- tenstrom ebenfalls diesen Datentyp aufweisen. Andernfalls wird ein Fehler gemeldet.

In Figur 7 sind nochmals wesentliche Systemkomponenten ge- zeigt, aus denen auch der Gesamtablauf der Archivierung von Druckdaten deutlich wird.

Das Archivierungssystem 47 umfasst eine Druckumgebung 48 und eine Archivumgebung 49. Sie sind durch eine Archiv- schnittstelle 50 verbunden. Druckdaten, die in Anwender- programmen erzeugt und/oder vom Host Computer bereit ge- stellt werden, werden über die Benutzerschnittstelle 51 dem Spooler Input 20a zugeführt, vom dem sie entweder di- rekt dem Spooler Output zur Zuführung an einen Drucker 7 weitergeleitet oder einer Indizierungskomponente 25 zuge- führt werden. Diese Indizierungskomponente 25 (CIS) bildet anhand von Parametern, die in einer Parameterdatei 52 ab- gespeichert sind und welche von einem Administrator über eine Administrator-Schnittstelle wie einem Graphical User Interface (GUI), einem CLI oder einem API erzeugt wurden, Archivdaten.

Anhand der CIS-Parameter erzeugt die Indizierungskomponen- te 25, welche z. B. der in DE 100 17 785.9 beschriebenen Einheit entspricht, eine Index-Datei, eine Resourcen-Datei und eine Datei mit variablen Daten. Diese drei Dateien werden über die Archivschnittstelle 50 dem Archivierungs- modul 54 zugeführt, in welchem diese jeweiligen Dateien so aufbereitet werden, dass variable Daten und Resourcen über die Dauerspeicher-Schnittstelle einem Massenspeicher 56 (z. B. CD ROM) zugeführt werden können. Die Indexdaten wer- den in einer Datenbank 57 abgespeichert, über die später in einem Suchvorgang (Retrieval) entsprechender Zugriff auf die Massenspeicher 56 erfolgen kann. In der Datenbank werden auch die Indizierungsparametersets (Document Tem- plates) abgespeichert, die vom Administrator über das In- terface 53 eingegeben wurden. Archivparameter können somit über den Ursprungsjob, über das CIS-Modul, über das Inter- face 53 oder innerhalb des Archivsystems 54 festgelegt sein.

Figur 8 zeigt die logische Zuordnung von Datensektionen und Seitengruppen (page groups) in verschiedenen Print- Jobs eines AFP-Druckdatenstroms 60 einerseits und der im Archivsystem hinterlegten Dokument Templates 61, die je- weils eine Sammlung von Indizierungsparametern enthalten.

Die Dokument Templates 60 stellen jeweils eine Sammlung von Indexparametern dar, die einen Namen trägt und zur Steuerung der Indizierung im Archiv verwendet wird. Ein Dokument Template wird während der Aquisitionsphase in den Archivierungsparametern verwendet. Die indizierbaren Da- ten, die in den jeweiligen zu archivierenden Dokumenten enthalten sind, werden deshalb anhand der Dokument Templa- te Struktur analysiert und in der Indexdatenbank abgespei- chert.

Wie aus Figur 8 zu erkennen ist, besteht zwischen einzel- nen Print Jobs und den Dokument Templates eine n : 1 Bezie- hung, d. h. verschiedene Dokumente, die einem Dokument Tem- plate zuzuordnen sind, können aus verschiedenen Druckjobs stammen. Aufgrund dieser Struktur können also mit relativ wenigen Dokument Templates eine Vielzahl von Dokumenten verwaltet werden. Innerhalb der Datenbank 57, in der die Dokument Templates gespeichert sind, wird dadurch nur re- lativ wenig Speicherplatz benötigt, wodurch auch die Such- geschwindigkeit beim Wiederauffinden von Dokumenten zugun- sten des Benutzers sehr schnell ist.

In Figur 9 sind nochmals die wesentlichen Systemkomponen- ten gezeigt, die in der CIS-Komponente gemäß DE 100 17 785. 9 vorgesehen sind. Die von dieser CIS-Komponente erle- digten Aufgaben lassen sich wie folgt kurz beschreiben : Die von der Spooler-Komponente 20 enthaltenen Daten 22 werden in eine plattformunabhängige Datenstruktur (Format MO : DCA/P) konvertiert, dann werden Index-Informationen an- hand der CIS-Parameter 52 aus dem konvertierten Datenstrom

extrahiert und in einer Index-Datei 71 abgespeichert. Re- sourcendaten werden in der Datei 72 abgespeichert und die variablen Daten werden in der Datei 73 abgespeichert. Au- ßerdem ist die CIS-Komponente in der Lage, die Daten ent- sprechend der Parameter 52 umzusortieren. Die wesentli- chen, für die Archivierung nützlichen Funktionen sind die physikalische Trennung des Eingangsdatenstroms in drei Be- reiche, nämlich Indexbereich, Resourcenbereich und Daten- bereich, das Vorliegen der Daten in einem einheitlichen Format (MO : DCA-P) und die logische Aufteilung des Daten- stroms in individuelle Dokumente. Je nach Typ der Eingabe- daten (Line Data oder MO : DCA-P Data) können die individu- ellen Dokumente eines Druckjobs alle vom selben Typ sein (Line Data Input) oder können völlig verschieden sein (MO : DCA-P Input).

Wie in DE 100 17 785.9 beschrieben, wird zur Ausgabe von Daten auf einem Drucker die oben genannte Sortierungsfunk- tion genutzt, diese ist jedoch für die Archivierungszwecke nicht unbedingt erforderlich.

Wenn die Eingangsdaten im AFF-Format vorliegen, so können diese Daten bereits Indexinformationen enthalten. Eine In- dexinformation wird dabei bereits in der Anwender- Anwendung in Form von AFP-Indexinformationen (index secti- ons, index tags) in den Eingangsdatenstrom integriert. Die Komponente CIS 25 extrahiert diese Informationen und schreibt sie direkt in die Indexdatei 71. Die Indizierung ist dabei sowohl auf einem Page Group Level als auch auf einem Page Level möglich.

Außerdem ist es möglich, dass von dem Anwenderprogramm zu- sätzliche Archivierungsinformationen wie z. B. die Dokumen- tenart (classification information) oder Sicherheitsinfor- mationen in den Druckstrom integriert werden.

Wenn der Eingangsdatenstrom im Line Datenformat vorliegt, dann kann die Komponente CIS 25 dynamisch Daten aus dem

Datenstrom auf einem Page Group Level zum Zwecke der Indi- zierung extrahiert. Dies wird durch Bereitstellung ent- sprechender Information über den Ort der Attributwerte in den Daten realisiert. Der Datenstrom bzw. die ihn erzeu- gende Anwendung müssen dann die Indexinformationen nicht einfügen und brauchen deshalb nicht modifiziert zu werden.

Figur 10 zeigt einen typischen Inhalt eines Dokument Tem- plates 61, in dem Anwendernummer (client) Anwendername (client name), Kundennummer (customer number) etc. angege- ben sind.

In Figur 11 ist gezeigt, wie im Zuge des Wiederauffindens (Retrieval) von Dokumenten die zuvor beim Archivieren er- zeugten Dokument Templates verwendet werden. Aus einem Do- kument Template wird dabei automatisch eine Suchmaske 72 gebildet, indem bestimmte Inhalte des Dokument Template, z. B. Rechnungsnummer, Telefonnummer oder Invoice Typ ver- wendet und zum Aufbau einer Suchmaske bereit gestellt wer- den. Dadurch wird als dokumentenspezifisch eine Suchmaske angeboten, die alle Daten enthält, welche indiziert sind und somit ein schnelles Auffinden eines Dokuments erlaubt.

Es wurden Ausführungsbeispiele der Erfindung beschrieben.

Dabei ist klar, dass für die vorliegende Erfindung nicht alle in den Ausführungsbeispielen gezeigten Komponenten vorhanden sein müssen. Insbesondere sind in der Figur 1 verschiedene Komponenten wie das Bandlesegerät sowie das zweite Netzwerk 15 mit allen seinen angeschlossenen Gerä- ten optional vorhanden. Andererseits können Weiterentwick- lungen der Erfindung mit zusätzlichen oder leicht modifi- zierten Komponenten ohne weiteres angegeben werden. Wei- terhin kann die Erfindung sowohl mittels elektronischen Komponenten (Hardware) als auch durch Computerprogrammele- mente (Software oder Softwaremodule) realisiert werden.

Die Erfindung wird dabei insbesondere aus einer Kombinati- on von elektronischen Hardware-Elementen und Softwareele-

menten realisiert. Sie wirkt systemübergreifend über meh- rere Komponenten wie einen Host Computer, einen Spooler, einer Indizierungseinheit und einer CD-ROM Archivierungs- einheit. Dementsprechend erfaßt die Erfindung auch Kompo- nenten, die auf elektronischen Datenträgern, über Compu- ternetzwerke (Internet) verbreitet werden und/oder auf Computern, Servern und insbesondere im Zwischenspeichern bereit gehalten werden.

Bezugszeichenliste 1 Drucksystem 2 Haupt-Datennetzwerk 3 Client-Terminal 3a zweiter Bildschirm 4 Hauptcomputer 4a erster Bildschirm 5 erstes Bandlesegerät 6 erster Drucker 7 zweiter Drucker 8 Druck-Server 8a dritter Bildschirm 9 Archiv-Server 10 zweites Bandlesegerat 11 erste Netzwerkverbindung 12 zweite Netzwerkverbindung 13 dritter Drucker 14 vierter Drucker 14a fünfter Bildschirm 15 zweites Netzwerk 16 CD-ROM-Archivspeicher 16a zusätzliche Bildschirme 16b CD-ROM Schreibeinrichtung 20 Spooler 20a Spooler Input 20b Spooler Output 21 Administrator-Einheit für Spooler 22 Spooler Datei 23 Archivierungskomponente 24 Arbeitsplätze 25 CIS-Komponente 26a Variable Daten 26b Indexdaten 26c Resourcendaten 27 Speichersystem

30 Eingangsinterface 31 Eingangsparameter zur Indizierung 32 Administrator-Komponente 33,34,35 Anwendungen 36 Datenbeschaffungskomponente 37 Datenzuordnungskomponente 38 Datenspeicherungskomponente 39 Datenbank 40 Datenspeicherbereich 41 Acquisition Service 42 Ordner (Zwischenspeicher) 43 Ordner (Zwischenspeicher) 44 Validierungs-Einheit 45 Indizierung 46 Speicherung 47 Archivierungssystem 48 Druckumgebung <BR> <BR> 49 Archivumgebung<BR> 50Archivschnittstelle<BR> 51 Benutzerschnittstelle 52 CIS-Parameterdatei 53 Administrator-Schnittstelle 54 Archivierungsmodul 55 Dauerspeicher-Schnittstelle 56 Dauerspeicher 57 Retrieval-Datenbank 58 Indizierungsparameter 60 AFP-Druckdatenstrom 61 Dokument Template 70 Index-Datei