Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUTOMATIC DATA HARMONISATION
Document Type and Number:
WIPO Patent Application WO/2015/044090
Kind Code:
A1
Abstract:
The present invention relates to a method and a system for automated harmonisation of data that are present in different formats and/or of data models from various heterogeneous data sources or databases, using semantic middleware for data integration and content-oriented data analysis, wherein data from connected data sources are synchronised to the middleware, and the content of said data is subjected to semantic analysis and their semantic typing and designations for attributes are harmonised as meta data, preferably such that the superordinate abstract data model of the integrated data is incrementally extended and harmonised.

Inventors:
WURZER JÖRG (DE)
Application Number:
PCT/EP2014/070141
Publication Date:
April 02, 2015
Filing Date:
September 22, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
IQSER IP AG (CH)
International Classes:
G06F17/30
Domestic Patent References:
WO2004053645A22004-06-24
Foreign References:
US5970490A1999-10-19
US20090282042A12009-11-12
Other References:
None
Attorney, Agent or Firm:
RING & WEISBRODT PATENTANWALTSGESELLSCHAFT MBH (DE)
Download PDF:
Claims:
Ansprüche:

1. Verfahren zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und/oder Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen, unter Verwendung einer semantischen Middleware zur Datenintegration und inhaltlichen Datenanalyse, wobei Daten aus angeschlossenen Datenquellen mit der Middleware synchronisiert werden und diese Daten hinsichtlich ihres Inhalts semantisch analysiert und deren semantische Typisierung und Bezeichnungen für Attribute als Metadaten harmonisiert werden, vorzugsweise derart, dass das übergeordnete, abstrakte Datenmodell der integrierten Daten inkrementell erweitert und harmonisiert wird.

2. Verfahren nach Anspruch 1 , gekennzeichnet durch eine Verwendung der Ähnlichkeiten von Datenobjekten, wobei nach inhaltlich ähnlichen Inhaltsobjekten gesucht wird und bei Auffinden eines Inhaltsobjekts mit einer vorgegebenen oder vorgebbaren Ähnlichkeit dessen semantische Typisierung und die Bezeichnung der übereinstimmenden Attribute übernommen wird.

3. Verfahren nach Anspruch 1 , gekennzeichnet durch eine Verwendung der Ähnlichkeiten von Datenobjekten, wobei die Ähnlichkeit der Gesamtheit von Inhalten eines bestimmten Typs einer bestimmten Datenquelle mit der Gesamtheit von Inhalten eines anderen oder gleichen Typs anderer Datenquellen verglichen wird und bei Existenz von übereinstimmende Attributwerten für eine Mindestanzahl von Attributen eines analysierten Inhaltsobjektes die jeweiligen Attributnamen der Übereinstimmungen und der jeweilige Inhaltstyp für das analysierte Inhaltsobjekt übernommen werden.

4. Verfahren nach Anspruch 1 , gekennzeichnet durch eine Verwendung von regulären Ausdrücken von Datenobjekten, wobei die Attributwerte eines zu analysierenden Inhaltsobjekts in reguläre Ausdrücke umgewandelt und mit Hilfe eines Indexes Inhaltsobjekte von anderen Datenquellen ermittelt werden, deren Attributwerte den regulären Ausdrücken entsprechen, wobei dann, wenn eine relative Mindestanzahl von Attributwerten der besten Treffer den regulären Ausdrücken des zu analysierenden Inhaltsobjektes entspricht, der Typ und die Attributnamen des jeweiligen Treffers für diese Entsprechungen für die Datenharmonisierung übernommen werden.

5. Verfahren nach Anspruch 4, gekennzeichnet durch eine Validierung des besten Treffers für reguläre Ausdrücke der Attribute eines analysierten Inhaltsobjekts, indem für die Attributwerte des Treffers jeweils überprüft wird, ob es einem regulären Ausdruck für Attributwerte eines Inhaltsobjekts entspricht und ob diese Entsprechung eindeutig ist, d. h. dass ein Attributwert nur einem regulären Ausdruck entspricht.

6. Verfahren nach einem der Ansprüche 1 bis 5, gekennzeichnet durch eine Verwendung von Inhaltstypen, wobei die Inhaltsobjekte einer anderen Datenquelle ermittelt werden, die übereinstimmende Attributnamen aufweisen und bei Vorhandensein einer relativen Mindestanzahl von übereinstimmenden Attributnamen der Inhaltstyp für das Inhaltsobjekt, das gerade analysiert wird übernommen wird.

7. Vorrichtung zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und/oder Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen mit einer semantischen Middleware zur Datenintegration und/oder inhaltlichen Datenanalyse.

8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass diese dazu ausgebildet ist, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.

9. Vorrichtung nach Anspruch 7 oder Anspruch 8, dadurch gekennzeichnet, dass diese zur Synchronisierung und/oder Indizierung von Texten und/oder Werten von Metadaten von Datenobjekten ausgebildet ist, wobei die Datenobjekte nicht redundant vorgehalten werden.

10. Vorrichtung nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass diese dazu ausgebildet ist, Metadaten von Datenobjekten zu verwalten, wobei die Metadaten sowohl für jede Instanz einer Klasse von Datenobjekten als auch als eine aggregierte Klasse vorgehalten werden.

11. Vorrichtung nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass diese zur Ausführung einer Metadatenanalyse zur Harmonisierung der aus den Instanzen abgeleiteten abstrakten Sicht in Form von Klassen von Datenobjekten und deren Beziehungen ausgebildet ist, wobei die Metadatenanalyse zur Harmonisierung sowohl inkrementell als auch in zeitlichen Intervallen als Stapelverarbeitung vorgenommen werden kann.

GEÄNDERTE ANSPRÜCHE

beim Internationalen Büro eingegangen am 04. Februar 2015 (04.20.2015)

1. Verfahren zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und/oder Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen, unter Verwendung einer semantischen Middleware zur Datenintegration und inhaltlichen Datenanalyse, wobei Daten aus angeschlossenen Datenquellen mit der Middleware synchronisiert werden, wobei die Daten zur Interoperabilität transformiert werden, und deren Attribute (Metadaten) hinsichtlich ihrer Attributwerte semantisch analysiert und deren Attributnamen sowie die semantische Typisierung der Daten harmonisiert werden.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das übergeordnete, abstrakte Datenmodell der integrierten Daten inkrementell erweitert und harmonisiert wird.

3. Verfahren nach Anspruch 1 oder 2, gekennzeichnet durch eine Verwendung der Ähnlichkeiten von Datenobjekten, wobei nach inhaltlich ähnlichen Inhaltsobjekten gesucht wird und bei Auffinden eines Inhaltsobjekts mit einer vorgegebenen oder vorgebbaren Ähnlichkeit dessen _ semantische Typisierung und die Bezeichnung der übereinstimmenden Attribute übernommen wird.

4. Verfahren nach Anspruch 1 oder 2, gekennzeichnet durch eine Verwendung der Ähnlichkeiten von Datenobjekten, wobei die Ähnlichkeit der Gesamtheit von Inhalten eines bestimmten Typs einer bestimmten Datenquelle mit der Gesamtheit von Inhalten eines anderen oder gleichen Typs anderer Datenquellen verglichen wird und bei Existenz von übereinstimmenden Attributwerten für eine Mindestanzahl von Attributen eines analysierten Inhaltsobjektes die jeweiligen Attributnamen der Übereinstimmungen und der jeweilige Inhaltstyp für das analysierte Inhaltsobjekt übernommen werden.

GEÄNDERTES BLATT (ARTIKEL 19) Verfahren nach Anspruch 1 oder 2, gekennzeichnet durch eine Verwendung von regulären Ausdrücken von Datenobjekten, wobei die Attributwerte eines zu analysierenden Inhaltsobjekts in reguläre Ausdrücke umgewandelt und mit Hilfe eines Indexes Inhaltsobjekte von anderen Datenquellen ermittelt werden, deren Attributwerte den regulären Ausdrücken entsprechen, wobei dann, wenn eine relative Mindestanzahl von Attributwerten der besten Treffer den regulären Ausdrücken des zu analysierenden Inhaltsobjektes entspricht, der Typ und die Attributnamen des jeweiligen Treffers für diese Entsprechungen für die Datenharmonisierung übernommen werden.

Verfahren nach Anspruch 5, gekennzeichnet durch eine Validierung des besten Treffers für reguläre Ausdrücke der Attribute eines analysierten Inhaltsobjekts, indem für die Attributwerte des Treffers jeweils überprüft wird, ob es einem regulären Ausdruck für Attributwerte eines Inhaltsobjekts entspricht und ob diese Entsprechung eindeutig ist, d. h. dass ein Attributwert nur einem regulären Ausdruck entspricht.

Verfahren nach einem der Ansprüche 1 bis 6, gekennzeichnet durch eine Verwendung von Inhaltstypen, wobei die Inhaltsobjekte einer anderen Datenquelle ermittelt werden, die übereinstimmende Attributnamen aufweisen und bei Vorhandensein einer relativen Mindestanzahl von übereinstimmenden Attributnamen der Inhaltstyp für das Inhaltsobjekt, das gerade analysiert wird, übernommen wird.

Vorrichtung zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und/oder Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen mit einer semantischen Middleware zur Datenintegration und/oder inhaltlichen Datenanalyse, umfassend Mittel zur

Synchronisation von Daten aus angeschlossenen Datenquellen,

Transformation der Daten zur Interoperabilität,

GEÄNDERTES BLATT (ARTIKEL 19) semantischen Analyse von Attributen (Metadaten) der Daten hinsichtlich ihrer Attributwerte, und

Harmonisierung von Attributnamen der Daten sowie der semantischen Typisierung der Daten.

9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass diese zur Synchronisierung und/oder Indizierung von Texten und/oder Werten von Metadaten von Datenobjekten ausgebildet ist, wobei die Datenobjekte nicht redundant vorgehalten werden.

10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass diese dazu ausgebildet ist, Metadaten von Datenobjekten zu verwalten, wobei die Metadaten sowohl für jede Instanz einer Klasse von Datenobjekten als auch als eine aggregierte Klasse vorgehalten werden.

11. Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass diese zur Ausführung einer Metadatenanalyse zur Harmonisierung der aus den Instanzen abgeleiteten abstrakten Sicht in Form von Klassen von Datenobjekten und deren Beziehungen ausgebildet ist, wobei die Metadatenanalyse zur Harmonisierung sowohl inkrementell als auch in zeitlichen Intervallen als Stapelverarbeitung vorgenommen werden kann.

12. Vorrichtung nach einem der Ansprüche 7 bis 11 , dadurch gekennzeichnet, dass diese dazu ausgebildet und/oder eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.

GEÄNDERTES BLATT (ARTIKEL 19)

Description:
Automatische Datenharmonisierung

Die vorliegende Erfindung betrifft ein Verfahren und ein System zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen.

Die Integration heterogener Datenquellen in IT-Systeme ist bis heute sehr aufwändig, insbesondere weil die Daten aus verschiedenen verteilten Quellen unterschiedlich beschrieben sind und in unterschiedlichen Formaten sowie in verschiedenen technischen Realisierungen der Datenhaltung vorliegen.

Für die Informationsgewinnung müssen beispielsweise Kundenstammdaten schnell, einfach und einheitlich bezogen werden, d.h. aus den Daten vorhaltenden Quellen empfangen werden. Dabei ist es notwendig, die Bedeutung der Daten zu kennen, um die korrekten Daten in der sequentiell richtigen Abfolge abfragen zu können. Im Beispiel einer serviceorientierten Architektur (SOA) ist dabei die Wartung der einzelnen für eine solche Aufgabe zuständigen Services bzw. Dienste äußerst komplex und kaum durchführbar.

Weitere Problemstellungen ergeben sich im Bereich der Dateninteroperabilität bei der automatischen Verarbeitung von Daten. Unter Dateninteroperabilität wird im Sinne der vorliegenden Erfindung die Fähigkeit verschiedener, heterogener Systeme verstanden, möglichst nahtlos zusammenzuarbeiten, um Informationen auf effiziente Art und Weise auszutauschen. Dies sollte zum Beispiel beim Zusammenfassen von Stammdaten eines Kunden aus verschiedenen Quellen zu einem einzigen Geschäftsobjekt bzw. Business Object oder auch beim Transferieren von Kundenstammdaten während eines Bestellvorgangs erfolgen. Besonders problematisch ist hierbei, dass notwendige bzw. erforderliche Datenobjekte in unterschiedlichen Datenquellen vorgehalten werden und zudem unterschiedlich beschrieben sein können.

Bezüglich der Datenagilität stellt sich ferner die Anforderung, dass stabile technische Dienste auf Basis von heterogenen Datenquellen sowie heterogenen - -

Systemen erwartet werden. Unter Datenagilität wird eine Unabhängigkeit von Schnittstellen und Modellen sowie eine schnelle Erschließung neuer Quellen verstanden. Das Problem hierbei besteht in sich kontinuierlich verändernden Daten und Datenmodellen, welche der gewünschten Homogenität der Datenquellen entgegenwirken. Ferner sind stets neue Datenquellen, welche komplette neue Schnittstellen erfordern und überdies hinaus aufgrund veränderter Anforderungen anzupassende Schnittstellen zu berücksichtigen, welche kontinuierliche Anpassungen von Services bzw. Diensten nach sich ziehen.

Auch vor dem Hintergrund der immer größer werdenden und sich immer schneller verändernden Datenmengen, oft mit dem Schlagwort„Big Data" bezeichnet, ist eine klassische Verarbeitung von Daten aufgrund der daraus resultierenden hohen Komplexität nicht mehr möglich. Besonders unter der Betrachtung erforderlicher zeitlicher Aspekte kann eine manuelle oder eine nach klassischen Methoden bzw. Lösungsansätzen durchgeführte Verarbeitung von Daten, beispielsweise ein Abgleich von Kundenstamm- oder Bestelldaten, nicht gewährleistet werden.

Konventionelle Lösungsansätze setzen entweder eine manuelle Modellierung eines Datenmodells (sogenanntes Master Data Management), eine manuelle Modellierung einer Ontotogie oder eine manuelle Definition der Beziehungen (sogenanntes Mapping) zwischen verteilten Daten und den unterschiedlichen technischen Systemen voraus. Im Falle eines Datenmodells oder einer Ontologie müssen die jeweiligen Geschäftsobjekte bzw. die auf abstrakter Ebene beschriebenen Datenobjekte mit den konkreten Datenobjekten in Beziehung gesetzt werden. Dies wird in der Fachwelt als Mapping bezeichnet.

Das Problem ist hierbei, dass das abstrakt beschriebene Datenmodell häufig nicht mit den realen vorliegenden Daten übereinstimmt und daher ferner aufgrund unterschiedlicher technischer Realisierungen von Daten haltenden Systemen nicht oder nur unvollständig zu den real vorliegenden Daten in Beziehung gesetzt werden kann. Hierbei gehen Daten verloren oder können mangels technischer Umsetzbarkeit in erforderliche Formate nicht wie gewünscht erschlossen werden. Darüber hinaus verändern sich sowohl Datenstrukturen als auch deren technische Realisierung in IT-Systemen so schnell und häufig, dass ein Datenmodell und dessen Mapping mit realen Daten bereits nach der ersten Umsetzung veraltet ist und Fehler, beispielsweise hinsichtlich Konsistenz, Vollständigkeit, Genauigkeit - -

und/oder Redundanz, entstehen. Schließlich scheitert der Ansatz in der Praxis aufgrund der Vielfalt und der Komplexität von Datenquellen und IT-Systemen in Organisationen und Unternehmen.

Zur technischen Lösung des Problems wird erfindungsgemäß eine automatische Harmonisierung des Datenmodells aus integrierten Daten heterogener Datenquellen vorgeschlagen. Erfindungsgemäß ist dabei vorgesehen, eine semantische Middleware zur technischen Datenintegration auf Systemebene und zur inhaltlichen Datenanalyse einzusetzen. Sobald Daten aus angeschlossenen Datenquellen mit der Middleware aktiv (beispielsweise mittels sogenanntem Push- Prinzip) oder passiv (beispielsweise mittels sogenanntem Pull-Prinzip) synchronisiert werden, werden diese Daten sowohl hinsichtlich ihres Formates einander angeglichen bzw. zur Interoperabilität transformiert als auch hinsichtlich ihres Inhalts semantisch analysiert und deren semantische Typisierung und Bezeichnungen für Attribute als Metadaten harmonisiert. Auf diese Weise wird das übergeordnete, abstrakte Datenmodell (sogenanntes Uniform Information Model) der integrierten Daten inkrementell, das heißt Schritt für Schritt, erweitert und harmonisiert. Vorteilhafterweise können so insbesondere Anwendungen und/oder Dienste, die das Uniform Information Model verwenden, Daten nach semantischen Kriterien aufrufen und verwenden, ohne deren ursprüngliche heterogene Beschreibung, Format und Quelle kennen zu müssen.

Weiterhin wird zur technischen Lösung des Problems eine Vorrichtung zur automatisierten Harmonisierung von in unterschiedlichen Formaten vorliegenden Daten und Datenmodellen aus verschiedenen heterogenen Datenquellen bzw. Datenbeständen vorgeschlagen, welche eine semantische Middleware zur Datenintegration und inhaltlichen Datenanalyse umfasst.

Eine vorteilhafte Ausgestaltung der Erfindung sieht bei der semantischen Analyse die Verwendung der Ähnlichkeiten von Datenobjekten vor. Verfahrensgemäß wird dabei vorteilhafterweise nach inhaltlich ähnlichen Inhaltsobjekten gesucht. Inhaltsobjekt ist im Sinne der vorliegenden Erfindung eine allgemeinere Bezeichnung für ein Datenobjekt, das auch Dokumente mit Metadaten einschließt. Wurde ein Inhaltsobjekt mit einer vorteilhafterweise vorgegebenen oder vorgebbaren Ähnlichkeit gefunden, wird dessen semantische Typisierung und die Bezeichnung der übereinstimmenden Attribute (Metadaten) übernommen. Eine - -

semantische Typisierung im Sinne der vorliegenden Erfindung ist dabei die semantische Klassifizierung eines Inhaltsobjekts, zum Beispiel ob es sich bei dem Inhalt des Inhaltsobjekts um eine Person, um eine Nachricht, um eine Bestellung oder um eine Präsentation handelt. Attribute (Metadaten) im Sinne der vorliegenden Erfindung sind dabei Beschreibungselemente oder Metadaten eines Inhaltsobjektes, zum Beispiel der Name einer Person, der Absender einer Nachricht, die Position einer Bestellung oder der Autor eines Dokuments.

Fig. 1a und Fig. 1 b zeigen zeigt anhand eines Flussdiagramms ein prinzipielles Ausführungsbeispiel für eine mögliche Umsetzung dieses Verfahrens.

Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht bei der semantischen Analyse ebenfalls die Verwendung der Ähnlichkeiten von Datenobjekten vor. Verfahrensgemäß wird dabei, abweichend von dem Ausführungsbeispiel nach Fig. 1a und Fig. 1 b, nicht nach inhaltlich ähnlichen einzelnen Inhaltsobjekten gesucht, sondern es wird die Ähnlichkeit der Gesamtheit von Inhalten eines bestimmten Typs einer bestimmten Datenquelle mit der Gesamtheit von Inhalten eines anderen oder gleichen Typs anderer Datenquellen verglichen. Vorteilhafterweise liegt der Fokus dabei vor allem auf übereinstimmenden Attributen der Inhaltstypen unabhängig davon, ob Sie gemeinsam in einem Inhaltsobjekt enthalten sind oder nicht. Existieren für eine Mindestanzahl von Attributen eines Inhaltsobjektes, das für die erfindungsgemäße Datenharmonisierung analysiert wird, übereinstimmende Attributwerte, werden vorteilhafterweise die jeweiligen Attributnamen der Übereinstimmungen und der jeweilige Inhaltstyp für das analysierte Inhaltsobjekt übernommen.

Fig. 2a und Fig. 2b zeigen zeigt anhand eines Flussdiagramms ein prinzipielles Ausführungsbeispiel für eine mögliche Umsetzung dieses Verfahrens.

In der Praxis erzielt die Lösung gemäß dem Ausführungsbeispiel nach Fig. 4- 2a und Fig. 2b im Vergleich zu der Lösung gemäß dem Ausführungsbeispiel nach Fig. 2 1a und Fig. 1 b zwar eine bessere Datenharmonisierung, allerdings sind die aufzuwendenden Ressourcen bei der Lösung gemäß dem Ausführungsbeispiel nach Fig. 2a und Fig. 2b aufgrund einer größeren Anzahl von zu bearbeitenden Anfragen und einer größeren Anzahl zu speichernder Ergebnisse ebenfalls größer und entsprechend kostenintensiver. - -

Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht bei der semantischen Analyse die Verwendung von regulären Ausdrücken von Datenobjekten vor. Vorteilhafterweise werden bei dieser Verfahrensführung die Attributwerte eines zu analysierenden Inhaltsobjekts in reguläre Ausdrücke umgewandelt und mit Hilfe eines Indexes werden Inhaltsobjekte von anderen Datenquellen ermittelt, deren Attributwerte den regulären Ausdrücken entsprechen. Entspricht eine relative Mindestanzahl von Attributwerten der besten Treffer den regulären Ausdrücken des zu analysierenden Inhaltsobjektes, werden der Typ und die Attributnamen des jeweiligen Treffers für diese Entsprechungen für die erfindungsgemäße Datenharmonisierung übernommen.

Fig. 3a und Fig. 3b zeigen zeigt anhand eines Flussdiagramms ein prinzipielles Ausführungsbeispiel für eine mögliche Umsetzung dieses Verfahrens.

Vorteilhafterweise ist gemäß einer weiteren Ausgestaltung der Erfindung dabei vorgesehen, eine Validierung des besten Treffers für reguläre Ausdrücke der Attribute eines analysierten Inhaltsobjekts vorzunehmen, wobei für die Attributwerte des Treffers jeweils überprüft wird, ob es einem regulären Ausdruck für Attributwerte eines Inhaltsobjekts entspricht und ob diese Entsprechung eindeutig ist, d. h. dass ein Attributwert nur einem regulären Ausdruck entspricht.

Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht die Verwendung von Inhaltstypen vor. Verfahrensgemäß werden dabei die Inhaltsobjekte einer anderen Datenquelle ermittelt, die übereinstimmende Attributnamen aufweisen. Gibt es eine relative Mindestanzahl von übereinstimmenden Attributnamen wird der Inhaltstyp für das Inhaltsobjekt, das gerade analysiert wird übernommen.

Vorteilhafterweise wird diese Verfahrensweise als Auffanglösung, sogenanntes „Fall Back", eingesetzt.

Fig. 4 zeigt ein prinzipielles Ausführungsbeispiel für ein Mapping, welches im Rahmen einer der erfindungsgemäßen Analysen produziert wird.

Gegenstand der vorliegenden Erfindung ist ferner eine als Datenverarbeitungssystem ausgebildete Vorrichtung zur automatisierten Harmonisierung von Datenmodellen aus verschiedenen heterogenen Datenquellen - -

bzw. Datenbeständen, welches durch Einrichtungen gekennzeichnet ist, die ausgebildet und/oder eingerichtet sind, ein erfindungsgemäßes Verfahren auszuführen.

In einer bevorzugten Ausgestaltung der Vorrichtung ist diese dazu ausgebildet ist, ein erfindungsgemäßes Verfahren mittels einer Verwendung der Ähnlichkeiten von Datenobjekten auszuführen. Dies erfolgt entweder mittels Suche nach inhaltlich ähnlichen Inhaltsobjekten, mittels der Ähnlichkeit der Gesamtheit von Inhalten eines bestimmten Typs einer bestimmten Datenquelle mit der Gesamtheit von Inhalten eines anderen oder gleichen Typs anderer Datenquellen verglichen oder aber mittels Verwendung regulärer Ausdrücke von Datenobjekten, wobei die Attributwerte eines zu analysierenden Inhaltsobjekts in reguläre Ausdrücke umgewandelt und mit Hilfe eines Indexes Inhaltsobjekte von anderen Datenquellen ermittelt werden.

In einer weiteren vorteilhaften Ausgestaltung der Vorrichtung ist diese zur Synchronisierung und/oder Indizierung von Texten und/oder Werten von Metadaten von Datenobjekten ausgebildet ist, wobei die Datenobjekte nicht redundant vorgehalten werden.

Weiterhin ist die Vorrichtung bevorzugt dazu ausgebildet, Metadaten von Datenobjekten zu verwalten, wobei die Metadaten sowohl für jede Instanz einer Klasse von Datenobjekten als auch als eine aggregierte Klasse vorgehalten werden.

Vorteilhafterweise ist die als Datenverarbeitungssystem ausgebildete Vorrichtung zur Ausführung einer Metadatenanalyse zur Harmonisierung der aus den Instanzen abgeleiteten abstrakten Sicht in Form von Klassen von Datenobjekten und deren Beziehungen ausgebildet, wobei die Metadatenanalyse zur Harmonisierung sowohl inkrementell als auch in zeitlichen Intervallen als Stapelverarbeitung vorgenommen werden kann.

Die in den Figuren der Zeichnung dargestellten Ausführungsbeispiele und die im Zusammenhang mit diesen erläuterten Ausführungsbeispiele dienen lediglich der Erläuterung der Erfindung und sind für diese nicht beschränkend.