Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
APPARATUS AND METHOD FOR FINDING A CHANGE IN A SCENE
Document Type and Number:
WIPO Patent Application WO/2019/002502
Kind Code:
A1
Abstract:
The invention relates to an apparatus (1) for finding changes in a scene (100). A first ascertainment apparatus (10) ascertains data of a trifocal tensor from three pictures (P1, P2, P3) that have associated shooting times (T1, T2, T3) and have different perspectives. The shooting times (T1, T2) of two pictures (P1, P2) belong to a first time interval (I1) and the shooting time (T3) of a third picture (P3) belongs to a second time interval (I2). An interval of time (dt1) between the shooting times (T1, T2) of the two pictures (P1, P2) of the first time interval (I1) is shorter than an interval of time (dt2) between the first (I1) and second (I2) time intervals. A second ascertainment apparatus (20) ascertains data of a pixel-by-pixel association for the two pictures (P1, P2) of the first time interval (I1). A picture editing apparatus (30) provides two comparison pictures (C1, C2), showing the scene (100) from the same perspective, from the three pictures (P1, P2, P3), the data of the trifocal tensor and the data of the pixel-by-pixel association. A comparison apparatus (40) evaluates the comparison pictures (C1, C2) for whether there is a difference. The invention further relates to a corresponding method.

Inventors:
BARTELSEN JAN (DE)
ERDNÜSS BASTIAN (DE)
Application Number:
PCT/EP2018/067479
Publication Date:
January 03, 2019
Filing Date:
June 28, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRAUNHOFER GES FORSCHUNG (DE)
KARLSRUHER INST TECHNOLOGIE (DE)
International Classes:
G06T7/254; G06T7/30
Other References:
AERON BUCHANAN: "Novel View Synthesis for Change Detection", 6TH EMRS DTC TECHNICAL CONFERENCE, 1 January 2009 (2009-01-01), XP055495797
OLIVIER DELAUNOY ET AL: "Towards Detecting Changes in Underwater Image Sequences", OCEANS 2008 - MTS/IEEE KOBE TECHNO-OCEAN, IEEE, PISCATAWAY, NJ, USA, 8 April 2008 (2008-04-08), pages 1 - 8, XP031258982, ISBN: 978-1-4244-2125-1
AVIDAN S ET AL: "NOVEL VIEW SYNTHESIS IN TENSOR SPACE", PROCEEDINGS OF THE 1997 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. SAN JUAN, PUERTO RICO, JUNE 17 - 19, 1997; [PROCEEDINGS OF THE IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION], LOS ALAM, vol. CONF. 16, 17 June 1997 (1997-06-17), pages 1034 - 1040, XP000776601, ISBN: 978-0-7803-4236-1
NN: "Trifocal tensor", WIKIPEDIA, 18 March 2013 (2013-03-18), XP055495787, Retrieved from the Internet [retrieved on 20180727]
SAWHNEY H S ET AL: "INDEPENDENT MOTION DETECTION IN 3D SCENES", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 22, no. 10, 1 October 2000 (2000-10-01), pages 1191 - 1199, XP000976551, ISSN: 0162-8828, DOI: 10.1109/34.879803
SZELISKI, R.: "Image Alignment and Stitching: A Tutorial", FOUNDATIONS AND TRENDS IN COMPUTER GRAPHICS AND VISION, 2006
STEWART, C.: "Robust Parameter Estimation in Computer Vision", SIAM REVIEW, vol. 41, no. 3, 1999, pages 513 - 537, XP001052626, DOI: doi:10.1137/S0036144598345802
MIKOLAJCZYK, K.; SCHMID, C.: "Scale & Affine Invariant Interest Point Detectors", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 60, no. 1, 2004, pages 63 - 86, XP019216425, DOI: doi:10.1023/B:VISI.0000027790.02288.f2
HARTLEY, R. I.; ZISSERMAN, A.: "Multiple View Geometry in Computer Vision", 2004, CAMBRIDGE UNIVERSITY PRESS
POLLEFEYS, M.; VAN GOOL, L.; VERGAUWEN, M.; VERBIEST, F.; CORNELIS, K.; TOPS, J.; KOCH, R.: "Visual Modelling with a Hand-Held Camera", INTERNATIONAL JOUNAL OF COMPUTER VISION, vol. 59, no. 3, 2004, pages 207 - 232
LUCAS, B.D.; KANADE, T.: "An Iterative Image Registration Technique with an Application to Stereo Vision", INTERNATIONAL JOINT CONFERENCES ON ARTIFICIAL INTELLIGENCE, 1981, pages 675 - 679
BROX, T.; BRUHN, A.; PAPENBERG, N.; WEICKERT, J.: "European Conference on Computer Vision (ECCV), Lecture Notes in Computer Science", vol. 3024, 2004, SPRINGER, article "High Accuracy Optical Flow Estimation based on a Theory for Warping", pages: 25 - 36
HIRSCHMÜLLER H.: "Stereo Processing by Semiglobal Matching and Mutual Information", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 30, no. 2, 2008, pages 328 - 341, XP011195575, DOI: doi:10.1109/TPAMI.2007.1166
AVIDAN, S.; SHASHUA, A.: "Novel View Synthesis in Tensor Space", PROCEEDINGS OF IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 1997, pages 1034 - 1040, XP000776601
BUCHDAHL, H. A.: "Optical Aberration Coefficients. III. The Computation of the Tertiary Coefficients", JOURNAL OF THE OPTICAL SOCIETY OF AMERICA, vol. 48, 1958, pages 747 - 756
BARRETO, J.P.; DANIILIDIS, K.: "Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV'05", vol. 1, 2005, IEEE COMPUTER SOCIETY, article "Fundamental Matrix for Cameras with Radial Distortion", pages: 625 - 632
BRITO, J. H.; ANGST, R.; KÖSER, K; POLLEFEYS, M.: "Radial Distortion Self-Calibration", 2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2013, pages 1368 - 1375, XP032493036, DOI: doi:10.1109/CVPR.2013.180
FÖRSTNER, W.; GÜLCH, E: "A Fast Operator for Detection and Precise Location of Distinct Points, Corners and Centres of Circular Features", PROCEEDINGS OF THE ISPRS CONFERENCE ON FAST PROCESSING OF PHOTOGRAMMETRIC DATA, 1987, pages 281 - 305, XP002534481
HARRIS, C.; STEPHENS, M.: "A Combined Corner and Edge Detector", PROCEEDINGS OF FOURTH ALVEY VISION CONFERENCE, 1988, pages 147 - 151
LOWE, D.G.: "Distinctive Image Features from Scale-Invariant Keypoints", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 60, no. 2, 2004, pages 91 - 110, XP002756976, DOI: doi:10.1023/B:VISI.0000029664.99615.94
RUBLEE, E.; RABAUD, V.; KONOLIGE, K.; BRADSKI, G.: "Proceedings of the 2011 International Conference on Computer Vision (ICCV'11", 2011, IEEE SOCIETY, article "ORB: An Efficient Alternative to SIFT or SURF", pages: 2564 - 2571
FISCHLER, M. A.; BOLLES, R. C.: "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography", JOURNAL OF COMMUNICATIONS OF THE ACM, vol. 24, no. 6, 1981, pages 381 - 395, XP001149167, DOI: doi:10.1145/358669.358692
GRÜN. A.: "Adaptive Least Squares Correlation: A Powerful Image Matching Technique", SOUTH AFRICAN JOURNAL OF PHOTOGRAMMETRY, REMOTE SENSING, AND CARTOGRAPHY, vol. 14, 1985, pages 175 - 187
BETHMANN, F.; LUHMANN, T.: "Least-Squares Matching with Advanced Geometric Transformation Models", INTERNATIONAL ARCHIVES OF PHOTOGRAMMETRY, REMOTE SENSING AND SPATIAL INFORMATION SCIENCES, VOL. XXXVIII, PART 5 COMMISSION V SYMPOSIUM, NEWCASTLE UPON TYNE, vol. XXXVIII, 2010
TORR, P. H. S.: "Geometric Motion Segmentation and Model Selection", PHILOSOPHICAL TRANSACTIONS OF THE ROYAL SOCIETY OF LONDON A: MATHEMATICAL, PHYSICAL AND ENGINEERING SCIENCES, vol. 356, no. 1740, 1998, pages 1321 - 1340, XP008058158, DOI: doi:10.1098/rsta.1998.0224
QUAN L.: "Computer Vision — ECCV '94. ECCV 1994. Lecture Notes in Computer Science", vol. 801, SPRINGER, article "Invariants of 6 points from 3 Uncalibrated Images"
TORR, P. H. S.; ZISSERMAN, A.: "Robust Parameterization and Computation of the Trifocal Tensor", IMAGE AND VISION COMPUTING, vol. 15, 1997, pages 591 - 605, XP055101416, DOI: doi:10.1016/S0262-8856(97)00010-3
SCHAFFALITZKY, F.; ZISSERMAN, A.; HARTLEY, R. I.; TORR, P. H. S.: "Computer Vision — ECCV 2000: 6th European Conference on Computer Vision Dublin, Ireland, June 26 — July 1, 2000, Proceedings", 2000, SPRINGER, article "A Six Point Solution for Structure and Motion", pages: 632 - 648
CARLSSON, S.; WEINSHALL, D.: "Dual Computation of Projective Shape and Camera Positions from Multiple Images", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 27, no. 3, 2004, pages 227 - 241
NISTER, D.: "An Efficient Solution to the Five-Point Relative Pose Problem", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 26, no. 6, 2004, pages 756 - 777, XP011111527, DOI: doi:10.1109/TPAMI.2004.17
TRIGGS, B.: "The Geometry of Projective Reconstruction I: Matching Constraints and the Joint Image", CIRCULATED IN 1995. ACCEPTED SUBJECT TO REVISION TO IJCV IN 1995, BUT NEVER COMPLETED, 1995
HARTLEY, R. I.: "Computer Vision — ECCV'98. ECCV 1998. Lecture Notes in Computer Science", vol. 1406, SPRINGER, article "Computation of the Quadrifocal Tensor"
CONNOR, K.; REID, I.: "Novel View Specification and Synthesis", PROCEEDING OF 13TH BRITISH MACHINE VISION CONFERENCE, September 2002 (2002-09-01), pages 22.1 - 22.10
Attorney, Agent or Firm:
SCHENK, Markus et al. (DE)
Download PDF:
Claims:
Ansprüche

Vorrichtung (1) zum Auffinden mindestens einer Veränderung in einer Szenerie (100),

wobei die Vorrichtung (1) eine erste Ermittiungsvorrichtung (10), eine zweite Ermittlungsvorrichtung (20), eine Bildbearbeitungsvorrichtung (30) sowie eine Vergleichsvorrichtung (40) aufweist,

wobei die erste Ermittlungsvorrichtung (10) derartig ausgestaltet ist, ausgehend von mindestens drei Bildern (P1 , P2, P3) der Szenerie (100) Daten eines Trifokal- tensors zu ermitteln,

wobei den drei Bildern (P1 , P2, P3) Aufnahmezeitpunkte (T1 , T2, T3) zugeordnet sind,

wobei die Aufnahmezeitpunkte (T1 , T2) von zwei Bildern (P1 , P2) der drei Bilder (P1 , P2, P3) zu einem ersten Zeitintervall (11) gehören,

wobei die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11 ) jeweils unterschiedliche Perspektiven relativ zur Szenerie (100) aufweisen,

wobei der Aufnahmezeitpunkt (T3) eines dritten Bildes (P3) der drei Bilder (P1 , P2, P3) zu einem zweiten Zeitintervall (12) gehört,

wobei das dritte Bild (P3) des zweiten Zeitintervalls (12) eine andere Perspektive relativ zu der Szenerie ( 00) als die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) aufweist,

wobei ein zeitlicher Abstand (dt1) zwischen den Aufnahmezeitpunkten (T1 , T2) der zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) kleiner als ein zeitlicher Abstand (dt2) zwischen dem ersten Zeitintervall (11) und dem zweiten Zeitintervall (12) ist, wobei die zweite Ermittlungsvorrichtung (20) derartig ausgestaltet ist, mindestens für die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) Daten einer pixelweisen Zuordnung zwischen den zwei Bildern (P1 , P2) zu ermitteln,

wobei die Bildbearbeitungsvorrichtung (30) derartig ausgestaltet ist, ausgehend von den mindestens drei Bildern (P1 , P2, P3) sowie ausgehend von den ermittelten Daten des Trifokaltensors und den ermittelten Daten der pixelweisen Zuordnung mindestens zwei Vergleichsbilder (C1 , C2) bereitzustellen,

wobei die mindestens zwei Vergleichsbilder (C1 , C2) im Wesentlichen die gleiche Perspektive auf die Szenerie (100) aufweisen und unterschiedlichen Zeitintervallen (11 , 12) zugeordnet sind, und

wobei die Vergleichsvorrichtung (40) derartig ausgestaltet ist, die zwei Vergleichsbilder (C1 , C2) dahingehend auszuwerten, ob mindestens ein Unterschied zwi- sehen den zwei Vergleichsbildern (C1 , C2) besteht, und ausgehend von der Auswertung ein Vergleichsergebnis zu erzeugen.

2. Vorrichtung (1) nach Anspruch 1 ,

wobei die Vorrichtung (1) eine Korrekturvorrichtung (50) aufweist, und

wobei die Korrekturvorrichtung (50) derartig ausgestaltet ist, bei Eingangsbildern (Ρ1 ', P2', P3') Verzeichnungsfehler zu erkennen und verzeichnungsfreie Bilder (P1 , P2, P3) und/oder Korrekturdaten bereitzustellen.

Vorrichtung (1) nach Anspruch 1 oder 2,

wobei die erste Ermittlungsvorrichtung (10) derartig ausgestaltet ist, für die Ermittlung der Daten des Trifokaltensors Daten bezüglich mindestens einer Aufnahmebedingung mindestens eines Bildes (P1 , P2, P3) zu verwenden.

Vorrichtung (1) nach Anspruch 3,

wobei sich die mindestens eine Aufnahmebedingung auf eine Position einer für die Aufnahme eines Bildes (P1 , P2, P3) verwendeten Aufnahmevorrichtung (200) und/oder auf eine Orientierung einer für die Aufnahme eines Bildes (P1 , P2, P3) verwendeten Aufnahmevorrichtung (200) relativ zur Szenerie (100) und/oder auf intrinsische Parameter einer für die Aufnahme eines Bildes (P1 , P2, P3) verwendeten Aufnahmevorrichtung (200) bezieht.

Vorrichtung (1) nach einem der Ansprüche 1 bis 4,

wobei die Bilder (P1 , P2) des ersten Zeitintervalls (11) Vorher-Bilder sind und das Bild (P3) des zweiten Zeitintervalls (12) ein Nachher-Bild ist.

Vorrichtung (1) nach einem der Ansprüche 1 bis 4,

wobei die Bilder (P1 , P2) des ersten Zeitintervalls (11) Nachher-Bilder sind und das Bild (P3) des zweiten Zeitintervalis (12) ein Vorher-Bild ist.

Vorrichtung (1) nach einem der Ansprüche 1 bis 6,

wobei die Aufnahmezeitpunkte (T1 , T2) der Bilder (P1 , P2) des ersten Zeitintervalls (11) nahezu oder exakt gleich sind. 8. Verfahren zum Auffinden mindestens einer Veränderung in einer Szenerie (100), wobei mindestens drei Bilder (P1 , P2, P3) bereitgestellt werden, die Aufnahmezeitpunkten (T1 , 12, T3) zugeordnet sind,

wobei die Aufnahmezeitpunkte (T1 , T2) von zwei Bildern (P1 , P2) der drei Bilder (P1 , P2, P3) zu einem ersten Zeitintervall (11) gehören und der Aufnahmezeitpunkt (t2) eines dritten Bildes (P3) der drei Bilder (P1 , P2, P3) zu einem zweiten Zeitin- tervali (12) gehört,

wobei die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) unterschiedliche Perspektiven relativ zur Szenerie (100) aufweisen,

wobei das dritte Bild (P3) des zweiten Zeitintervalls (12) eine andere Perspektive relativ zu der Szenerie ( 00) als die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) aufweist,

wobei ein zeitlicher Abstand (dt1) zwischen den Aufnahmezeitpunkten (T1 , T2) der zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) kleiner als ein zeitlicher Abstand (dt2) zwischen dem ersten Zeitintervall (11 ) und dem zweiten Zeitintervall (12) ist, wobei ausgehend von den mindestens drei Bildern (P1 , P2, P3) Daten eines Trifo- kaltensors oder einer äquivalenten Beschreibung der Geometrie des Dreibildfalls ermittelt werden,

wobei mindestens für die zwei Bilder (P1 , P2) des ersten Zeitintervalls (11) Daten einer pixelweisen Zuordnung zwischen den zwei Bildern (P1 , P2) ermittelt werden, wobei ausgehend von den mindestens drei Bildern (P1 , P2, P3) sowie ausgehend von den ermittelten Daten des Trifokaltensors bzw. der äquivalenten Beschreibung und den ermittelten Daten der pixelweisen Zuordnung mindestens zwei Vergleichsbilder (C1 , C2), die im Wesentlichen die gleiche Perspektive auf die Szenerie (100) aufweisen und unterschiedlichen Zeitintervallen (11 , 12) zugeordnet sind, bereitgestellt werden,

wobei die zwei Vergleichsbilder (C1 , C2) dahingehend ausgewertet werden, ob mindestens ein Unterschied zwischen den zwei Vergleichsbildern (C1 , C2) besteht, und

wobei ausgehend von der Auswertung der zwei Vergleichsbilder (C1 , C2) ein Vergleichsergebnis erzeugt wird.

9. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 8.

Description:
Vorrichtung und Verfahren zum Auffinden einer Veränderung in einer Szenerie

Beschreibung Die Erfindung bezieht sich auf eine Vorrichtung zum Auffinden mindestens einer Veränderung in einer Szenerie. Weiterhin bezieht sich die Erfindung auf ein Verfahren zum Auffinden mindestens einer Veränderung in einer Szenerie.

Derzeit setzt es eine bildbasierte Anderungsdetektion voraus, dass die Aufnahmen, die eine Szene vor und nach einem Ereignis abbilden, aus möglichst identischer Perspektive aufgenommen worden sind. Dies kann jedoch nur in Ausnahmefällen gewährleistet werden.

Wenn Bilder einen deutlichen Unterschied in ihrer Perspektive aufweisen, sind je nach Beschaffenheit der Szene, Oberflächen nur in einem Bild sichtbar (Verdeckungen) und es treten Parallaxeneffekte auf. Hinsichtlich der Verdeckung ist entsprechend unklar, welche Bildregionen für eine Anderungsdetektion überhaupt vergleichbar sind. Hinsichtlich der Parallaxeneffekte sind geometrische Schätzungen oder detaillierte Modelle der Szene erforderlich, um die korrespondierenden Bildregionen vergleichen zu können.

Einige Ansätze werden im Folgenden kurz skizziert. a) 2D-Änderungsdetektion

Eine Möglichkeit besteht in der Beschreibung der Geometrie des Zweibildfalls, also des Falls, dass von einem Objekt bzw. einer Szenerie zwei Bilder vorliegen, mittels der Homographie.

Die Homographie als geometrisches Modell des Zweibildfalls ermöglicht eine pixelweise Zuordnung zwischen zwei Bildern, ohne dass aufwändige dichte Tiefenschätzungsverfahren zur Anwendung kommen müssen.

Die pixelweise Zuordnung auf Grundlage der Homographie ist jedoch nur in drei Spezialfällen über alle Bildregionen korrekt, nämlich bei identischer Aufnahmeposition, unendlich großem Abstand zur Szene oder einer gänzlich ebenen Szene. Für die meisten Anwendungsfälle trifft keine dieser Spezialfälle zu. Dementsprechend kommen in der Regel Korrekturverfahren zur Anwendung, welche die Epipolarge- ometrie einbeziehen und Fehler durch Parallaxeneffekte weitgehend kompensieren können. Das Problem der Verdeckungen ist mit dieser Vorgehensweise konzeptionell unlösbar.

Die für die Anderungsdetektion vermutlich am häufigsten umgesetzte Methode zur pixelweisen Zuordnung ist die Generierung von 2D-Bildmosaiken (Stitching), wie Szeliski (2006) es beschreibt. Vorher- und Nachher-Bilder einer Szene werden ohne Berücksichtigung der Geometrie der Szene jeweils zu einem großen Bild zusammengesetzt und anschließend verglichen.

Ein solcher globaler Ansatz hat durch die Nichtberücksichtigung der Geometrie der Szene jedoch erhebliche konzeptionelle Schwächen und führt deshalb nur in Ausnahmefällen zu akzeptablen Ergebnissen.

Konzeptionell ähnlich ist die Generierung von True-Orthobildern anstelle von Bildmosaiken. In diesem Fall wird mittels absoluter Orientierung und dichter Tiefenschätzung oder einem vorhandenen Höhenmodell ein zusammengesetztes Bild erstellt, welches die Geometrie einer Szene berücksichtigt. Das Gesamtbild wird so aufbereitet, als wäre es komplett aus Nadirsicht aufgenommen. Bei einer entsprechend genauen Vorgehensweise können die True-Orthobilder für eine Anderungsdetektion verglichen werden.

Problematisch ist, dass die Zuverlässigkeit und Genauigkeit der dichten Tiefen- Schätzung in der Regel nicht für alle Bildregionen gleich hoch ist. Beim Vergleich für die Anderungsdetektion muss dementsprechend eine Plausibiütätsüberprüfung einbezogen werden. Zudem ist die Bestimmung der absoluten Orientierung und der dichten Tiefenschätzung rechenintensiv, sodass eine echtzeitfähige Realisierung mit entsprechender Zuverlässigkeit und Genauigkeit kaum möglich erscheint. endung von 2,5D- und 3D-Referenzmodellen

Die Verwendung von 2,5D- (Höhenmodelle) oder Voll-3D- Oberflächenreferenzmodellen der Szene erlaubt den Umgang mit dem Problem der Parallaxeneffekte als auch der Verdeckungen. Die Bilder, die eine Szene vor und nach einem Ereignis abbilden, werden gegen das Referenzmodell registriert. Auf diese Weise kann auf Grundlage der Sehstrahlen unmittelbar bestimmt werden, welche Oberflächen in welchem Bild sichtbar sind und welchen Abstand sie bei der Aufnahme von der Kamera hatten.

Nachteilig ist, dass die Anforderungen an den Detaillierungsgrad und an den Aufnahmezeitpunkt der Referenzmodelle sehr hoch sind und nur für wenige Anwendungsfälle gewährleistet werden können. c) Volumenschätzung

Bildbasierte, euklidische 2,5D- oder Voll-3D-Oberflächenrekonstruktionsverfahren ermöglichen die Modellierung einer Szene, sodass die Zu- oder Abnahme des Volumens als Indikator für die Anderungsdetektion verwendet werden kann.

Die Anforderungen an die Verfahren zur Bildregistrierung, zur dichten Tiefenschätzung und zur Oberflächenrekonstruktion bezüglich der verwendeten Sensorik sowie an die Genauigkeit und Performance sind jedoch ggf. hoch bis sehr hoch. Zudem ist eine genaue Kenntnis oder Schätzung der intrinsischen Kameraparameter zwingend erforderlich.

Grundsätzlich weisen alle durch derartige Verfahren rekonstruierten Oberflächen ein Rauschen auf, sodass die gesuchten Änderungen deutlich hervorstechen müssen, um zuverlässig erkannt zu werden.

Mögliche Anwendungen einer Anderungsdetektion sind die Überwachung gefährdeter Infrastruktur für die zivile Sicherheit und Verteidigung. Dabei lassen sich beispielsweise Bilder von bemannten oder unbemannten Luftfahrzeugen verwenden. Eine andere Anwendung ist beispielsweise die Schadensfeststellung für das Versicherungswesen auf Grundlage von Satelliten- und Luftbildern.

Der Erfindung liegt daher die Aufgabe zugrunde, eine Vorrichtung und ein Verfahren zum Auffinden von Veränderungen in einer Szenerie vorzuschlagen, die möglichst einfach realisierbar sind. Die Erfindung löst die Aufgabe durch eine Vorrichtung zum Auffinden mindestens einer Veränderung in einer Szenerie.

Die Vorrichtung weist eine erste Ermittlungsvorrichtung, eine zweite Ermittlungsvorrich- tung, eine Bildbearbeitungsvorrichtung sowie eine Vergleichsvorrichtung auf. Die erste Ermittlungsvorrichtung ist derartig ausgestaltet, ausgehend von mindestens drei Bildern der Szenerie Daten eines Trifokaltensors zu ermitteln. Den drei Bildern sind Aufnahmezeitpunkte zugeordnet. Die Aufnahmezeitpunkte von zwei Bildern der drei Bilder gehören zu einem ersten Zeitintervall. Die zwei Bilder des ersten Zeitintervalls weisen jeweils un- terschiedliche Perspektiven relativ zur Szenerie auf. Der Aufnahmezeitpunkt eines dritten Bildes der drei Bilder gehört zu einem zweiten Zeitintervall. Das dritte Bild des zweiten Zeitintervalls weist eine andere Perspektive relativ zu der Szenerie als die zwei Bilder des ersten Zeitintervalls auf. Ein zeitlicher Abstand zwischen den Aufnahmezeitpunkten der zwei Bilder des ersten Zeitintervalls ist kleiner als ein zeitlicher Abstand zwischen dem ersten Zeitintervall und dem zweiten Zeitintervall. Die zweite Ermittlungsvorrichtung ist derartig ausgestaltet, mindestens für die zwei Bilder des ersten Zeitintervalls Daten einer pixelweisen Zuordnung zwischen den zwei Bildern zu ermitteln. Die Bildbearbeitungsvorrichtung ist derartig ausgestaltet, ausgehend von den mindestens drei Biidern sowie ausgehend von den ermittelten Daten des Trifokaltensors und den ermittelten Daten der pi- xelweisen Zuordnung mindestens zwei Vergleichsbilder bereitzustellen. Die mindestens zwei Vergleichsbilder weisen im Wesentlichen die gleiche Perspektive auf die Szenerie auf und sind unterschiedlichen Zeitintervallen zugeordnet. Die Vergleichsvorrichtung ist derartig ausgestaltet, die zwei Vergleichsbilder dahingehend auszuwerten, ob mindestens ein Unterschied zwischen den zwei Vergleichsbildern besteht, und ausgehend von der Auswertung ein Vergleichsergebnis zu erzeugen.

Die Vorrichtung wertet zumindest drei Bilder der Szenerie aus, die die Szenerie jeweils aus unterschiedlichen Perspektiven zeigen. Zwei der Bilder entstammen einem ersten Zeitintervall und liegen in Bezug auf ihre Aufnahmezeitpunkte relativ nah beieinander bzw. sind sogar zeitgleich aufgenommen worden. Das verbleibende dritte Bild entstammt einem zweiten Zeitintervall. Dabei liegen die zwei Zeitintervalle weiter voneinander entfernt als die zwei Bilder des ersten Zeitintervalls. Zwischen den beiden Zeitintervallen findet beispielsweise ein Ereignis statt, das zu einer Änderung der Szenerie führt oder führen könnte. Ob es eine Änderung gab, wird von der Vorrichtung ermittelt. Für das Auffinden der Veränderung oder der Veränderungen werden für die drei Bilder die Daten eines Trifokaltensors ermittelt und werden für die zwei - zeitgleichen oder zeitlich benachbarten - Bilder Daten einer pixelweisen Zuordnung ermittelt. Mit den Daten werden dann zwei Vergleichsbilder mit gleicher Perspektive und aus den beiden unterschied- liehen Zeitintervallen ermittelt. Aus den beiden Vergleichsbildern mit passenden Perspektiven, aber unterschiedlichen Zeitintervallen lassen sich dann Veränderungen erkennen.

In einer Ausgestaltung ist vorgesehen, dass die Vorrichtung eine Korrekturvorrichtung aufweist. Dabei ist die Korrekturvorrichtung derartig ausgestaltet, bei Eingangsbildern Verzeichnungsfehler zu erkennen und verzeichnungsfreie Bilder und/oder Korrekturdaten bereitzustellen. In dieser Ausgestaltung werden somit durch die Korrekturvorrichtung Linsenfehler korrigiert oder es werden zumindest Daten ermittelt, die es für die weiteren Schritte erlauben, die Auswirkungen der Linsenfehler zu berücksichtigen. Eine Ausgestaltung besteht darin, dass die erste Ermittlungsvorrichtung derartig ausgestaltet ist, für die Ermittlung der Daten des Trifokaltensors die Pixelinformation bezüglich mindestens eines Bildes zu verwenden.

Alternativ oder ergänzend besteht eine Ausgestaltung darin, dass die erste Ermittlungs- Vorrichtung derartig ausgestaltet ist, für die Ermittlung der Daten des Trifokaltensors Daten bezüglich mindestens einer Aufnahmebedingung mindestens eines Bildes zu verwenden.

In einer Ausgestaltung ist vorgesehen, dass sich mindestens eine Aufnahmebedingung auf eine Position einer für die Aufnahme eines Bildes verwendeten Aufnahmevorrichtung relativ zur Szenerie oder absolut bezieht.

Alternativ oder ergänzend bezieht sich die mindestens eine Aufnahmebedingung auf eine Orientierung einer für die Aufnahme eines Bildes verwendeten Aufnahmevorrichtung rela- tiv zur Szenerie oder absolut.

Alternativ oder ergänzend bezieht sich die mindestens eine Aufnahmebedingung auf intrinsische Parameter einer für die Aufnahme eines Bildes verwendeten Aufnahmevorrichtung bezieht. Bei der Ermittlung der Daten des Trifokaltensors werden somit Aufnahmebedingungen - oder spezieller. Daten, die diese Aufnahmebedingungen beschreiben - verwendet. Dabei wird insbesondere Rücksicht genommen auf die Aufnahmevorrichtung - z. B. die Kamera - für die Erzeugung der Bilder.

Die Aufnahmebedingungen beziehen sich daher je nach Ausgestaltung bzw. je nach Verfügbarkeit der Daten auf die Position der Aufnahmevorrichtung relativ zur Szenerie und/oder auf die Orientierung der Aufnahmevorrichtung relativ zur Szenerie. Relevant ist somit, wo sich die Aufnahmevorrichtung relativ zur Szenerie oder absolut befindet und/oder wie die Aufnahmevorrichtung - oder insbesondere deren Optik - relativ zur Szenerie oder absolut ausgerichtet ist.

Unter Aufnahmebedingungen seien dabei auch die intrinsischen Parameter der Aufnahmevorrichtung selbst verstanden. Der Einfluss der inneren Eigenschaften der Aufnahme- Vorrichtung wird somit ebenfalls ergänzend oder alternativ für die Ermittlung der Daten des Trifokaltensors beachtet.

Eine Ausgestaltung besteht darin, dass die Bilder des ersten Zeitintervalls Vorher-Büder sind und das Bild des zweiten Zeitintervails ein Nachher-Bild ist.

In einer Ausgestaltung ist vorgesehen, dass die Bilder des ersten Zeitintervalls Nachher- Bilder sind und das Bild des zweiten Zeitintervalls ein Vorher-Bild ist.

Die Bezeichnungen Vorher- und Nachher-Bilder beziehen sich dabei auf den größeren zeitlichen Abstand zwischen den zwei Zeitintervallen und/oder vor bzw. nach einem Ereignis. Weiterhin gehören je nach Ausgestaltung die Vorher-Bilder zum ersten Zeitintervall oder zum zweiten Zeitintervall. Entsprechend gehören die Nachher-Bilder zum zweiten Zeitintervall oder zum ersten Zeitintervali. Eine Ausgestaltung besteht darin, dass die Aufnahmezeitpunkte der Bilder des ersten Zeitintervalls nahezu oder exakt gleich sind. In dieser Ausgestaltung wird der zeitliche Abstand zwischen den zwei Bildern des ersten Zeitintervalls somit möglichst verkürzt.

Weiterhin löst die Erfindung die Aufgabe durch ein Verfahren zum Auffinden mindestens einer Veränderung in einer Szenerie. Das Verfahren umfasst dabei zumindest die folgenden Schritte:

• Dass mindestens drei Bilder bereitgestellt werden, die Aufnahmezeitpunkten zugeordnet sind.

· Dass ausgehend von den mindestens drei Bildern Daten eines Trifokaltensors oder einer äquivalenten Beschreibung der Geometrie des Dreibildfalls ermittelt werden.

• Dass mindestens für die zwei Bilder des ersten Zeitintervalls Daten einer pixelweisen Zuordnung zwischen den zwei Bildern ermittelt werden.

• Dass ausgehend von den mindestens drei Bildern sowie ausgehend von den ermittel- ten Daten des Trifokaltensors bzw. der äquivalenten Beschreibung und den ermittelten

Daten der pixelweisen Zuordnung mindestens zwei Vergleichsbilder, die im Wesentlichen die gleiche Perspektive auf die Szenerie aufweisen und unterschiedlichen Zeitintervallen zugeordnet sind, bereitgestellt werden.

• Dass die zwei Vergleichsbilder dahingehend ausgewertet werden, ob mindestens ein Unterschied zwischen den zwei Vergleichsbildern besteht.

• Dass ausgehend von der Auswertung der zwei Vergleichsbilder ein Vergleichsergebnis erzeugt wird.

Die drei Bilder werden dabei so bereitgestellt, d. h. beispielweise passend ausgesucht oder erzeugt, dass die folgenden Bedingungen erfüllt sind:

• Die Aufnahmezeitpunkte von zwei Bildern der drei Bilder gehören zu einem ersten Zeitintervall und der Aufnahmezeitpunkt eines dritten Bildes der drei Bilder gehört zu einem zweiten Zeitintervall.

• Die zwei Bilder des ersten Zeitintervalls weisen unterschiedliche Perspektiven relativ zur Szenerie auf.

• Das dritte Bild des zweiten Zeitintervalls weist eine andere Perspektive relativ zu der Szenerie als die zwei Bilder des ersten Zeitintervalls auf.

• Ein zeitlicher Abstand zwischen den Aufnahmezeitpunkten der zwei Bilder des ersten Zeitintervalls ist kleiner als ein zeitlicher Abstand zwischen dem ersten Zeitintervall und dem zweiten Zeitintervall.

Die obigen Ausgestaltungen der Vorrichtung lassen sich auch durch Schritte von Ausgestaltungen des Verfahrens realisieren, sodass die Erläuterungen entsprechend gelten. Daher wird hier auf eine Wiederholung verzichtet. Schließlich bezieht sich die Erfindung auf ein Computerprogramm mit einem Programmcode zur Durchführung des vorgenannten Verfahrens nach einer der Ausgestaltungen.

Bislang vorgestellte 2D-Änderungsverfahren haben sich grundsätzlich auf die Geometrie des Zweibildfalls beschränkt. Diese Vorgehensweise hat für die Änderungsdetektion einen entscheidenden Nachteil: Auch unter Einbeziehung geometrischer Plausibilität durch die Epipolargeometrie und dichte Tiefenschätzung ist bei der Durchführung der Änderungsdetektion nicht unterscheidbar, ob eine Oberfläche in nur einem Bild sichtbar ist oder ob eine Änderung in der Szene vorliegt. Die Verwendung von drei Bildern und die Bestimmung der Geometrie des Dreibildfalls ermöglicht geometrisch korrekte Bildtransformation, auch ohne eine euklidische Rekonstruktion.

Der im Folgenden erläuterte Lösungsweg nutzt dabei folgenden Gegebenheiten: Die Erfindung sei noch einmal mit anderen Worten zusammengefasst. Schritt 1 : Bestimmung von dünnen Punktkorrespondenzen

Die zuverlässige Bestimmung von Punktkorrespondenzen (homologe Punkte) ist auch bei Aufnahmekonfigurationen möglich, für die eine pixelweise Zuordnung nicht sinnvoll möglich ist (Stewart 1999), (Mikolajczyk & Schmid 2004).

Dies ist dabei ein Teil der Ermittlung der Daten des Trifokaltensors. Verfahren zur automatischen Bestimmung und Zuordnung von Punktkorrespondenzen in Bildern werden beispielsweise beschrieben von (Förstner & Gülch 1987), (Harris & Stephens 1988), (Lowe 2004) oder (Rublee et al. 201 1 ).

Verfahren zur Kompensation von Fehlzuordnungen beschreiben (Fischler & Bolles 1981 ).

In einer Ausgestaltung werden Verfahren zur lokalen Verbesserung von Bildkoordinaten verwendet, vgl. (Grün 1985) oder (Bethmann & Luhmann 2010).

In einer Ausgestaltung werden zudem Verfahren zur robusten Schätzung eines geometri- sehen Modells verwendet, vgl. (Torr 1998) oder (Stewart 1999). Schritt 2: Bestimmung der Geometrie des Dreibildfalls

Auf Grundlage von Punktkorrespondenzen (homologe Punkte) kann die Geometrie des Dreibildfalls zuverlässig bestimmt werden (Hartley & Zisserman 2004).

Dieser Schritt ist ebenfalls ein Teil der Ermittlung der Daten des Trifokaltensors.

Für die Bestimmung der Geometrie des Dreibildfalls - also der Bearbeitung der drei Bilder - sind folgende Ausgestaltungen vorgesehen, die Alternativen oder Ergänzungen zuei- nander darstellen:

In einer Ausgestaltung erfolgt die Bestimmung des unkalibrierten Dreibildfalls durch Sechs-Punkt-Korrespondenz und optional durch eine kleinste Quadrate-Optimierung, vgl. (Quan 1994), (Torr & Zisserman 1997) oder (Schaffalitzki et al. 2000).

In einer Ausgestaltung erfolgt die Bestimmung des kalibrierten Dreibildfalls ausgehend von zwei kalibrierten Zweibildfällen, vgl. (Carlson & Weinshall 1998, Nister 2005). Dabei erfolgt in einer Ausgestaltung zudem eine kleinste Quadrate-Optimierung, vgl. (Schaffalitzki et al. 2000).

In einer Ausgestaltung werden Projektionsmatrizen verwendet, welche als Ergebnis aus einer relativen oder absoluten Orientierung eines Vielbildfalls vorliegen.

Dabei werden in einer Ausgestaltung drei Projektionsmatrizen ausgewählt und es wird unmittelbar der Trifokaltensor ermittelt. Zu Details siehe (Hartley & Zisserman 2004). In einer Ausgestaltung erfolgt optional eine kleinste Quadrate-Optimierung, vgl. (Schaffalitzki et al. 2000).

In einer weiteren Ausgestaltung werden Projektionsmatrizen verwendet, die durch geeig- nete Sensorik und vorzugsweise deren GNSS-Daten (GNSS von global navigation satelli- te system, globales Navigationssateiiitensystem) gegeben sind. Daraus werden ebenfalls unmittelbar die Daten des Trifokaltensors ermittelt, vgl. (Hartley & Zisserman 2004). Optional erfolgt eine kleinste Quadrate-Optimierung, vgl. (Schaffalitzky et al. 2000). In einer Ausgestaltung findet eine Erweiterung auf die Bestimmung und entsprechende Verwendung eines Quadrifokaltensors statt, vgl. (Triggs 1995, Hartley 1998), sofern vier oder mehr Bilder vorhanden sind, welche die Szenerie zeigen. Schritt 3: Bestimmung von dichten Punktkorrespondenzen (pixelweise Zuordnung)

Für ein Bildtriplet wird ein Bildpaar so akquiriert, dass es möglichst gut geeignet ist für eine pixelweise Zuordnung. Die Akquise dieses Bildpaares ist nicht an den Aufnahmezeitpunkt des dritten Bildes gebunden. Es ist sowohl eine monokulare als auch eine Stereo- Aufnahmekonfiguration möglich. Die pixelweise Zuordnung für das Bildpaar, welches die Szenerie zu einem quasi identischen Zeitpunkt abbildet, erfolgt in einer Ausgestaltung als globale Lösung z. B. in Form eines optischen Flusses, mit oder ohne Einbeziehung der geometrischen Plausibilität oder durch nicht globale Tiefenschätzung, vgl. (Lucas & Ka- nade 1981), (Brox et al. 2004) oder (Hirschmüller 2008). Für letzteren Ansatz ist planare wie polare Rektifizierung der Bilder gleichermaßen denkbar (Pollefeys et al. 2004).

Schritt 4: Angleichung der Perspektive zwischen Vorher- und Nachher-Bildern.

In diesem Schritt wird unter Verwendung des ermittelten Trifokaltensors und der pixelwei- sen Zuordnung für das Bildpaar, welches die Szene zum quasi identischen Zeitpunkt abbildet, die Transformation einer oder mehrerer Perspektiven der drei Bilder vorgenommen, vgl. (Avidan & Shashua 1997), (Connor & Reid 2002).

In einer Ausgestaltung wird einer relativen oder absolute Orientierung in Verbindung mit einem vorhandenen, berechneten oder mittels RGB-D Kameras ermittelten groben Höhenmodells verwendet für eine grobe Transformation der Perspektiven der Bilder.

Die Bilder, für die eine Änderungsdetektion durchgeführt werden soll, liegen verzeichnungsfrei vor, werden verzeichnungsfrei aufbereitet oder die Verzeichnung wird modelliert (Buchdahl 1958), (Hartley & Zisserman 2004), (Barreto & Daniilidis 2005), (Brito et al. 2013) oder analog zu (Brito et al. 2013) werden die Verzeichnisparameter direkt mit dem Trifokaltensor bestimmt (radialer Trifokaltensor).

Betrachtet sei der Fall mit einem Vorher-Bild und zwei Nachher-Bildern, also ein Bild, das zu dem zweiten Zeitintervall gehört, und zwei Bilder, die zu dem ersten Zeitintervall gehören. Dabei sei auch der zeitliche Abstand zwischen den beiden Nachher-Bildern vernach- lässigbar gering. Die folgenden Ausführungen gelten entsprechend für die umgekehrte Konstellation, dass zwei Vorher-Bilder zum Zeitpunkt tO und ein Nachher-Bild zum Zeitpunkt t1 vorliegen. Auch gelten die Erläuterungen für den Fall, dass zusätzliche Vorher- Bilder und/oder Nachher-Bilder vorhanden sind. Dies ist z. B. der Fall, wenn die Bilder einer Videosequenz bzw. Videosequenzen entstammen.

Ein bestehendes Referenzbild (Vorher-Bild) wird verwendet, dieser Aufnahmezeitpunkt wird im Folgenden als tO bezeichnet. Verwendung oder Aufnahme zweier geeigneter, aktueller Bilder (Nachher-Bilder), für die eine pixelweise Zuordnung sinnvoll möglich ist, dazu gehören insbesondere Stereoaufnahmekonfigurationen. Die Aufnahmezeitpunkte müssen entweder identisch sein, was bei Stereoaufnahmekonfigurationen der Fall ist oder es muss davon ausgegangen werden können, dass zwischen den Aufnahmezeitpunkten keine relevante Veränderung an der Szene erfolgt. Dieser Aufnahmezeitpunkt wird im Folgenden als t1 bezeichnet.

Einige Vorteile der Erfindung sind die folgenden:

• Es wird eine 2D-Änderungsdetektion ermöglicht, die nicht von Referenzmodellen ab- hängig ist. Es ist auch keine Veränderung des Volumens erforderlich, um eine Identifizierung zu erlauben.

• Die Bestimmung der Geometrie des Dreibildfalls erfordert für diese Anwendung keine euklidische Rekonstruktion, sondern lediglich eine projektive. Daher können alle Verfahrensschritte unkalibriert, d. h. ohne Kenntnis der intrinsischen Kameraparameter durchgeführt werden.

• Alle Verfahrensschritte sind echtzeitfähig.

• Die pixelweise Zuordnung erfolgt für zwei Bilder, die aufgrund ihrer zeitlichen Nähe eine unveränderte Szenerie zeigen. Daher kann davon ausgegangen werden, dass die Zuordnung nicht durch eine Änderung der Szenerie beeinträchtigt wird. Etwaige Fehler im Disparitätsbild - also Fehler, die bei der pixelweisen Zuordnung auftreten - können ggf. dem Verfahren oder der Aufnahmekonfiguration zugerechnet und somit nicht mehr fälschlich als Änderungen gedeutet werden. Für die betroffenen Bildregionen wäre somit bekannt, dass eine Aussage über etwaige Änderungen nicht möglich ist. Verdeckungen führen bei der Transformation der Perspektive zu leeren Bildregionen, so dass feststellbar ist, wo Information fehlt und eine Aussage über etwaige Änderungen nicht möglich ist.

Ein großer Vorteil besteht darin, dass die Erfindung auf Grundlage von Consumer- Kameras, rein bildbasiert und ohne Expertenwissen umsetzbar ist, sodass auch bei sehr geringen Hardwarekosten zuverlässige Ergebnisse erzielt werden können.

Im Einzelnen gibt es eine Vielzahl von Möglichkeiten, die Vorrichtung und das entsprechende Verfahren auszugestalten und weiterzubilden. Dazu wird verwiesen einerseits auf die Patentansprüche, andererseits auf die folgende Beschreibung von Ausführungsbeispielen in Verbindung mit der Zeichnung. Es zeigen: eine schematische Darstellung einer photographischen Aufnahme einer Szenerie, eine schematische Darstellung der zeitlichen Verteilung von drei Bildern einer Szenerie,

Fig. 3 eine schematische Darstellung einer Ausgestaltung einer Vorrichtung zur

Identifizierung einer Veränderung in einer Szenerie,

Fig. 4 eine schematische Darstellung einer ersten Variante der Ermittlung von

Daten eines Trifokaltensors (a)) und Daten einer pixelweisen Zuordnung (b)),

Fig. 5 eine schematische Darstellung einer zweiten Variante der Ermittlung von

Daten eines Trifokaltensors (a)) und Daten einer pixelweisen Zuordnung

(b)), Fig. 6 eine schematische Darstellung einer dritten Variante der Ermittlung von

Daten eines Trifokaltensors (a) oder b)) und Daten einer pixelweisen Zuordnung (c)),

Fig. 7 eine schematische Darstellung mehrerer Varianten einer unidirektionalen, einfachen Transformation zwischen zwei Bildern, Fig. 8 eine schematische Darstellung mehrerer Varianten einer unidirektionalen, doppelten Transformation zwischen drei Bildern,

Fig. 9 eine schematische Darstellung mehrerer Varianten einer bidirektionalen, einfachen Transformation zwischen zwei Bildern,

Fig. 10 eine schematische Darstellung mehrerer Varianten einer bidirektionalen, doppelten Transformation zwischen drei Bildern und Fig. 11 eine beispielhafte Realisierung des Verfahrens als Ablaufdiagramm.

In der Fig. 1 ist dargestellt, wie von einer Szenerie 100 mit einer Aufnahmevorrichtung 200, die hier beispielhaft eine Kamera ist, Bilder aufgenommen werden. Gemäß einem Ausführungsbeispiel können die Bilder mit einem optischen bildgebenden Verfahren aufgenommen sein. Dabei werden beispielsweise reflektive Aufnahmen der Szenerie 100 mit der Aufnahmevorrichtung 200 aufgenommen. Dies kann beispielsweise bedeuten, dass die Szenerie 100 mit künstlichem Licht oder Umgebungslicht bestrahlt wird und das von der Szenerie reflektierte oder zurückgestrahlte Licht von der Aufnahme- Vorrichtung detektiert wird. Somit stellen die Bilder beispielsweise Oberflächen der Szenerie 100 dar.

Gemäß einem Ausführungsbeispiel kann die Aufnahmevorrichtung 200 ausgelegt sein, um die Bilder mittels thermischem Infrarot bzw. in Form von Multispektralaufnahmen auf- zunehmen. In dem Fall würden die gemessenen Intensitätswerte z. B. nicht nur von einer Reflektanz sondern auch von einer Oberflächentemperatur des Materials / der Szenerie 100 abhängen.

Die zeitliche Zuordnung von drei Bildern einer solchen Szenerie 100 ist in der Fig. 2 dar- gesteilt.

Die drei Bilder seien dafür mit P1 , P2 und P3 bezeichnet, die zu den Aufnahmezeitpunkten T1 , T2 und T3 aufgenommen worden sind. Zwei Bilder P1 und P2 gehören dabei zu einem ersten Zeitintervall 11 und das dritte Bild P3 gehört zu einem zweiten Zeitintervali

12. Gemäß einem Ausführungsbeispiel sind die Bilder P1 , P2 und P3 mit einem optischen bildgebenden Verfahren aufgenommen.

Gemäß einem Ausführungsbeispiel stellen die Bilder P1 , P2 und P3 eine mit Licht be- strahlte Szenerie dar.

Gemäß einem Ausführungsbeispiel stellen die Bilder P1 , P2 und P3 Oberflächen der Szenerie dar. Gemäß einem Ausführungsbeispiel sind die Bilder P1 , P2 und P3 mittels thermischem Infrarot aufgenommen.

Gemäß einem Ausführungsbeispiel stellen die Bilder P1 , P2 und P3 Multispektralaufnah- men dar.

In der gezeigten Ausgestaltung handelt es sich um zwei Vorher-Bilder und ein Nachher- Bild. Dies ist jedoch nur ein Beispiel, da das hier beschriebene Verfahren bzw. die Vorrichtung auch auf ein Vorher-Bild und zwei Nachher-Bilder anwendbar ist. Entsprechendes gilt auch für den Fall, dass noch weitere Vorher-Bilder bzw. Nachher-Bilder vorhan- den sind.

Zwischen den zwei Bildern P1 und P2 des ersten Zeitintervalls 11 besteht hier ein zeitlicher Abstand dt1 , der kleiner ist als der Abstand dt2 zwischen den zwei Zeitintervailen 11 und 12. In einer Ausgestaltung ist der zeitliche Abstand dt1 zwischen den Bilder P1 und P2 nahezu Null, sodass die Bilder P1 und P2 also im Wesentlichen zeitgleich aufgenommen worden sind. Bei den Bildern P1 und P2 wird dabei angenommen, dass sich keine Änderung der Szenerie 100 zwischen den Aufnahmezeitpunkten T1 und T2 eingestellt hat. Daher ist der zeitliche Abstand dt1 vorzugsweise möglichst klein. Die drei Bilder P1 , P2 und P3 unterscheiden sich generell darin voneinander, dass sie die Szenerie 100 aus anderen Perspektiven aufgenommen haben.

Das dritte Bild P3, das hier auch das Bild des zweiten Zeitintervalls 12 und ein Nachher- Bild ist, wurde zu einem anderen Zeitpunkt T3 als die Vorher-Bilder P1 und P2 aufgenommen: T1 und T2. Die Perspektive des dritten Bildes P3 ist dabei unterschiedlich zu den Perspektiven der beiden anderen Bilder P1 und P2. Für die Identifizierung einer Änderung der Szenerie 100 werden somit mindestens drei Bilder verwendet. Zwei Bilder - hier P1 und P2 - zeigen die Szenerie 00 aus zwei unterschiedlichen Perspektiven und haben beieinanderliegende Aufnahmezeitpunkte T1 und T2. Das dritte Bild P3 zeigt ebenfalls die Szenerie, hat jedoch einen deutlich unterschied- liehen Aufnahmezeitpunkt T3. Der zeitliche Abstand dt2 zwischen den Zeitintervallen 11 , 12, in denen die drei Bilder P1 , P2 und P3 liegen, ist dabei beliebig, aber ist zumindest größer als der zeitliche Abstand dt1 zwischen den Bilder P1 , P2 des ersten Zeitintervalls 11. Ebenfalls beliebig ist, ob die zwei Bilder P1 , P2 zeitlich vor oder nach dem Aufnahmezeitpunkt T3 des dritten Bildes P3 liegen. Somit kann das erste Zeitintervall 11 auch dem zweiten Zeitintervall 12 folgen.

Die Fig. 3 zeigt schematisch eine Ausgestaltung einer Vorrichtung 1 zur Verarbeitung von drei Eingangsbildern Ρ1 ', P2' und P3' sowie zur entsprechenden Identifizierung von Veränderungen in der Szenerie 100 anhand der Bilder.

Die drei Eingangsbilder Ρ1 ', P2' und P3' werden in dem dargestellten Ausführungsbeispiel zunächst einer Korrekturvorrichtung 50 zugeführt, die mögliche Verzeichnungsfehler erkennt und passend korrigiert. In der dargestellten Ausgestaltung gibt die Korrekturvorrichtung 50 korrigierte Bilder P1 , P2, P3 aus. In einer alternativen Ausgestaltung ermittelt die Korrekturvorrichtung 50 Korrekturdaten, die bei den weiteren Schritten verwendet werden.

Die drei Bilder P1 , P2, P3 werden an die erste Ermittlungsvorrichtung 10 übermittelt, die aus den Bildern P1 , P2, P3 Daten eines Trifokaitensors ermittelt. Ein Trifokaltensor ist dabei ein Tensor, welcher geometrische Beziehungen zwischen den Aufnahmen der drei Bilder P1 , P2, P3 beschreibt. In einer Variante werden dafür Projektionsmatrizen verwendet, die die jeweilige Aufnahme z. B. mit einer Kamera beschreiben.

Die zwei Bilder P1 und P2, die zu dem gleichen Zeitintervall 11 gehören, werden zudem der zweiten Ermittlungsvorrichtung 20 zugeführt. Zwischen den beiden Bildern P1 und P2 liegt nur eine geringe zeitliche Differenz dt1. In einer Ausgestaltung sind die beiden Bilder P1 und P2 zeitgleich aufgenommen. Beide Bilder P1 und P2 zeigen jedoch die Szenerie 100 aus unterschiedlichen Perspektiven. Die zweite Ermittlungsvorrichtung 20 ermittelt Daten einer pixelweisen Zuordnung zwischen den beiden Bildern P1 und P2. Es wird also ermittelt, welche Pixel der zwei Bilder P1 und P2 jeweils zueinander gehören. Schließlich werden die drei Bilder P1 , P2, P3 sowie die Daten des Trifokaltensors und die Daten der pixelweisen Zuordnung der Bildbearbeitungsvorrichtung 30 zugeführt.

Die Bildbearbeitungsvorrichtung 30 ist derartig ausgestaltet, dass sie ausgehend von den drei perspektivisch nicht angeglichenen Bildern P1 , P2, P3 sowie den Daten hinsichtlich des Trifokaltensor und der pixelweiser Zuordnung wenigstens zwei Vergleichsbilder C1 und C2 erzeugt, die die Szenerie 100 aus der gleichen Perspektive zeigen.

Die Vergleichsbilder C1 , C2 entstammen dabei den beiden unterschiedlichen Zeitintervallen 11 und 12. In einer Ausgestaltung ist dabei ein Vergleichsbild C1 gleich einem perspek- tivisch nicht angeglichenen Bild - z. B. das Bild P1 aus dem ersten Zeitintervall 11 - und das andere Vergleichsbild ergibt sich aus einem anderen perspektivisch nicht angeglichenen Bild - entsprechend das Bild P3 aus dem zweiten Zeitintervall 12 - mit geänderter Perspektive. Alternativ werden aus beiden Zeitintervallen 11 und 12 Bilder zu einer gemeinsamen Perspektive transformiert.

Die beiden Vergleichsbilder C1 und C2 werden dann einer Vergleichsvorrichtung 40 zugeführt, die die beiden Vergleichsbilder C1 und C2 miteinander vergleicht und ein Vergleichsergebnis erzeugt, das Auskunft über Änderungen der Szenerie 100 gibt. Wie bereits angemerkt, sind drei Bilder erforderlich, welche die Szenerie aus unterschiedlichen Perspektiven zeigen, wobei zwei Bilder zeitlich nah beieinander oder sogar zeitgleich aufgenommen worden sind und wobei das dritte Bild einen unterschiedlichen Aufnahmezeitpunkt hat. Die zwei zeitlich nah beieinander aufgenommenen Bilder sind dabei vorzugsweise derartig erzeugt oder ausgewählt worden, dass deren Aufnahmebedingun- gen für eine pixelweise Zuordnung möglichst gut geeignet sind.

Es wurde auch bereits erwähnt, dass die zwei Bilder zeitlich vor oder hinter dem dritten Bild liegen können. Daher sind die folgenden Ausführungen entsprechend auch in zeitlicher Umkehrung zu verstehen. Weiterhin wird in den folgenden Ausgestaltungen davon ausgegangen, dass zwei Bilder den gleichen Aufnahmezeitpunkt haben. Die entsprechenden Ausgestaltungen gelten jedoch auch für den Fall eines zeitlichen Abstandes, wobei der Abstand dt1 zwischen den Bildern kleiner als der Abstand dt2 zwischen den Zeitintervallen 11 und 12 ist.

Die Fig. 4 zeigt drei Bilder, die hier mit P1 , P2 und P3 bezeichnet sind und denen die Aufnahmezeitpunkte tO und t1 zugeordnet sind. Somit sind zwei Bilder: P2 und P3 zeitgleich aufgenommen worden. Damit gehören diese beiden Bilder P2 und P3 auch zu dem ersten Zeitintervall 11 , das in dem gezeigten Beispiel dem zweiten Zeitintervall 12 folgt. Es liegen somit zwei Nachher-Bilder P2 und P3 und ein Vorher-Bild P3 vor.

Die Fig. 4 a) verdeutlicht die Ermittlung der Daten des - hier insbesondere unkalibrierten - Trifokaltensors, wobei mindestens sechs Punktkorrespondenzen über die drei Bilder P1 , P2, P3 ermittelt werden.

Die Fig. 4 b) zeigt die Bestimmung der pixelweisen Zuordnung für die zwei Nachher-Bilder P2, P3, also für die Bilder, die dem gleichen Zeitintervall 11 entstammen und sich hinsichtlich der Perspektive voneinander unterscheiden. Die Striche deuten dabei an, dass deutliche mehr zusammengehörige Pixel ermittelt werden als dies bei der Ermittlung des Trifo- kaltensors - Fig. 4 a) - der Fall ist.

Die gleiche Vorgehensweise gilt auch für den Fall von zwei Vorher-Bildern und einem Nachher-Bild. Die Fig. 5 zeigt den Fall, dass insgesamt n Bilder vorhanden sind: P1 , P2 bis Pn. Dabei handelt es sich um (n-1) Vorher-Bilder: P1 bis Pn-1 und ein Nachher-Bild: Pn. Dabei ist n eine natürliche Zahl größer als Drei.

Die Vorher-Bilder sind in dem ersten Zeitintervall 11 aufgenommen worden und haben hier sogar jeweils den gleichen Aufnahmezeitpunkt tO. Das Nachher-Bild Pn mit dem Aufnahmezeitpunkt t1 liegt im zweiten Zeitintervall 12.

In der Fig. 5 a) ist angedeutet, wie der unkalibrierte Trifokalsensor durch sechs Punktkorrespondenzen für drei der n Bilder P1 , Pn-1 und Pn ermittelt wird. Dabei ist wenigstens ein Bild das Nachher-Bild Pn. 8

Die Fig. 5 b) verdeutlicht entsprechend, dass eine pixelweise Zuordnung zwischen allen (n-1 ) zeitgleichen Bildern ermittelt wird.

Die Fig. 6 zeigt den Fall, dass insgesamt (n+m) Bilder vorhanden sind, wobei n und m natürliche Zahlen sind.

Dabei liegen (n-1 ) Bilder vor, die zu einem Zeitpunkt tO aufgenommen worden sind. Dies sind also Vorher-Bilder. Zudem gibt es (m+1 ) Bilder, die zu einem anderen Zeitpunkt t1 aufgenommen worden sind. Die sind hier Nachher-Bilder.

Für die Bestimmung des Trifokaltensors werden drei Bilder verwendet. Dabei entstammen zwei Bilder einem gemeinsamen und - hier so bezeichneten - ersten Zeitintervall 11 und das dritte Bild entstammt einem zweiten Zeitintervall 12. Dabei ergeben sich zwei Möglichkeiten, die in den Fig. 6 a) und b) dargestellt sind.

In der Fig. 6 a) ist der Fall dargestellt, dass sich das erste Zeitintervall 11 auf die Nachher- Bilder zum Zeitpunkt t1 bezieht. Es werden somit zwei Bilder Pj und Pk herangezogen, wobei n <= j < k und k <= n + m ist. Das einzelne Bild Pi mit 1 <= i < n ist ein Vorher-Bild aus dem Zeitintervall 12.

Umgekehrt zeigt die Fig. 6 b), dass die zwei Bilder Pi und Pj Vorher-Bilder und daher dem ersten Zeitintervail 11 zuzuordnen sind. Das dritte Bild Pk ist ein Nachher-Bild. Für die Ermittlung der pixelweisen Zuordnung - angedeutet in der Fig. 6 c) - werden zum einen alle (n-1 ) Vorher-Bilder und werden zum anderen alle (m+1) Nachher-Bilder jeweils separat ausgewertet. Es gibt somit eine pixeiweise Zuordnung für den Vorher-Zustand und eine pixelweise Zuordnung für den Nachher-Zustand. Die Daten von beiden Zuordnungen werden der Bildbearbeitungsvorrichtung 30 (vgl. Fig. 3) zugeführt.

Die folgenden Abbildungen beziehen sich auf einige beispielhafte Transformationen zwischen den einzelnen Bildern durch die Bildbearbeitungsvorrichtung 30 (vgl. Fig. 3). Die Transformationen beziehen sich dabei auf die Anpassung der Perspektiven der Bilder. Dabei werden zumindest zwei Vergleichsbilder C1 , C2 (vgl. Fig. 3) mit gleicher Perspekti- ve auf die Szenerie 100 (vgl. Fig. 1 ) generiert. In der Fig. 7 sind drei Beispiele für eine unidirektional, einfache Transformation dargestellt. Dabei wird jeweils ein Bild - von dem der Pfeil ausgeht - in Bezug auf die Perspektive an ein anderes Bild - auf dem der Pfeil endet - angepasst. Dargestellt sind jeweils drei Bilder: P1 , P2 und P3, die insgesamt an zwei unterschiedlichen Aufnahmezeitpunkten: tO und t1 aufgenommen worden sind. Zwei Bilder sind somit gleichzeitig aufgenommen worden: tO oder t1. Die gezeigten Verknüpfungen gelten jedoch auch für den Fall, dass bei zwei Bildern zwischen den Aufnahmezeitpunkten ein zeitlicher Abstand dt1 (vgl. Fig. 2) besteht. Oder mit anderen Worten: zwei Bilder gehören zum ers- ten Zeitintervall 11 und haben einen gewissen - geringen - oder keinen zeitlichen Abstand und ein Bild gehört zu einem zweiten Zeitintervall 12, dessen zeitlicher Abstand dt2 zum ersten Zeitintervall 11 größer als der ggf. bestehende Abstand dt1 zwischen den Aufnahmezeitpunkten der Bilder des ersten Zeitintervalls 11 ist. Dieser Zusammenhang ist insbesondere dann gegeben, wenn die Bilder des ersten Zeitintervalls 11 identische Aufnahme- Zeitpunkte haben, sodass also dt1 = 0 gilt.

In der Fig. 7 a) ist ein Vorher-Bild P1 mit dem Aufnahmezeitpunkt tO und sind zwei Nach- her-Bilder P2 und P3 mit einem Aufnahmezeitpunkt t1 gegeben. Da - für die Beschreibung - den beiden zeitnahen oder zeitgleichen Bildern P2 und P3 das erste Zeitintervall 11 zugeordnet ist, geht hier das zweite Zeitintervall 12 mit dem zeitlich beabstandeten Bild P1 dem ersten Zeitintervall 11 voraus.

Im gezeigten Fall wird das Bild P1 auf das Bild P3 in Bezug auf die Perspektive abgebildet. In einem alternativen Fall erfolgt die Anpassung der Perspektive des Bildes P1 an die Perspektive des Bildes P2.

Entsprechend ist der in der Fig. 7 b) gezeigte Fall, wenn zwei Vorher-Bilder P1 und P2 - im ersten Zeitintervall 11 - mit dem gemeinsamen Aufnahmezeitpunkt tO und ein Nachher- Bild P3 - im zweiten Zeitintervall 12 - gegeben ist. Auch hier wird somit das einzelne Bild P3 an ein Bild der beiden anderen - und hier zeitgleichen - Bilder P1 oder P2 angepasst. Alternativ kann auch hier das Bild P3 an das Bild P1 angepasst werden.

Umgekehrt kann auch ein Bild P1 der zwei Bilder des ersten Zeitintervalls 11 an das einzelne Bild des anderen Zeitintervalls 12 angepasst werden. Ein Beispiel einer solchen Vorher-Nachher-Transformation zeigt die Fig. 7 c). Alternativ kann das Bild P2 an das Bild P3 angepasst werden. Entsprechendes gilt für den Fall, dass ein Vorher-Bild und zwei Nachher-Bilder vorhanden sind.

In der Fig. 8 werden zwei beispielhafte Varianten für eine unidirektionale, doppelte Trans- formation dargestellt. Die dargestellten Beispiele lassen sich dabei wie bei den vorhergehenden Abbildungen auch auf andere Konstellationen analog anwenden.

Die Fig. 8 a) zeigt den Fall mit drei Bildern P1 , P2 und P3, wobei ein Bild P1 einem Aufnahmezeitpunkt tO und die zwei anderen Bilder P2 und P3 einem anderen Aufnahmezeit- punkt t1 zugeordnet sind. Für die Transformation wird dabei die Perspektive des Bildes P1 des zweiten Zeitintervalls 12 an die Perspektiven der beiden anderen Bilder P2 und P3 des ersten Zeitintervails 11 angepasst.

Entsprechendes gilt für den Fall, dass zwei Bilder mit Zeitpunkt tO - also zwei Vorher- Bilder - und ein Bild mit Zeitpunkt t1 - also ein Nachher-Bild - vorliegen. In diesem Fall wird auch das einzelne Bild an die beiden - zeitlich vorausgehenden - Bilder angepasst.

Die Fig. 8 b) zeigt, dass zwei Bilder P1 und P2 an ein Bild P3 angepasst werden. Die zwei Bilder P1 und P2 haben den gemeinsamen Aufnahmezeitpunkt tO und gehören zu dem ersten Zeitintervall 12. Die Perspektiven dieser Bilder P1 und P2 werden an die Perspektive des zeitlich folgenden Bildes P3 des zweiten Zeitintervalls 12 angepasst.

Entsprechendes gilt für den Fall mit einem Vorher-Bild und zwei Nachher-Bildern. In der Fig. 9 sind zwei mögliche Varianten einer bidirektionalen, einfachen Transformation dargestellt. in der Fig. 9 a) sind zwei Vorher-Bilder P1 und P2, denen der gemeinsame Aufnahmezeitpunkt tO zugeordnet ist, und ein Nachher-Bild P3 mit dem Aufnahmezeitpunkt t1 vor- handen.

Die Ausführungen betreffend eines gemeinsamen Aufnahmezeitpunkts gelten - wie bereits erwähnt und allgemein geltend - auch für leicht unterschiedliche Aufnahmezeitpunkte, insofern die entsprechenden Aufnahmezeitpunkte immer noch eine Zuordnung zu dem ersten Zeitintervall 11 erlauben. In der Fig. 9 a) wird eine bidirektionale Transformation zwischen den Bildern P1 und P3 vorgenommen. Alternativ findet eine Transformation zwischen den Bildern P2 und P3 statt. Die Fig. 9 b) zeigt den Fall mit einem Vorher-Bild P1 und zwei Nachher-Bildern P2 und P3. Dabei wird hier eine Transformation zwischen den Bildern P1 und P2 realisiert. In einer alternativen Ausgestaltung wird eine Transformation zwischen den Bildern P1 und P3 vorgenommen. In der Fig. 10 sind zwei Fälle einer bidirektionalen, doppelten Transformation dargestellt. Jede Transformation hinsichtlich der Perspektive findet zwischen zwei Bildern statt, die zu unterschiedlichen Zeitpunkten aufgenommen worden sind. Für die doppelte Transformation wird jeweils eine Transformation zwischen dem Bild des zweiten Zeitintervalls 12 und jeweils einem Bild der zwei Bilder des ersten Zeitintervalls 11 vorgenommen.

In der Fig. 10 a) sind die zwei Bilder P2, P3 des ersten Zeitintervalls 11 Nachher-Bilder, die hier zudem einem gemeinsamen Aufnahmezeitpunkt t1 zugeordnet sind. Zwischen diesen beiden Bildern P2 und P3 und dem einzelnen Bild P1 des zweiten Zeitintervalls 12, das hier das Vorher-Bild ist, wird jeweils eine bidirektionale Transformation vorgenom- men.

In der Fig. 10 b) ist der alternative Fall dargestellt, dass zwei Vorher-Bilder P1 und P2 und ein Nachher-Bild P3 gegeben sind. Daher wird jeweils eine bidirektionale Transformation zwischen den Bildern P1 und P3 sowie zwischen den Bildern P2 und P3 realisiert.

Die vorgenannten Transformationen führen jeweils zu mindestens zwei Vergleichendem, die die gleiche Perspektive aufweisen.

Ein beispielhafter Ablauf des Verfahrens zur Identifizierung einer Veränderung in einer Szenerie anhand mindestens dreier Bilder wird in der Fig. 11 dargestellt.

Der beispielhafte Verlauf beginnt im Schritt 500 mit der Frage, ob drei Bilder der betrachteten Szenerie verzeichnungsfrei vorliegen. Im positiven Fall (Y-Zweig) folgt Schritt 505, der den Beginn der weiteren Schritte darstellt. Im negativen Fall (N-Zweig) wird im Schritt 501 ein Verzeichnungsmodell gewählt und werden die Korrekturparameter bezüglich der Verzeichnung bestimmt.

Im Schritt 502 ist entscheidend, ob die Originaibilder für das weitere Vorgehen verwendet werden soll.

Ist dem nicht der Fall (N-Zweig), so werden im Schritt 503 verzeichnungsfreie Bilder berechnet, mit denen dann der Schritt 505 folgt. Sollen die Originaibilder Verwendung finden (Y -Zweig nach Schritt 502), so werden im Schritt 504 die Daten für korrigierte Bildkoordinaten bereitgestellt und bei den folgenden Schritten benutzt. Der erste folgende Schritt ist auch hier Schritt 505.

Im Schritt 505 ist relevant, ob die zugehörigen Projektionsmatrizen für die drei Bilder vor- liegen, ob also die nötigen Daten vorhanden sind, um aus diesen die Matrizen zu ermitteln. Die Daten ergeben sich dabei beispielsweise durch die Verwendung eines inertialen Navigationssystems oder durch die photogrammetrische Bestimmung der relativen oder absoluten Orientierung. Die Projektionsmatrizen beschreiben die jeweilige Abbildung - auch Projektion genannt - der Szenerie auf das Kamerabild bei der Aufnahme. Dies be- zieht sich auf die Position und/oder die Orientierung der Kamera relativ zu den Kameras untereinander oder absolut zur Szenerie. Alternativ oder ergänzend bezieht sich dies auf intrinsische Kameraparameter, z. B. Kamerakonstante, Hauptpunkt, Scherung oder Skalierungsunterschied. Liegen die Projektionsmatrizen vor (Y-Zweig nach Schritt 505), so werden im Schritt 506 unmittelbar die Daten des Trifokaltensors für die drei Bilder bestimmt. Optional wird für den Trifokaltensor eine kleinste Quadrate-Optimierung durchgeführt.

Liegen die Projektionsmatrizen nicht vor (N-Zweig nach Schritt 505), so ist im Schritt 507 die Frage, ob wenigstens die intrinsischen Kameraparameter vorliegen.

Ist dem der Fall, so wird im Schritt 508 der Trifokaltensor über zwei kalibrierte Zweibiidfäl- le bestimmt. Das bedeutet, dass zwei essentielle Matrizen mit dem Fünf-Punkt- Algorithmus bestimmt werden. Die essentielle Matrix beschreibt die Geometrie des Zwei- bildfalls. Da die intrinsischen Kameraparameter bekannt sind, ist eine euklidische Rekonstruktion der Kamerapositionen möglich. Dadurch können die zwei Zweibildfälle zu einem Dreibildfal! zusammengefasst und daraus der Trifokaltensor bestimmt werden. Diese Vorgehensweise ist z. B. in Carlsson & Weinshall 1998 beschrieben.

Liegen die intrinsischen Kameraparameter nicht vor, so findet im Schritt 509 ein unkalib- rierte Bestimmung des Trifokaltensors statt. Dies zeigt einen großen Vorteil des Verfahrens auf, dass sogar ohne das Wissen über die Aufnahmebedingungen eine Verarbeitung möglich ist.

Im Schritt 510 erfolgt die Bestimmung der pixelweisen Zuordnung für das Bildpaar, das aus dem gleichen - oder hier ersten - Zeitintervall stammt und das mit unterschiedlichen Perspektiven aufgenommen worden ist. Für die pixelweise Zuordnung ist es somit vorteilhaft, wenn die Aufnahmezeitpunkte der zwei Bilder identisch oder nur einen geringen zeitlichen Abstand haben, sodass keine Änderungen in der Szenerie zu erwarten sind. Im Schritt 511 werden die Perspektiven von mindestens zwei Bildern aneinander angeglichen. Dabei werden entweder die korrigierten unverzeichneten Bilder des Schritts 503 oder die Originalbilder und die Korrekturdaten des Schritts 504 verwendet. Für die Anglei- chung der Perspektive werden zudem die Daten des Trifokaltensors verwendet, die je nach Verfügbarkeit der Daten bezüglich der Aufnahmesituation in einem der Schritte 506, 508 oder 509 ermittelt worden sind. Überdies werden die Daten der pixelweisen Zuordnung des Schritts 510 angewendet.

Insgesamt ergeben sich durch den Schritt 51 1 zwei Vergleichsbilder, die die gleiche Perspektive haben und die insbesondere auf Bilder aus unterschiedlichen Zeitintervallen ba- sieren. Es ergibt sich somit ein Vorher-Bild und ein Nachher-Bild als Vergleichsbilder, wobei beide Vergleichsbilder die gleiche Perspektive haben.

Im Schritt 512 wird für die zwei Vergleichsbilder eine Änderungsdetektion durchgeführt. Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder einer elektronischen Schaltung durchgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschrit- te durch einen solchen Apparat ausgeführt werden.

Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software oder zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert sein. Die Implementierung kann unter Ver- wendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer BluRay Diso, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammen- wirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.

Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem pro- grammierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.

Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.

Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.

Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. 5

Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren auf- gezeichnet ist. Der Datenträger oder das digitale Speichermedium oder das computerlesbare Medium sind typischerweise greifbar und/oder nicht flüchtig.

Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Daten ström oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden. Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.

Ein weiteres Ausführungsbeispiei umfasst einen Computer, auf dem das Computerpro- gramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen. Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispieien kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzu- führen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC oder beispielsweise ein Mikroprozessor, z. B. in Form einer ARM-Architektur. Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Ein- zelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.

Referenzen

[1] Szeliski, R.: "Image Alignment and Stitching: A Tutorial", Now: 2006, Foundations and Trends in Computer Graphics and Vision.

[2] Stewart, C: "Robust Parameter Estimation in Computer Vision", SIAM Review 1999; 41 (3):513-537. [3] Mikolajczyk, K. & Schmid, C: "Scale & Affine Invariant Interest Point Detectors", International Journal of Computer Vision 2004; 60 (1 ): 63-86.

[4] Hartley, R. I., Zisserman, A.: "Multiple View Geometry in Computer Vision (2 ed.)", Cambridge University Press, New York, NY, USA, 2004.Pollefeys, fVL, Van Gool, L. Ver- gauwen, M., Verbiest, F., Cornelis, K., Tops, J., Koch, R.: "Visual Modelling with a Hand- Held Camera", International Jounal of Computer Vision 2004; 59(3): 207-232.

[5] Lucas, B.D., Kanade, T.: "An Iterative Image Registration Technique with an Application to Stereo Vision", International Joint Conferences on Artificial Intelligence 1981 : 675- 679.

[6] Brox, T., Bruhn, A. Papenberg, ML, Weickert, J.:„High Accuracy Optica I Flow Estimation based on a Theory for Warping", European Conference on Computer Vision (ECCV), Lecture Notes in Computer Science, Springer 2004; 3024: 25-36. [7] Hirschmüller H.: "Stereo Processing by Semiglobal Matching and Mutual Information", IEEE Transactions on Pattern Analysis and Machine Intelligence 2008; 30 (2): 328-341.

[8] Avidan, S., Shashua, A.: "Novel View Synthesis in Tensor Space", in Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition 1997: 1034-1040.

[9] Buchdahl, H. A.: "Optical Aberration Coefficients. III. The Computation of the Tertiary Coefficients," Journal of the Optical Society of America 1958; 48: 747-756.

[10] Barreto, J.P., Daniilidis, K.: "Fundamental Matrix for Cameras with Radial Distortion." in Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCVO5) Volume 1 , IEEE Computer Society, Washington, DC, USA, 2005, pp. 625-632. [1 1] Brito, J. H., Angst, R.; Köser, K; Pollefeys, M.: "Radial Distortion Self-Calibration", 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, 2013, pp. 1368-1375.

[12] Förstner, W., Gülch, E.: "A Fast Operator for Detection and Precise Location of Dis- tinct Points, Corners and Centres of Circular Features", in Proceedings of the ISPRS Conference on Fast Processing of Photogrammetric Data, Interlaken, 1987, pp. 281-305.

[ 3] Harris, C, Stephens, M.: "A Combined Corner and Edge Detector", in Proceedings of Fourth Alvey Vision Conference, 1988, pp. 147-151.

[14] Lowe, D.G.: "Distinctive Image Features from Scale-Invariant Keypoints" in international Journal of Computer Vision; 2004, 60 (2): 91-110.

[15] Rublee, E., Rabaud, V., Konolige, K., Bradski, G.: "ORB: An Efficient Alternative to SIFT or SURF", in Proceedings of the 2011 International Conference on Computer Vision (ICCV'11), IEEE Society, Washington, DC, USA, 2011 , pp. 2564-2571.

[16] Fischler, M. A., Bolles, R. C: "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography", in Journal of Communications of the ACM; 1981 , 24 (6): 381-395. [17] Grün. A.: "Adaptive Least Squares Correlation: A Powerful Image Matching Tech- nique", in South African Journal of Photogrammetry, Remote Sensing, and Cartography, 1985; 14: 175-187. [18] Bethmann, F., Luhmann, T.: "Least-Squares Matching with Advanced Geometrie Transformation Models", in International Archives of Photogrammetry, Remote Sensing and Spatia! Information Sciences, Vol. XXXVIII, Part 5 Commission V Symposium, New- castle upon Tyne, UK. 2010. [19] Torr, P. H. S.: "Geometrie Motion Segmentation and Model Selection", Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 1998: 356 (1740): 1321-1340.

[20] Quan L.: "Invariants of 6 points from 3 Uncalibrated Images", in: Eklundh JO. (eds) Computer Vision— ECCV '94. ECCV 1994. Lecture Notes in Computer Science, vol 801. Springer, Berlin, Heidelberg

[21] Torr, P. H. S., Zisserman, A.: "Robust Parameterization and Computation of the Trifo- cal Tensor", Image and Vision Computing 1997; 15: 591-605.

[22] Schaffalitzky, F., Zisserman, A. Hartley, R. I., Torr, P. H. S.:„A Six Point Solution for Structure and Motion", Computer Vision— ECCV 2000: 6th European Conference on Computer Vision Dublin, Ireiand, June 26— July 1 , 2000, Proceedings, Part I Springer, Berlin, Heidelberg, 2000: 632-648.

[23] Carlsson, S., Weinshall, D.: "Dual Computation of Projective Shape and Camera Po- sitions from Multiple Images", International Journal of Computer Vision 2004; 27(3): 227- 241. [24] Nister, D.: "An Efficient Solution to the Five-Point Relative Pose Problem", IEEE Transactions on Pattern Analysis and Machine Intelligence 2004; 26(6): 756-777.

[25] Triggs, B.: The Geometry of Projective Reconstruction I: Matching Constraints and the Joint Image. Circulated in 1995. Accepted subject to revision to IJCV in 1995, but never completed. 1995. [26] Hartley, R. I.: "Computation of the Quadrifocai Tensor", in: Burkhardt H., Neumann B. (eds) Computer Vision— ECCV'98. ECCV 1998. Lecture Notes in Computer Science, vol 1406. Springer, Berlin, Heidelberg. [27] Connor, K., Reid, I.: "Novel View Specification and Synthesis", in Proceeding of 13th British Machine Vision Conference, Cardiff, September 2002: 22.1-22.10.