Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
MARKER-BASED CAMERA TRACKER
Document Type and Number:
WIPO Patent Application WO/2018/211057
Kind Code:
A1
Abstract:
The invention relates to a method for determining camera parameters based on image data recorded by means of a camera. The method comprises the following steps: recording a plurality of images of a scene, wherein the images contain a plurality of markings arranged in the scene; detecting the positions of the markings in the space; recording further images of the scene, wherein the further images contain at least some of the markings arranged in the scene; associating the spatial positions of the markings in the further images with their respective image positions; determining the camera parameters when recording the further images based on the associated space/image positions of the markings in the further images.

Inventors:
MICHAELIS MARKUS (DE)
Application Number:
PCT/EP2018/063048
Publication Date:
November 22, 2018
Filing Date:
May 18, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIGNUM BILDTECHNIK GMBH (DE)
International Classes:
G06T7/80; H04N5/222
Domestic Patent References:
WO2014020108A12014-02-06
Foreign References:
US20100245593A12010-09-30
GB2366463A2002-03-06
GB2329292A1999-03-17
Other References:
RICHARD HARTLEY; ANDREW ZISSERMAN: "Multiple View Geometry in Computer Vision", CAMBRIDGE UNIVERSITY PRESS, article "Extraction of Cameras from the Essential Matrix"
Attorney, Agent or Firm:
MERH-IP MATIAS ERNY REICHL HOFFMANN PATENTANWÄLTE PARTG MBB (DE)
Download PDF:
Claims:
Ansprüche

1. Verfahren zur Bestimmung von Kameraparametern anhand von mittels einer Kamera aufgenommenen Bilddaten, mit

Aufnehmen mehrerer Bilder einer Szene, wobei die Bilder mehrere in der Szene angeordnete Markierungen enthalten;

Ermitteln der Positionen der Markierungen im Raum;

Aufnehmen weiterer Bilder der Szene, wobei die weiteren Bilder zumindest einige der in der Szene angeordneten Markierungen enthalten;

Zuordnen der Raumpositionen der Markierungen in den weiteren Bildern zu deren jeweiligen Bildpositionen; und

Bestimmen der Kamera parameter bei der Aufnahme der weiteren Bilder anhand der zugeordneten Raum-/Bildpositionen der Markierungen in den weiteren Bildern.

2. Verfahren nach Anspruch 1, wobei zumindest einige der Markierungen eine eindeutige Identifikation der jeweiligen Markierung ermöglichen.

3. Verfahren nach Anspruch 2, wobei zumindest einige der Markierungen in den weiteren Bildern identifiziert werden, um so ihre zuvor ermittelten Raumpositionen zu bestimmen und den jeweiligen Bildpositionen zuzuordnen.

4. Verfahren nach einem der vorgehenden Ansprüche, wobei das Ermitteln der Positionen der Markierungen im Raum mittels eines„Structure from Motion "-Verfahrens erfolgt.

5. Verfahren nach einem der vorgehenden Ansprüche, wobei die bestimmten Kameraparameter zumindest eines aus Kamera Position,

Kameraorientierung und Kamerazoom enthalten.

6. Verfahren nach einem der vorgehenden Ansprüche, wobei die Bilder der Szene mit einer zuvor kalibrierten Vermessungskamera aufgenommen werden und die weiteren Bilder mit einer Produktionskamera aufgenommen werden.

7. Verfahren nach Anspruch 6, wobei die Vermessungskamera einer intrinsischen Kalibrierung unterzogen wird, um deren Kameraparameter anhand der Aufnahmen eines Kalibrierobjekts mit bekannten Abmessungen zu ermitteln.

8. Verfahren nach einem der vorgehenden Ansprüche, wobei die Markierungen eindeutig identifizierbare Master-Markierungen und Slave- Markierungen aufweisen, deren Kennung nur im räumlichen Bezug zu einer Master-Markierung eindeutig ist.

9. Verfahren nach einem der vorgehenden Ansprüche, wobei die Markierungen eine Kodierung ihrer Identifikationsnummer und/oder eine Referenzposition bzw. Richtung enthalten.

10. Verfahren nach einem der vorgehenden Ansprüche, wobei die Markierungen dreidimensional im Raum der Szene angeordnet sind und ihre jeweiligen dreidimensionalen Positionen im Raum ermittelt werden.

11. Verfahren nach einem der vorgehenden Ansprüche, wobei mehrere aufgenommene Einzelbilder, die jeweils nur einen Teil der Szene und der darin angeordneten Markierungen enthalten, zu zusammengesetzten Bildern zusammengesetzt werden, um anhand der zusammengesetzten Bildern die Positionen der Markierungen im Raum zu ermitteln.

12. Verfahren nach einem der vorgehenden Ansprüche, wobei die Markierungen farblich so gestaltet sind, dass sie aus den weiteren Bildern mittels ihrer Farbkodierung entfernt werden können.

13. Verfahren nach einem der vorgehenden Ansprüche, mit dem weiteren Schritt eines Verwendens der bestimmten Kameraparameter zum Einfügen von virtuellem Inhalt in die weiteren Bilder.

14. Vorrichtung zum Durchführen des Verfahrens nach einem der vorherigen Ansprüche.

15. System zur Bestimmung von Kameraparametern, mit

mindestens einer Kamera zum Aufnehmen von Bildern einer Szene, mehrere in der Szene angeordnete Markierungen, und einer Auswerteeinheit, die mit der mindestens einen Kamera verbunden ist, um die aufgenommenen Bilder zu erhalten und die Positionen der Markierungen im Raum anhand der erhaltenen Bilder zu ermitteln, wobei weitere Bilder der Szene durch die mindestens eine Kamera aufgenommen und der Auswerteeinheit übergeben werden wobei die Auswerteeinheit ausgebildet ist zum

Zuordnen der Raumpositionen der Markierungen in den weiteren Bildern zu deren jeweiligen Bildpositionen; und

Bestimmen der Kamera parameter bei der Aufnahme der weiteren Bilder anhand der zugeordneten Raum-/Bildpositionen der Markierungen in den weiteren Bildern.

Description:
Marker basierter Kamera-Tracker

Das vorliegende Dokument betrifft einen Marker-basierten„through the

Kamera-Tracker, der Kameraparameter anhand von Aufnahmen von

Markierungen durch die Aufnahmelinse der Kamera ermittelt, und

entsprechende Verfahren zur Ermittlung von Kameraparametern.

Hintergrund

Virtuelle Studios (Studios mit grünem Hintergrund) benötigen zur Einblendung von Hintergründen bei Nutzung von bewegten Kameras eine Kalibrierung, damit der virtuelle Hintergrund immer optisch korrekt dargestellt wird, insbesondere in Bezug auf im Studio vorhandene reale Objekte, die von den Kameras

aufgenommen werden. Heutige Tracking-Systeme sind aufwendig bei der Vorbereitung und Kalibrierung, meist sehr teuer, die Anwender haben nicht die nötige Kenntnis zu einer Kalibrierung, zusätzliche Geräte sind erforderlich (umständlicher Aufbau). Trotz vieler Vorteile von virtuellen Studios Qede beliebige virtuelle Umgebung kann selbst in kleinsten Studios eingesetzt werden) führt das oft zur Ablehnung der Nutzung von virtuellen Studios.

Folglich besteht ein Bedarf an Kalibrier- und Trackingsystemen für virtuelle Studios, die eine vereinfachte Kalibrierung zur Bestimmung von

Aufnahmeparametern ohne zusätzliche Geräte während der Produktion durchführen können. Bei den Aufnahmeparametern kann es sich um

Eigenschaften der Aufnahmekameras (auch Produktionskameras genannt) handeln, wie deren Position und Ausrichtung im Raum oder deren Brennweite.

Zusammenfassung von Aspekten der Erfindung

Das vorgeschlagene Vorgehen basiert auf einer Vermessung von im Studio angebrachten Markierungen mittels einer Kamera und der Bestimmung der räumlichen Positionen der Markierungen. Diese Markierungen werden dann von einer Kamera bei der Aufnahme (Produktion) von Bild- oder Video-In halten erfasst und zur Bestimmung der Aufnahmeparameter verwendet. So können zum Beispiel die Raumposition der Kamera bei der Produktion und deren

Zoom parameter wie Brennweite laufend während der Produktion bestimmt werden, ohne dass während der Produktion zusätzliche Geräte (wie weitere

Kameras) zur Positionsbestimmung der Produktionskamera benötigt werden. Ein solches Vorgehen wird auch als„through the lens" (du rch die Linse der

Produktionskamera) bezeichnet. Mit diesen Aufnahmeparametern kann dann eine Kalibrierung des virtuellen Studios erfolgen, so dass virtuelle I nhalte richtig, auch in Bezug auf im Studio vorhandene reale Objekte, in eine aufgenommene Szene eingeblendet werden können.

Gemäß einem ersten Aspekt wird ein Verfahren zur Bestimmung von

Kamera Parametern anhand von mittels einer Kamera aufgenommenen

Bilddaten offenbart. Das Verfahren u mfasst ein Aufnehmen mehrerer Bilder einer Szene, wobei die Bilder mehrere in der Szene angeordnete Markierungen enthalten, und ein Ermitteln der Positionen der Markierungen im Raum. Auf diese Weise können alle Markierungen in der Szene vermessen werden. Bei der Szene kann es sich um ein Fernsehstudio oder ein anderes geeignetes Studio zur Produktion von Bild- oder Videoinhalten handeln. Die ermittelten Positionen der Markierungen können dann zur späteren Verwendung abgespeichert werden. Somit sind die vorbereitenden Maßnahmen abgeschlossen und die Produ ktion von Bild- oder Videoinhalten kan n beginnen.

Anschließend erfolgt in der Produktion ein Aufnehmen weiterer Bilder der Szene, wobei die weiteren Bilder zumindest einige der in der Szene angeordneten Markierungen enthalten, und ein Zuordnen der Raumpositionen der

Markierungen in den weiteren Bildern zu deren jeweiligen Bildpositionen . Bei den weiteren Bildern kann es sich um die produzierten Bild- oder Videoinhalte handeln. Für deren Verarbeitung, zum Beispiel in einem virtuellen Studio, können die Kameraparameter bei der Aufnahme der weiteren Bilder von Nutzen sein. Diese werden an hand der zugeordneten Raum-/Bildpositionen der Markierungen in den weiteren Bildern bestimmt. Die so bestimmten Kameraparameter können zumindest eines aus Kameraposition, Kameraorientieru ng und Kamerazoom enthalten. I n Ausfü hrungsbeispielen erfolgt das Ermitteln der Positionen der Markieru ngen im Rau m mittels eines„Structure from Motion"-Verfahrens. Das Verfahren kann einen weiteren Schritt eines Verwendens der bestimmten Kamera parameter zum Einfügen von virtuellem Inhalt in die weiteren Bilder aufweisen. So kan n der Hintergrund des virtuellen Studios abhängig von den Kameraparametern optisch korrekt gefüllt werden. Zumindest einige der Markierungen können so ausgestaltet sein, dass sie eine eindeutige Identifikation der jeweiligen Markierung ermöglichen. Zum Beispiel können die Markierungen eine visuelle Kodierung ihrer Identifikationsnummer und/oder eine Referenzposition bzw. -richtung enthalten. Dies erlaubt, dass zumindest einige der Markierungen in den weiteren Bildern eindeutig

identifiziert werden, um so auf ihre zuvor ermittelten Raumpositionen

zuzugreifen und den jeweiligen Bildpositionen zuzuordnen. Vorzugsweise sind die Markierungen dreidimensional im Raum der Szene angeordnet und ihre jeweiligen dreidimensionalen Positionen im Raum werden ermittelt.

Um eine große Anzahl von Markierungen in den Bildern sicher erkennen zu können, können die Markierungen eindeutig identifizierbare Master- Markierungen und Slave-Markierungen aufweisen, deren Kennung nur im räumlichen Bezug zu einer Master-Markierung eindeutig ist. Weiterhin können die Markierungen farblich so gestaltet sein, dass sie aus den weiteren Bildern mittels ihrer Farbkodierung leicht entfernt werden können. Dies ist besonders bei Verwendung einer Green-Box von Vorteil.

In Ausführungsbeispielen werden die Bilder der Szene mit einer kalibrierten Vermessungskamera aufgenommen. Diese kann zuvor einer intrinsischen Kalibrierung unterzogen werden, um deren Kameraparameter, wie

beispielsweise Brennweite, optisches Zentrum und Verzerrung, anhand der

Aufnahmen eines Kalibrierobjekts mit bekannten Abmessungen zu ermitteln. Die weiteren Bilder können mit einer Produktionskamera (z.B. eine Broadcast- Kamera) aufgenommen werden.

Um möglichst viele Markierungen in einem Bild aufzunehmen, können mehrere aufgenommene Einzelbilder, die jeweils nur einen Teil der Szene und der darin angeordneten Markierungen enthalten, mittels sog. Stitching zu

zusammengesetzten Bildern zusammengesetzt werden. Anhand der

zusammengesetzten Bilder können dann die Positionen der Markierungen im Raum ermittelt werden. Gemäß einem zweiten Aspekt wird eine Vorrichtung zum Durchführen des oben beschriebenen Verfahrens vorgeschlagen.

Weiterhin ist ein System zur Bestimmung von Kamera Parametern vorgesehen, das mindestens eine Kamera zum Aufnehmen von Bildern einer Szene, mehrere in der Szene angeordnete Markierungen, und einer Auswerteeinheit aufweist. Die Auswerteeinheit ist mit der mindestens einen Kamera verbunden, um die aufgenommenen Bilder zu erhalten und die Positionen der Markierungen im Raum anhand der erhaltenen Bilder zu ermitteln. Weitere Bilder der Szene werden anschließend durch die mindestens eine Kamera aufgenommen und der Auswerteeinheit übergeben. Die Auswerteeinheit ist weiter ausgebildet zum Zuordnen der Raumpositionen der Markierungen in den weiteren Bildern zu deren jeweiligen Bildpositionen; und Bestimmen der Kameraparameter bei der Aufnahme der weiteren Bilder anhand der zugeordneten Raum-/Bildpositionen der Markierungen in den weiteren Bildern. Grundsätzlich kann die

Auswerteeinheit die Schritte des oben beschriebenen Verfahrens ausführen und alle dort beschriebene Aspekte können auf das vorgeschlagene System übertragen werden. In Ausführungsbeispielen können 2 Kameras verwendet werden: eine intrinsisch kalibrierte Vermessungskamera zum Aufnehmen der Markierung für die Bestimmung deren Raumpositionen und eine

Produktionskamera zum Aufnehmen von Bild- oder Videoinhalten.

Kurze Beschreibung der Figuren

Im Folgenden wird die Erfindung anhand von Beispielen mit Bezug auf die beiliegenden Figuren beschrieben.

Figur 1 zeigt ein Beispiel für eine Markierung.

Figur 2 zeigt ein Kalibrierobjekt.

Figur 3 zeigt die geometrischen Verhältnisse einer projektiven Kamera.

Detaillierte Beschreibung

In einem Ausführungsbeispiel basiert das beschriebene System zur dynamischen Bestimmung von Aufnahmeparameter einer Produktionskamera auf einer Vermessung von im Studio angebrachten Markierungen mittels einer

Vermessungskamera und der Bestimmung der räumlichen Positionen der Markierungen mittels photogrammetrischer Verfahren. Hierzu werden zwei oder mehr Einzelbildaufnahmen des Studios mit den angebrachten Markierungen mittels einer photogram metrischen Vermessungskamera erstellt und

ausgewertet. Zur Bestimmung der 3D-Positionen der Markierungen kann das sog. „Structure from Motion"-Verfahren angewendet werden. Hierbei handelt es sich um eine Stereovermessung mit unbekannter extrinsischer

Kamerakalibrierung, wie im Folgenden ausführlich beschrieben wird. Das vorgeschlagene Vorgehen benötigt kein kalibriertes Stereo-Rig für die

Vermessung, sondern erlaubt es mit Freihand-Aufnahmen arbeiten zu können. Die Markierungen (Marker) sind so gestaltet, dass sie einerseits in einem aufgenommenen Bild leicht zu finden bzw. zu erkennen sind und andererseits eine genaue Bestimmung einer Position ermöglichen. Hierzu bietet sich eine runde Grundform an, zum Beispiel ein Kreis mit 2 ausgefüllten,

gegenüberliegenden Sektoren, die sich in dem Mittelpunkt der Markierung treffen. Im Allgemeinen definieren 3 Markierungen das Koordinatensystem.

Vorzugsweise sind die Markierungen mittels Kennzeichnungen visuell kodiert, so dass deren Identität durch Auswertung von aufgenommenem Bildern der Markierungen bestimmt werden kann. Beispielsweise können neben der runden Grundform der Marker zusätzliche Strukturen zur Kodierung vorgesehen sein. Diese zusätzlichen Strukturen können ausgefüllte Kreise (Blobs) sein, die an bestimmten Positionen kreisförmig um die möglicherweise ebenfalls runde Grundform angeordnet sind. Möglich ist zum Beispiel eine binäre Kodierung der Marker-ID mittels dieser zusätzlichen Strukturen. Mit anderen Worten

repräsentiert das Vorhandensein einer solchen zusätzlichen Struktur an einer bestimmten Position eine binäre Eins und das Fehlen eine binäre Null. Mittels 4 möglichen Strukturen an einem Marker können so 16 verschiedene

Kennzeichnungen (IDs) angebracht werden.

Die Marker können neben ihrer Grundform und den ID-Strukturen zur Kodierung der Marker-ID auch noch eine zusätzliche Referenzstruktur (Blob) aufweisen. Diese gibt die Nullrichtung für die Dekodierung und ID-Erkennung an. Zum anderen kann die zusätzliche Struktur kleiner als die ID-Strukturen zur Kodierung sein. Wird diese zusätzliche Struktur in einem Bild nicht erkannt, besteht die Gefahr, dass die Erkennung der ID-Strukturen unzuverlässig ist und die ID kann falsch erkannt werden. In diesem Fall sollte der Marker verworfen werden.

Es ist von Vorteil, wenn die visuelle Kodierung der Marker-IDs über weiten Zoombereich zu erkennen ist, so dass die Markierungen während der Produktion auch unter verschiedensten Aufnahmebedingungen eindeutig identifiziert werden können. Deshalb sollten auch möglichst viele Markierungen im Studio an verschiedenstem Orten und möglicherweise auch in verschiedenen Größen angebracht werden. So kann sichergestellt werden, dass unter den

verschiedenen Aufnahmebedingungen immer ausreichend viele Markierungen im Bild erfasst werden.

Um die Identifizierung der Markierungen auch dann zu erleichtern, wenn diese in einem erfassten Bild nur klein abgebildet sind und ihre Detailstrukturen schlecht zu erkennen sind, kann ein„Master-Slave"-Konzept eingesetzt werden. Hierbei werden eine einfach zu erkennende Master-Markierung (beispielsweise mit größeren Abmessungen) und mehrere Slave-Markierungen verwendet, die sich in bekannten räumlichen Anordnungen zur Master-Markierung befinden , beispielsweise kreisringförmig in bekannter Drehrichtung um die Master- Markierung. Nachdem die Master-Markierung anhand ihrer visuellen I D identifiziert wurde, können die Slave-Markierungen identifiziert werden, auch wenn deren visuelle IDs im aufgenommenen Bild zu klein abgebildet sind, u m sicher ausgewertet werden zu können.

Das„Master-Slave"-Konzept kann auch verwendet werden um bei einer großen Anzahl von Markern die notwendigen visuellen Kennzeichnungen der Marker zur eindeutigen Identifizierung zu vereinfachen, da zu viele eindeutige

Ken nzeichn ungen zu kleine Strukturen an den Markern erfordern können.

Solche kleinen Struktu ren sind nicht unter allen Aufnahmebedingungen

(beispielsweise weitem Zoom) klar zu erkennen und zu unterscheiden. In solchen Fällen können Slave-Markierungen, deren Kennung nur im räumlichen Bezug zu einem Master-Marker eindeutig ist, eingesetzt werden. Um auch bei ungünstigen Aufnahmebedingungen für die Vermessungskamera eine genügend große Anzahl von Markern in einem Bild zu erhalten, können auch Einzelbilder mittels sog. Stitching zusammengefügt werden. Auf diese Weise kann auch eine 3D-Vermessung für Szenen, die nicht mit einer einzelnen photogrammetrischen Ansicht erfasst werden können (z.B. aufgrund der Größe des Studios), durchgeführt werden. Durch Stitching von breiten Szenen, die nicht auf eine Vermessungsaufnahme passen, können erweiterte Bilder mit einer ausreichenden Anzahl von Markern erzeugt werden. Die Genauigkeit beim Zusammenfügen der Einzelbilder kann mittels überlappenden Markern, die in mehreren Bildern enthalten sind, verbessert werden . Eine Stabilisierung des Stitching kann auch mittels zusätzliche Abstandsmessungen zwischen Markern (bevorzugt Extremmarker an Außen positionen) oder ü ber Fish-Eye-Aufnahmen erfolgen.

Diese Markierungen mit bekannter 3D-Position werden dann von der

Produktionskamera bei der Aufnahme (Produktion) von Bild- oder Video-In halten erfasst und zur Bestimmung der Aufnahmeparameter verwendet. So können zum Beispiel die Rau mposition und -Orientierung der Produktionskamera und deren Zoom parameter wie Brennweite laufend während der Produktion bestimmt werden, ohne dass während der Produktion zusätzliche Geräte zur

Positionsbestimmung benötigt werden. M it diesen Aufnahmeparametern kann dann eine Kalibrierung des virtuellen Studios erfolgen, so dass virtuelle I nhalte richtig in eine aufgenommene Szene eingeblendet werden können. Dies ist besonders von Vorteil, wen n die Produ ktionskamera (oder die

Produktionskameras) während der Aufnahme bewegt und/oder verschwenkt wird, oder deren Zoom verändert wird. Bei einem Einsatz des vorgeschlagenen Kalibrier- bzw. Trackingsystems für virtuelle Studios zur Erzeugung von Bild- oder Videoinhalten, sog. Green-Box, sind die Markierungen vorzugsweise grün-in-grün ausgeführt, damit sie bei der Einblendung von virtuellen Inhalten zusammen mit dem grünen Hintergrundbild entfernt werden können. Die Marker können aus einem Bild über ihre

Farbkodierung entfernt werden.

Das vorgeschlagene Kalibrier- und Trackingsystem bzw. das entsprechende Verfahren ist jedoch nicht auf virtuelle Studios beschränkt und kann auch anderweitig eingesetzt werden, zum Beispiel überall da, wo Aufnahmeparameter einer Kamera dynamisch bestimmt werden sollen. Einsatzmöglichkeiten bieten sich beispielsweise bei der Aufnahme von Sportveranstaltungen oder bei Fahrzeugcrashtests. Das Verfahren für eine "Through-The-Lens"-Kalibrierung von Aufnahmen kann für Broadcast-Videokameras und allen anderen gängigen Kameras (für Virutal reality und Augmented-Reality-Produktionen) verwendet werden.

Besondere Vorteile des vorgestellten Vorgehens sind:

Sehr einfach in der Umsetzung (keine dedizierte Hardware erforderlich)

Marker können quasi beliebig auf grüne Wand aufgebracht werden

Position der Marker ist nahezu beliebig

- Keine großen Kenntnisse von Kalibrierverfahren

In allen virtuellen Studios einsetzbar

In einem Ausführungsbeispiel weist ein Kalibrier- bzw. Trackingsystem eine Produktions- Videokamera (z.B. eine Broadcast-Kamera), eine

Vermessungskamera (kann die Broadcast-Kamera sein, aber eine spezielle Kamera ist vorteilhaft in der Handhabung und für Genauigkeit), Marker, die eine eindeutig aus dem Bild erkennbare Kennzeichnung haben, und eine

Verarbeitungseinheit auf. Die Verarbeitungseinheit empfängt die von der Vermessungskamera aufgenommen Bilder mit den in der Szene angeordneten Marker, um deren 3D-Positionen zu bestimmen. Hierzu sind mindestens 2 Aufnahmen der Marker von unterschiedlichen

Kamerapositionen erforderlich, so dass auf allen Aufnahmen alle Marker zu sehen sind. Zur Unterstützung der Positionsbestimmung der Marker kann der reale Abstand zwischen wenigstens 2 Marker gemessen und dem Verfahren zur Verfügung gestellt werden. Anschließend führt die Verarbeitungseinheit eine Structure-From-Motion-Rekonstruktion der 3D-Positionen der Marker (entspricht Stereo mit unbekannten Kamerapositionen) unter Verwendung der 2 oder mehr Aufnahmen und des gemessenen Abstands durch. Weiterhin sind die Parameter einer intrinsischen Kalibrierung der Vermessungskamera erforderlich. Diese kann vor den Aufnahmen der Marker im Studio und unabhängig davon durchgeführt werden. Im Allgemeinen wird die Vermessungskamera einmal kalibriert und die intrinsischen Kalibrierungsparameter bestimmt und

abgespeichert. Diese sind nur Eigenschaften der Vermessungskamera, werden vor der Vermessung des Studios in die Verarbeitungseinheit eingegeben und können beliebig oft verwendet werden.

Zur intrinsischen Kalibrierung der Vermessungskamera wird ein Kalibrierobjekt mit bekannten Abmessungen verwendet. Von diesem werden ein oder mehrere Aufnahmen des Kalibrierobjekts mit der Vermessungskamera zur intrinsischen Kalibrierung der Vermessungskamera erstellt. Auf diese Weisen können

Kameraparameter, wie Brennweite, optisches Zentrum, eventuell Verzerrungen bestimmt werden, die später zur Stereovermessung mit unbekannter

extrinsischer Kamerakalibrierung mittels des sog. „Structure from Motion"- Verfahrens für die Bestimmung der 3D-Positionen der Marker herangezogen werden.

Figur 1 zeigt ein Beispiel für einen Marker mit einer kodierten Kennung. Die Grundform des Markers ist kreisrund mit zwei gegenüberliegenden ausgefüllten Sektoren, die sich in der Kreismitte treffen. Das Detektieren von runden

Strukturen in einem Bild ist besonders einfach. Durch die spezielle Gestaltung des Kreises kann der Mittelpunkt sehr präzise bestimmt werden. Um die

Grundform des Markers herum sind weitere visuelle Strukturen (Blops), hier ausgefüllte Kreise, angeordnet. Der obere mittige Kreis dient zur Erkennung der Ausrichtung des Markers und markiert dessen Nullposition bzw. -richtung. In dem gezeigten Beispiel wird so die Null-Grad Ausrichtung des Markers

gekennzeichnet. Die weiteren Kreise können zur Kodierung der ID des Markers verwendet werden, zum Beispiel mittels einer Binärkodierung. Hier sind 4 Kreise an vorgegebenen Positionen mit 45, 135, 225 und 315 Grad bezüglich der Null- Grad Richtung vorgesehen, so dass der binäre Wert 1111 kodiert wird. Durch vorsehen eines Kreises an einer Position wird der entsprechende binäre Wert auf Eins gesetzt. Selbstverständlich können auch mehr Kodierungspunkte verwendet werden, um eine größer Anzahl von Markern eindeutig zu kennzeichnen. Jedoch wird dann die Erkennungsgenauigkeit für die kodierten Marker-IDs reduziert. Um Fehlerkennungen bei einer größeren Anzahl von Markern zu reduzieren kann das oben beschriebene Master-Slave-Prinzip angewendet werden. Selbstverständlich sind auch andere Gestaltungen der Marker denkbar. In einer Anwendung für ein virtuelles Studio mit Green-Box können die Marker grün-in-grün gestaltet sein, damit sie leicht zusammen mit dem grünen Hintergrund aus den Bilden entfernt werden können.

Nachdem die 3D-Positionen der Marker im Studio bestimmt wurden, können diese während der Produktion von Bild-oder Videoinhalten zur Kalibrierung von Position , Orientierung und Zoom der Produktionskamera verwendet werden. Hierzu werden die Bild- oder Videodaten der Produktionskamera mit den aufgenommenen Markern und anderen Bildelementen einer

Bildverarbeitungseinheit zugeführt. Diese ermittelt die Markerpositionen in den Bildern, bestimmt deren Kennung und ordnet den Markern im Bild über ihre I Ds ihre jeweilige 3D-Position im Raum zu. Die Bildverarbeitungseinheit kann getrennt von der Verarbeitungseinheit sein, die zur Vermessung der SD- Positionen der Marker verwendet wird. Alternativ können beide

Verarbeitungseinheiten durch eine entsprechend eingerichtete

Rechnervorrichtung implementiert werden. Aufgrund der bekannten 3D-Position der Marker und ihrer jeweiligen

Bildpositionen kann die Aufnahmegeometrie und damit auch die

Aufnahmeparameter wie Position, Orientierung und Zoom der

Produktionskamera ermittelt werden. Die Marker kön nen anschließend aus den Bildern aufgrund ihrer Farbkodierung wieder entfernt werden. Durch die auf diese Weise (du rch die Linse der Produktionskamera) gewonnene Kenntnis der Aufnahmeparameter können unterschiedlichste Bildauswertu ngen und - Vermessungen des produzierten I nhalts ausgeführt werden , zum Beispiel bei der Auswertung von Aufnahmen eines Fahrzeugcrashtests. Da die

Aufnahmeparameter in Echtzeit während der Aufnahme der Bild- oder

Videodaten mittels der Produktionskamera ermittelt werden , sind diese für dynamische Aufnahmebedingungen, wie bewegte oder verschwenkte Kamera mit Zoom, von besonderer Bedeutung. Sie können in einem virtuellen Studio mit Green-Box verwendet werden, um virtuellen In halt mit richtiger Ausrichtung zur Aufnahmesituation optisch korrekt einzu blenden. Im Folgenden werden Details zur intrinsischen Kalibrierung und zur

Rekonstruktion der Markerpositionen beschrieben, wie sie in

Ausführungsbeispielen verwendet werden können. Es sei darauf hingewiesen, dass nicht alle Details zur Ausführu ng der Erfindung erforderlich sind und Ausführungsbeispiele auch ohne diese Details zur Ausführung der Erfindung geeignet sind.

Die intrinsische Kalibrierung ordnet jedem Pixel einer Kamera einen

Richtungsvektor zu, wobei das 3D-Koordinatensystem für den Richtungsvektor im Brennpunkt der Kamera verankert ist. Die intrinsische Kalibrierung ist eine Eigenschaft der Kamera unabhängig von ihrer Position oder Ausrichtung in der Welt. Die intrinsische Kalibrierung basiert auf wenigstens einer Aufnahme eines Objekts mit mehreren Kalibrierpunkten und exakt bekannten Abmessungen. Figur 2 zeigt ein CNC-gefertigtes Kalibrierobjekt mit dunklen Kalibrierpunkten (gefüllte Kreise), deren Positionen auf dem Objekt exakt bekannt sind.

Zur Detektion der Kalibrierpunkte werden die dunklen Bereiche der Punkte über ein adaptives Schwellwertverfahren erkannt und in einer Binärmaske

gespeichert. Adaptive Schwellwertverfahren arbeiten nicht mit einem festen Schwellwert, sondern finden Bereiche, die in ihrer lokalen Umgebung dunkler sind als die Umgebung. So können Beleuchtungsunterschiede über das Objekt ausgeglichen werden. Alle zusammenhängenden Bereiche in der entstehenden Binärmaske werden dann darauf untersucht, ob sie kreisförmig sind. Hierbei können auch Verzerrungen durch die Projektion der Kreise in Ellipsen

berücksichtigt werden. Alle Kreise werden dann nochmals gefiltert. Nur Kreise einer bestimmten Größe und nur Kreisgruppen, deren Abstände zwischen den Kreisen ein bestimmtes Verhältnis zu den Kreisdurchmessern haben werden akzeptiert. Auf diese Weise findet man genau die Kalibrierpunkte auf dem Kalibrierobjekt.

Die Kalibrierpunkte werden dann entsprechend ihrer Position auf dem Objekt nach Zeilen und Spalten durchnummeriert und es wird ihnen anhand der bekannten Objektabmessungen eine 3D Position zugeordnet. Das zugehörige Weltkoordinatensystem ist hier am Kalibrierobjekt verankert.

Für die intrinsische Kalibrierung wird das Modell einer projektiven Kamera verwendet. Bei einer projektiven Kamera wird ein Weltpunkt X auf den Bildpunkt (u,v) auf dem Bildsensorchip der Kamera abgebildet, der auf einem Strahl zwischen dem Weltpunkt und dem (virtuellen) Brennpunkt der Kamera liegt. Die intrinsischen Kameraparameter sind durch den Brennpunkt festgelegt. Dieser wird durch die Brennweite f (Abstand von der Bildebene) und das optische Zentrum cu, cv (Durchstoßpunkt der optischen Achse, die senkrecht auf der Bildebene steht) beschrieben. Figur 3 illustriert die geometrischen Verhältnisse einer projektiven Kamera.

Im Brennpunkt ist das 3D-Kamerakoordinatensystem verankert. Im

Kalibrierobjekt ist das Weltkoordinatensystem verankert. Zwischen beiden transformiert eine Drehmatrix R und ein Translationsvektor T, x = R*X + T, wobei x hier für einen Vektor (x,y,z) in Kamerakoordinaten steht, X für einen Vektor in Weltkoordinaten.

Aus Figur 3 entnimmt man die geometrische Beziehung Aus Figur 3 entnimmt man die geometrische Beziehung

die ausdrückt, dass (in Pixel-Einheiten statt Millimetern) der Vektor (u,v,f) für einen Bildpunkt (u,v) und die Brennweite f, um ein unbekanntes λ-faches verlängert, gleich dem in das Kamerasystem transformierten Weltpunkt ist. u,v bezeichnen hier und im Folgenden Pixelkoordinaten relativ zum optischen Zentrum, d.h. u = ub - cu, v = vb - cv, wobei ub, vb die üblichen Pixel- Bildkoordinaten sind.

Um sich des unbekannten Faktors λ zu entledigen wird das vektorielle

Kreuz rodukt beider Seiten genommen und wir erhalten:

Oder in den Koordinaten ausgeschrieben:

v*(r31*X + r32*Y + r33*Z +T3) - f*(r21*X + r22*Y + r23*Z +T2) = 0 (3) f*(rll*X + rl2*Y + Π3*Ζ +T1) - u*(r31*X + r32*Y + r33*Z +T3) = 0 (4) u*(r21*X + r22*Y + r23*Z +T2) - v*(rll*X + rl2*Y + rl3*Z +Tl) = 0 (5) wobei rll etc. die Komponenten der Matrix R, Tl,2,3 die Komponenten des Translationsvektors T, f die Brennweite und u,v ein Bildpunkt, und Χ,Υ,Ζ ein Weltpunkt zu einem der Kalibrierpunkte auf dem Kalibrierobjekt sind. Diese Formeln sind auch unter dem Namen„Direkte Lineare Transformation" bekannt. Für eine hinreichende Anzahl N Kalibrierpunkte erhält man N Gleichungen (5), aus denen rll, rl2, rl3, r21, r22, r23, T1,T2 ermittelt werden können. Aus den Orthogonalitätsbedingungen der Drehmatrix erhält man deren restliche

Elemente. Die Gleichungen (3) und (4), wieder für N Kalibrierpunkte, können dann zur Berechnung von T3 und f verwendet werden. In Folge können so die Parameter der Vermessungskamera, wie Brennweite, optisches Zentrum, eventuell Verzerrungen, bestimmt werden.

bestimmt werden.

Diese Kalibrierung ist durch lineare Gleichungen bestimmt und daher noch nicht optimal. Zur Erhöhung der Genauigkeit kann eine nichtlineare Optimierung wie beispielsweise ein Gauß-Newton-Verfahren verwendet werden. Beim Gauß- Newton-Verfahren wird iterativ eine Fehlerfunktion folgenden Typs minimiert (siehe z.B. Wikipedia):

Hierbei sind die xi,l..n die Parameter l...n der Kalibrierung (also f, cx, cy, R, T); i läuft über die Kalibrierpunkte. Die Funktion f in (6) sind die

Abbildungsgleichungen der projektiven Kamera von Weltpunkten auf

Bildkoordinaten und die yi entsprechen den gemessenen Bildpunkten (u,v, also 2 Terme pro Bildpunkt).

Bei dieser Optimierung können für eine höhere Genauigkeit optional auch 2 Verzerrungs parameter der Kamera zugelassen werden, die Bildkoordinaten auf verzerrte Bildkoordinaten abbilden:

u' = u (1 + Kir 2 + K2I- 4 )

v' = v (1 + K 2 r 2 + K 2 r 4 ) (7)

Nachdem man die Parameter der Vermessungskamera bestimmt hat, können die Markerpositionen mittels des„Structure from Motion"-Verfahrens ermittelt werden. In diesem Fall haben wir N Kalibrierpunkte mit jetzt unbekannten Weltkoordinaten. Diese sind nicht mehr auf einem Präzisions-Kalibrierobjekt angeordnet, sondern z.B. von Hand im Raum verteilt. In den Formeln (3) bis (5) ist dann u,v (für N Punkte) und f bekannt, der Rest unbekannt, also auch die N Weltpunkte (X,Y,Z)i.

Die Bestimmung der Weltpunkte für die Marker scheint auf den ersten Blick sehr schwierig. Die Geometrie von Kamerabbildungen enthält jedoch sehr starke Strukturen, die man auch hier nutzen kann. Es zeigt sich geometrisch, dass bei Aufnahmen einer Szene von zwei verschiedenen Positionen aus und mit projektiven Kameras, korrespondierende Bildpunkte (u,v)l und (uv)2 in der ersten und zweiten Aufnahme durch folgenden linearen Zusammenhang verknüpft sind:

wobei F, die sogenannte Fundamentalmatrix, eine 3x3 Matrix ist. Für eine ausreichende Zahl korrespondierender Bildpunkte können diese Gleichungssysteme jedoch gelöst werden. Mathematische Verfahren hierzu findet man unter dem Stichwort„Homography Estimation".

Gleichung (1) gibt für projektive Kameras an, wie Weltpunkte und Bildpunkte zusammenhängen. Wendet man dies konsequent von einem Bildpunkt in der Aufnahme 1 zum Weltpunkt und von dort in die Aufnahme 2 an, kann man zeigen, dass für die Matrix F, die diese Bildpunkte verknüpft, folgendes gilt:

Dabei sind R,T die gesuchten extrinsischen Kalibrierparameter aus (1) und K die bekannte Matrix der intrinsischen Kalibrierung (T ist die Transponierte):

Die rechte Seite in (9) ist somit durch Punktkorrespondenzen zwischen den 2 Aufnahmen ermittelbar. Es zeigt sich nun, dass es Verfahren gibt, mit denen die Faktorisierung von KTFK (auch als Essential-Matrix bezeichnet) in die R und T- Matrix auf der rechten Seite gelingt. Ein solches Verfahren wird z.B. in Richard Hartley, Andrew Zisserman, Multiple View Geometry in Computer Vision,

Cambridge University Press, Kapitel 8.6.2„Extraction of Cameras from the Essential Matrix" vorgestellt.

Sind damit die beiden Kamerapositionen bekannt, sind auch die 3D-Positionen der Weltpunkte (Marker) durch eine Stereorekonstruktion berechenbar. Aus (1) ergeben sich hierzu direkt zwei Sehstrahlen als Geraden im Raum, die man schneiden kann, um den gesuchten 3D-Punkt zu ermitteln.

Mit den nun bekannten Markerpositionen können für eine beliebige Aufnahme mit einer Produktionskamera die Position R,T und die Brennweite der Kamera für diese Aufnahme berechnet werden. Hierfür verwendet man wieder die Formeln (3) bis (5). Es handelt sich im Prinzip um dieselbe Aufgabe wie bei der

intrinsischen Kalibrierung. Nur waren R,T dort ein unwichtiges Nebenprodukt der Berechnung, während diese nun die gesuchten Größen sind (zusammen mit der Brennweite).

Virtuelle Umgebungen und Objekte werden in einem eigenen virtuellen

Koordinatensystem als 3D-Welt erzeugt. Um diese 3D-Welt auf ein 2D-Bild abzubilden, wird diese virtuelle Welt durch eine virtuelle Kamera mit einer Virtuelle Umgebungen und Objekte werden in einem eigenen virtuellen

Koordinatensystem als 3D-Welt erzeugt. Um diese 3D-Welt auf ein 2D-Bild abzubilden, wird diese virtuelle Welt durch eine virtuelle Kamera mit einer bestimmten Position, Ausrichtung und Öffnungswinkel (Zoom) aufgenommen, was als Rendern bezeichnet wird.

Damit die Ansicht der Objekte im gerenderten Bild zur Aufnahme der realen Kamera passt, müssen die beiden Koordinatensysteme verbunden werden. Die virtuellen Objekte erhalten dadurch eine Position und Orientierung in der realen Welt und die Position der virtuellen Kamera zum Rendern entspricht dann der Position der realen Kamera.

Hierzu benötigt man die Definition eines gemeinsamen Koordinatensystems, was über die Kennzeichnung ausgesuchter Marker als Ursprung, X-Achse und Y-Achse geschieht. Der Marker der Y-Achse gibt dabei nur die Ebene der Y-Achse an, die eigentliche Achse wird automatisch senkrecht zur X-Achse berechnet, so dass man nicht unbedingt auf eine genau orthogonale Anordnung der Marker angewiesen ist. Die Z-Achse ist dann durch den Ursprung und die Lage dieser Ebene vorgegeben.

Außerdem benötigt man die Position, Ausrichtung, Zoom der realen Kamera im realen Koordinatensystem und, über die Verknüpfung der Koordinatensysteme, damit auch im virtuellen Koordinatensystem. Diese Parameter werden durch den beschriebenen Schritt der extrinsischen Kalibrierung anhand der SD- vermessenen Marker bereitgestellt.

Die obigen Verfahren können mit einer geeignet eingerichteten

Rechnervorrichtung, insbesondere eine digitale Bildverarbeitungsvorrichtung, ausgeführt werden, wobei die Berechnung der jeweils gesuchten Parameter mittels Softwareprogrammierung erfolgt. Alternativ können hierzu auch spezielle Hardwareschaltungen oder eine Mischung aus beidem eingesetzt werden. An der Produktionskamera selbst sind gegenüber herkömmlichen Modellen keine Veränderungen erforderlich. Auch die Anforderungen an die Vermessungskamera sind nicht besonders hoch, so dass auch hier herkömmliche Modellen verwendet werden können.

Es ist zu beachten, dass die Beschreibung und die Figuren lediglich die Prinzipien der vorgeschlagenen Vorrichtung darlegen. Auf Basis der vorliegenden

Offenbarung ist es dem Fachmann möglich, diverse Varianten der beschriebenen Ausgestaltungen zu erstellen. Diese Varianten, obwohl nicht ausdrücklich beschrieben, werden ebenfalls von diesem Dokument offenbart und werden von den Ansprüchen umfasst.