Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
RESOLUTION IMPROVEMENT FOR IMAGES USING MACHINE LEARNING
Document Type and Number:
WIPO Patent Application WO/2024/099999
Kind Code:
A1
Abstract:
The invention relates to a method (100) for training a machine learning model (400), in particular a super-resolution model, to increase a resolution on the basis of images of a first category (410), said method comprising the following steps: determining (101) images of a second category (420), wherein the images of the second category (420) result from a recording by a recording means (2); producing (102) synthetic images of the first category (411) on the basis of the images of the second category (420) and on a style transfer (300); and training (103) the machine learning model (400) on the basis of the synthetic images of the first category (411), wherein producing the synthetic images of the first category on the basis of the images of the second category and on the style transfer is contained in the training of the machine learning model in an end-to-end approach.

Inventors:
AZIMI SEYEDMAJID (DE)
Application Number:
PCT/EP2023/080913
Publication Date:
May 16, 2024
Filing Date:
November 07, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TERNOW GMBH (DE)
International Classes:
G06T3/4046; G06N3/08; G06T3/4053
Foreign References:
CN111179172A2020-05-19
Other References:
DONG RUNMIN ET AL: "RRSGAN: Reference-Based Super-Resolution for Remote Sensing Image", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, IEEE, USA, vol. 60, 18 January 2021 (2021-01-18), pages 1 - 17, XP011891235, ISSN: 0196-2892, [retrieved on 20211202], DOI: 10.1109/TGRS.2020.3046045
WANG ZHIHAO ET AL: "Deep Learning for Image Super-Resolution: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 43, no. 10, 23 March 2020 (2020-03-23), pages 3365 - 3387, XP011875112, ISSN: 0162-8828, [retrieved on 20210901], DOI: 10.1109/TPAMI.2020.2982166
MAHMOUD AFIFI: "Semantic white balance: Semantic color constancy using convolutional neural network", ARXIV:1802.00153, 2018
MAHMOUD AFIFIMICHAEL S BROWN: "What else can fool deep learning? addressing color constancy errors on deep neural network performance", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2019, pages 243 - 252, XP033723651, DOI: 10.1109/ICCV.2019.00033
YOUSSEF ALAMI MEJJATICHRISTIAN RICHARDTJAMES TOMPKINDARREN COSKERKWANG IN KIMUNSUPERVISED ATTENTION-GUIDED IMAGE-TO-IMAGE TRANSLAT: "A unified feature disentangler for multi-domain image translation and manipulation", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2018, pages 31
IVAN ANOKHINPAVEL SOLOVEVDENIS KORZHENKOVALEXEY KHARLAMOVTARAS KHAKHULINALEKSEI SILVESTROVSERGEY NIKOLENKOVICTOR LEMPITSKYGLEB STE: "High-resolution daytime translation without domain labels", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020, pages 7488 - 7497
TIAN QI CHENMARK SCHMIDT: "Fast patch-based style transfer of arbitrary style", ARXIV:1612.04337, 2016
YING-CONG CHENXIAOGANG XUJIAYA JIA: "Domain adaptive image-to-image translation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020, pages 5274 - 5283
YUNJEY CHOIMINJE CHOIMUNYOUNG KIMJUNG-WOO HASUNGHUN KIMJAEGUL CHOO: "Stargan: Unified generative adversarial networks for multi-domain image-to-image translation", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2018, pages 8789 - 8797, XP033473803, DOI: 10.1109/CVPR.2018.00916
SIDONIE CHRISTOPHESAMUEL MERMETMORGAN LAURENTGUILLAUME TOUYA: "Neural map style transfer exploration with gans", INTERNATIONAL JOURNAL OF CARTOGRAPHY, vol. 8, no. 1, 2022, pages 18 - 36
TAESUNG PARKALEXEI A EFROSRICHARD ZHANGJUN-YAN ZHU: "European conference on computer vision", 2020, SPRINGER, article "Perceptual losses for real-time style transfer and super-resolution", pages: 319 - 345
ALEXEI A EFROSWILLIAM T FREEMAN: "Image quilting for texture synthesis and transfer", PROCEEDINGS OF THE 28TH ANNUAL CONFERENCE ON COMPUTER GRAPHICS AND INTERACTIVE TECHNIQUES, 2001, pages 341 - 346, XP055854155, DOI: 10.1145/383259.383296
ALEXEI A EFROSTHOMAS K LEUNG: "Proceedings of the seventh IEEE international conference on computer vision", vol. 2, 1999, IEEE, article "Texture synthesis by non-parametric sampling", pages: 1033 - 1038
MICHAEL ELADPEYMAN MILANFAR: "Style transfer via texture synthesis", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 26, no. 5, 2017, pages 2338 - 2351, XP011645344, DOI: 10.1109/TIP.2017.2678168
SWETAVA GANGULIPEDRO GARZONNOA GLASER: "Geogan: A conditional gan with reconstruction and style loss to generate standard layer of maps from satellite images", ARXIV:1902.05611, 2019
YUZHEN GAOYOUDONG DINGFEI WANGHUAN LIANG: "Attentional colorization networks with adaptive group-instance normalization", INFORMATION, vol. 11, no. 10, 2020, pages 479
LEON GATYSALEXANDER S ECKERMATTHIAS BETHGE: "Texture synthesis using convolutional neural networks", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, vol. 28, 2015
LEON A GATYSALEXANDER S ECKERMATTHIAS BETHGE: "Image style transfer using convolutional neural networks", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2016, pages 2414 - 2423, XP055571216, DOI: 10.1109/CVPR.2016.265
LAN GOODFELLOWJEAN POUGET-ABADIEMEHDI MIRZABING XUDAVID WARDE-FARLEYSHERJIL OZAIRAARON COURVILLEYOSHUA BENGIO: "Generative adversarial networks.", COMMUNICATIONS OF THE ACM, vol. 63, no. 11, 2020, pages 139 - 144
MINGMING HEDONGDONG CHENJING LIAOPEDRO V SANDERLU YUAN: "Deep exemplar-based colorization", ACM TRANSACTIONS ON GRAPHICS (TOG, vol. 37, no. 4, 2018, pages 1 - 16, XP055610222, DOI: 10.1145/3197517.3201365
XUN HUANGSERGE BELONGIE: "Arbitrary style transfer in real-time with adaptive instance normalization", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2017, pages 1501 - 1510
PHILLIP ISOLAJUN-YAN ZHUTINGHUI ZHOUALEXEI A EFROS: "image-to-image translation with conditional adversarial networks", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 1125 - 1134, XP055972425, DOI: 10.1109/CVPR.2017.632
SOMI JEONGYOUNGJUNG KIMEUNGBEAN LEEKWANGHOON SOHN: "Memory-guided unsupervised image-to-image translation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2021, pages 6558 - 6567
LIMING JIANGCHANGXU ZHANGMINGYANG HUANGCHUNXIAO LIUJIANPING SHICHEN CHANGE LOY: "European Conference on Computer Vision", 2020, SPRINGER, article "Tsit: A simple and versatile framework for image-to-image translation", pages: 206 - 222
YONGCHENG JINGXIAO LIUYUKANG DINGXINCHAO WANGERRUI DINGMINGLI SONGSHILEI WEN: "Dynamic instance normalization for arbitrary style transfer", PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, vol. 34, 2020, pages 4369 - 4376
YUHAO KANGSONG GAOROBERT E ROTH: "Transferring multiscale map styles using generative adversarial networks", INTERNATIONAL JOURNAL OF CARTOGRAPHY, vol. 5, no. 2-3, 2019, pages 115 - 141
NICHOLAS KOLKINJASON SALAVONGREGORY SHAKHNAROVICH: "Style transfer by relaxed optimal transport and self-similarity", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2019, pages 10051 - 10060
DMYTRO KOTOVENKOARTSIOM SANAKOYEUSABINE LANGBJORN OMMER: "Content and style disentanglement for artistic style transfer", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2019, pages 4422 - 4431
KUMARAPU LAXMANSHIV RAM DUBEYBADDAM KALYANSATYA RAJ VINEEL KOJJARAPU: "Efficient high-resolution image-to-image translation using multi-scale gradient u-net", ARXIV:2105.13067, 2021
CHRISTIAN LEDIGLUCAS THEISFERENC HUSZARJOSE CABALLEROANDREW CUNNINGHAMALEJANDRO ACOSTAANDREW AITKENALYKHAN TEJANIJOHANNES TOTZZEHA: "Photorealistic single image super-resolution using a generative adversarial network", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 4681 - 4690
HSIN-YING LEEHUNG-YU TSENGJIA-BIN HUANGMANEESH SINGHMING-HSUAN YANG: "Diverse image-to-image translation via disentangled representations", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2018, pages 35 - 51
JUNSOO LEEEUNGYEUP KIMYUNSUNG LEEDONGJUN KIMJAEHYUK CHANGJAEGUL CHOO: "Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020, pages 5801 - 5810
JUNCHENG LIZEHUA PEITIEYONG ZENG: "From beginner to master: A survey for deep learning-based single-image super-resolution", ARXIV:2109.14335, 2021
YIJUN LICHEN FANGJIMEI YANGZHAOWEN WANGXIN LUMING-HSUAN YANG: "Diversified texture synthesis with feed-forward networks", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 3920 - 3928
JIE LIANGHUI ZENGLEI ZHANG: "High-resolution photorealistic image translation in real-time: A laplacian pyramid translation network", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2021, pages 9392 - 9400
BEE LIMSANGHYUN SONHEEWON KIMSEUNGJUN NAHKYOUNG MU LEE: "Enhanced deep residual networks for single image super-resolution", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS, 2017, pages 136 - 144
ZINAN LINVYAS SEKARGIULIA FANTI: "Why spectral normalization stabilizes gans: Analysis and improvements", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, vol. 34, 2021, pages 9625 - 9638
YAHUI LIUMARCO DE NADAIJIAN YAONICU SEBEBRUNO LEPRIXAVIER ALAMEDA-PINEDA: "Gmm-unit: Unsupervised multi-domain and multi-modal image-to-image translation via attribute gaussian mixture modeling", ARXIV:2003.06788, 2020
XUAN LUOZHEN HANLINGKANG YANGLINGLING ZHANG: "Consistent style transfer", ARXIV:2201.02233, 2022
JAVIER MAR'INSERGIO ESCALERA: "Sssgan: Satellite style and structure generative adversarial networks", REMOTE SENSING, vol. 13, no. 19, 2021, pages 3984
TAKERU MIYATOTOSHIKI KATAOKAMASANORI KOYAMAYUICHI YOSHIDA: "Spectral normalization for generative adversarial networks", ARXIV:1802.05957, 2018
JONGCHAN PARKJOON-YOUNG LEEDONGGEUN YOOIN SO KWEON: "Distort-andrecover: Color enhancement using deep reinforcement learning", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2018, pages 5928 - 5936
TAESUNG PARKMING-YU LIUTING-CHUN WANGJUN-YAN ZHU: "Semantic image synthesis with spatially-adaptive normalization", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2019, pages 2337 - 2346
TING QIUBINGBING NIZIANG LIUXUANHONG CHEN: "International Conference on Multimedia Modeling", 2021, SPRINGER, article "Fast optimal transport artistic style transfer", pages: 37 - 49
EDGAR RIBADMYTRO MISHKINDANIEL PONSAETHAN RUBLEEGARY BRADSKI: "Kornia: an open source differentiable computer vision library for pytorch", PROCEEDINGS OF THE IEEE/CVF WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION, pages 3674 - 3683
DIVYA SAXENAJIANNONG CAO: "Generative adversarial networks (gans) challenges, solutions, and future directions", ACM COMPUTING SURVEYS (CSUR, vol. 54, no. 3, 2021, pages 1 - 42
FABIAN SCHENKELSTEFAN HINZWOLFGANG MIDDELMANN: "Style transfer-based domain adaptation for vegetation segmentation with optical imagery", APPLIED OPTICS, vol. 60, no. 22, 2021, pages F109 - F117
LU SHENGZIYI LINJING SHAOXIAOGANG WANG: "Avatar-net: Multi-scale zero-shot style transfer by feature decoration", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2018, pages 8242 - 8250
HAO TANGSONG BAINICU SEBE: "Dual attention gans for semantic image synthesis", PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 2020, pages 1994 - 2002, XP058730886, DOI: 10.1145/3394171.3416270
HAO TANGDAN XUNICU SEBEYANZHI WANGJASON J CORSOYAN YAN: "Multichannel attention selection gan with cascaded semantic guidance for cross-view image translation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2019, pages 2417 - 2426
CHUNWEI TIANLUNKE FEIWENXIAN ZHENGYONG XUWANGMENG ZUOCHIA-WEN LIN: "Deep learning on image denoising: An overview", NEURAL NETWORKS, vol. 131, 2020, pages 251 - 275, XP086281962, DOI: 10.1016/j.neunet.2020.07.025
DMITRY ULYANOVVADIM LEBEDEVANDREA VEDALDIVICTOR LEMPITSKY: "Texture networks: Feed-forward synthesis of textures and stylized images", ARXIV:1603.03417, 2016
DMITRY ULYANOVANDREA VEDALDIVICTOR LEMPITSKY: "Instance normalization: The missing ingredient for fast stylization", ARXIV:1607.08022, 2016
DMITRY ULYANOVANDREA VEDALDIVICTOR LEMPITSKY: "Improved texture networks: Maximizing quality and diversity in feedforward stylization and texture synthesis", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 6924 - 6932
CHAO WANGHAIYONG ZHENGZHIBIN YUZIQIANG ZHENGZHAORUI GUBING ZHENG: "Discriminative region proposal adversarial networks for high-quality image-to-image translation", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2018, pages 770 - 785
TING-CHUN WANGMING-YU LIUJUN-YAN ZHUANDREW TAOJAN KAUTZBRYAN CATANZARO: "High-resolution image synthesis and semantic manipulation with conditional gans", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2018, pages 8798 - 8807, XP033473804, DOI: 10.1109/CVPR.2018.00917
XINTAO WANGLIANGBIN XIECHAO DONGYING SHAN: "Real-esrgan: Training realworld blind super-resolution with pure synthetic data", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2021, pages 1905 - 1914
XINTAO WANGKE YUSHIXIANG WUJINJIN GUYIHAO LIUCHAO DONGYU QIAOCHEN CHANGE LOY: "Esrgan: Enhanced super-resolution generative adversarial networks", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV) WORKSHOPS, 2018, pages 0 - 0
CHUNXUE XUBO ZHAO: "10th International conference on geographic information science (GIScience 2018", 2018, SCHLOSS DAGSTUHL-LEIBNIZ-ZENTRUM FUER INFORMATIK, article "Satellite image spoofing: Creating remote sensing dataset with generative adversarial networks (short paper"
XU YINYAN LIBYEONG-SEOK SHIN: "Dagan: A domain-aware method for image-to-image translations", COMPLEXITY, 2020, pages 2020
XIAOMING YUYUANQI CHENSHAN LIUTHOMAS LIGE LI: "Multi-mapping image-to-image translation via learning disentanglement", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, vol. 32, 2019
HAN ZHANGLAN GOODFELLOWDIMITRIS METAXASAUGUSTUS ODENA: "Self-attention generative adversarial networks", INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 2019, pages 7354 - 7363
KAIHAO ZHANGWENQI RENWENHAN LUOWEI-SHENG LAIBJORN STENGERMING-HSUAN YANGHONGDONG LI: "Deep image deblurring: A survey", ARXIV:2201.10700, 2022
PAN ZHANGBO ZHANGDONG CHENLU YUANFANG WEN: "Cross-domain correspondence learning for exemplar-based image translation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020, pages 5143 - 5153
YULUN ZHANGKUNPENG LIKAI LILICHEN WANGBINENG ZHONGYUN FU: "Image super-resolution using very deep residual channel attention networks", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2018, pages 286 - 301
YULUN ZHANGYAPENG TIANYU KONGBINENG ZHONGYUN FU: "Residual dense network for image super-resolution", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2018, pages 2472 - 2481, XP033476213, DOI: 10.1109/CVPR.2018.00262
YUZHI ZHAOLAI-MAN POKWOK-WAI CHEUNGWING-YIN YUYASAR ABBAS UR REHMAN: "Scgan: saliency map-guided colorization with generative adversarial network", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 31, no. 8, 2020, pages 3062 - 3077, XP011870143, DOI: 10.1109/TCSVT.2020.3037688
XINGRAN ZHOUBO ZHANGTING ZHANGPAN ZHANGJIANMIN BAODONG CHENZHONGFEI ZHANGFANG WEN: "Cocosnet v2: Full-resolution correspondence learning for image translation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2021, pages 11465 - 11475
JUN-YAN ZHUTAESUNG PARKPHILLIP ISOLAALEXEI A EFROS: "Unpaired image-to-image translation using cycle-consistent adversarial networks", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2017, pages 2223 - 2232
JUN-YAN ZHURICHARD ZHANGDEEPAK PATHAKTREVOR DARRELLALEXEI A EFROSOLIVER WANGELI SHECHTMAN: "Toward multimodal image-to-image translation", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2017, pages 30
Download PDF:
Claims:
PATENTANSPRÜCHE

1 . Ein Verfahren (100) zum Trainieren eines Maschinenlern-Modells (400), insbesondere Super-Resolution Modells, zur Erhöhung einer Auflösung basierend auf Bildern einer ersten Kategorie (410), umfassend die nachfolgenden Schritte:

Ermitteln (101) von Bildern einer zweiten Kategorie (420), wobei die Bilder der zweiten Kategorie (420) aus einer Aufzeichnung durch ein Aufzeichnungsmittel (2) resultieren;

Produzieren (102) von künstlichen Bildern der ersten Kategorie (411 ) basierend auf den Bildern der zweiten Kategorie (420) und einem Stiltransfer (300); und

Trainieren (103) des Maschinenlern-Modells (400) basierend auf den künstlichen Bildern der ersten Kategorie (411); wobei das Produzieren der künstlichen Bilder der ersten Kategorie basierend auf den Bildern der zweiten Kategorie und dem Stiltransfer im Trainieren des Maschinenlern-Modells in einem End-2-End Ansatz enthalten sind.

2. Das Verfahren (100) nach Anspruch 1 , dadurch gekennzeichnet, dass der nachfolgende Schritt vorgesehen ist:

Ermitteln von realen Bildern der ersten Kategorie (412), wobei die realen Bilder der ersten Kategorie (412) aus einer Aufzeichnung durch ein Aufzeichnungsmittel(3) resultieren; wobei durch den Stiltransfer (300) ein Stil der realen Bilder der ersten Kategorie (412) auf die Bilder der zweiten Kategorie(420) übertragen wird, um die künstlichen Bilder der ersten Kategorie (411) zu produzieren; wobei vorzugsweise die künstlichen Bilder der ersten Kategorie (411 ) mit einem Inhalt, insbesondere mit abgebildeten Objekten (450), der Bilder der zweiten Kategorie (420) und dem Stil der realen Bilder der ersten Kategorie (412) produziert werden.

3. Das Verfahren (100) nach Anspruch 2, dadurch gekennzeichnet, dass der Stil wenigstens einen der folgenden Parameter umfasst: wenigstens eine radiometrische Eigenschaft, einen Kamerawinkel, welcher zur Aufzeichnung verwendet wurde, einen Ort, von welchem aus die Aufzeichnung durchgeführt wurde, eine Beleuchtung, vorzugsweise basierend auf einem Sonnenstand, eine Helligkeit, einen Schattenwurf.

4. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch den Stiltransfer (300) wenigstens eine radiometrische Eigenschaft der realen Bilder der ersten Kategorie (412) auf die Bilder der zweiten Kategorie (420) übertragen wird, um die künstlichen Bilder der ersten Kategorie (411) zu produzieren; und/oder dass die Bilder der zweiten Kategorie (420) zur Umwandlung in die künstlichen Bilder der ersten Kategorie (411) degradiert werden, bevorzugt durch eine Herabsetzung der Auflösung; und/oder dass die Bilder der zweiten Kategorie (420) und die daraus produzierten, künstlichen Bilder der ersten Kategorie (411) als Trainingsdaten und vorzugsweise als gepaarte Datensätze (501) für das Maschinenlern-Modell (400) verwendet werden, wobei bevorzugt die Bilder der zweiten Kategorie (420) als Ground-Truth verwendet werden.

5. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Stiltransfer (300) eine Anwendung eines Stiltransfer-Modells (500) umfasst, vorzugsweise eines künstlichen neuronalen Netzes, wobei ein Training des Stiltransfer-Modells (500) die nachfolgenden Schritte umfasst:

Ermitteln von realen Bildern der ersten Kategorie (412), wobei die realen Bilder der ersten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel (3) resultieren und eine niedrigere Auflösung als die Bilder der zweiten Kategorie (420) aufweisen; und

Trainieren des Stiltransfer-Modells (500) basierend auf den realen Bildern der ersten Kategorie (412) und den Bildern der zweiten Kategorie (420).

6. Das Verfahren (100) nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass die realen Bilder der ersten Kategorie (412) zu einer anderen Zeit und/oder mit einem anderen Kamerawinkel und/oder von einem anderen Ort aufgezeichnet wurden als die Bilder der zweiten Kategorie.

7. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der nachfolgende Schritt zur Erzeugung von gepaarten Datensätzen (501) für das Maschinenlern-Modell (400) vorgesehen ist:

Anwenden des trainierten Stiltransfer-Modells (500) mit den Bildern der zweiten Kategorie (420) als Eingabe, um basierend auf den Bildern der zweiten Kategorie (420) die künstlichen Bilder der ersten Kategorie (411) mit einem Inhalt der Bilder der zweiten Kategorie (420) in geringerer Auflösung und im Stil eines Bildes der ersten Kategorie (410) zu simulieren.

8. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Maschinenlern-Modell (400) trainiert wird, um die Auflösung aus realen Bildern der ersten Kategorie (412) zu verbessern, vorzugsweise zumindest um einen Faktor 1 ,5 oder zumindest um einen Faktor 1 ,8 oder zumindest um einen Faktor 2 zu verbessern.

9. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Maschinenlern-Modell (400) als ein Super Resolution Algorithmus ausgeführt ist, und trainiert wird, um aus den realen Bildern der ersten Kategorie (412) neue Bilder mit dem Inhalt der realen Bilder der ersten Kategorie (412) in verbesserter Auflösung und vorzugsweise im Stil eines Bildes der zweiten Kategorie (420) zu generieren.

10. Das Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für das Trainieren des Maschinenlern-Modells (400) eine Ground- Truth, vorzugsweise ausschließlich, basierend auf dem Stiltransfer (300) generiert wird; und/oder dass das Maschinenlern-Modell (400) wenigstens ein neuronales Netz umfasst.

11. Ein Verfahren (200) zur Erhöhung einer Auflösung basierend auf Bildern einer ersten Kategorie (410), umfassend die nachfolgenden Schritte:

Ermitteln (201) von realen Bildern der ersten Kategorie (412), wobei die realen Bilder der ersten Kategorie (412) aus einer Aufzeichnung durch ein Aufzeichnungsmittel (3) resultieren;

Erhöhen (202) einer Auflösung der Bilder der ersten Kategorie (410) durch eine Anwendung eines Maschinenlern-Modells (400), wobei das Maschinenlern-Modell (400) gemäß dem Verfahren nach einem der vorhergehenden Ansprüche trainiert ist.

12. Ein Verfahren (300) für einen Stiltransfer, umfassend die nachfolgenden Schritte: Bereitstellen (301 ) eines Stiltransfer-Modells (500), wobei das Stiltransfer-Modell

(500) auf Basis von Bildern einer ersten Kategorie (410) für den Stiltransfer eines Stils von Bildern der ersten Kategorie (410) trainiert wurde;

Bereitstellen (302) von Bildern einer zweiten Kategorie (420), wobei die Bilder der zweiten Kategorie (420) aus einer Aufzeichnung durch ein Aufzeichnungsmittel (2) resultieren; und

Anwenden (303) des Stiltransfer-Modells (500) mit den bereitgestellten Bildern der zweiten Kategorie (420) als Eingabe, um daraus künstliche Bilder der ersten Kategorie (411) mit in den Bildern der zweiten Kategorie (420) dargestellten Objekten (450) in einem Stil der Bilder der ersten Kategorie (410) auszugeben.

13. Ein trainiertes Maschinenlern-Modell (400), welches gemäß dem Verfahren (100) nach einem der Ansprüche 1 bis 10 trainiert ist.

14. Eine Vorrichtung (1) zur Datenverarbeitung, umfassend Mittel zur Ausführung der Schritte eines Verfahrens (100, 200, 300) nach einem der Ansprüche 1 bis 12.

15. Ein Computerprogramm (5) umfassend Befehle, die bei der Ausführung des Programms durch einen Computer (1) diesen veranlassen, die Schritte eines Verfahrens (100, 200, 300) nach einem der Ansprüche 1 bis 12 auszuführen.

Description:
AUFLÖSUNGSVERBESSERUNG VON BILDERN UNTER VERWENDUNG VON MASCHINELLEM LERNEN

TECHNISCHES GEBIET

Die vorliegende Erfindung betrifft allgemein das Gebiet von Bildverbesserungstechniken.

HINTERGRUND

Die meisten Bildverbesserungstechniken, wie z. B. Bild-Superauflösung, Dehazing, Denoising usw., erfordern große Mengen an gepaarten Datensätzen, d. h. Ground-Truth (GT)-Bilder und die entsprechenden degradierten Bilder, um die Algorithmen zu trainieren. Um einen solchen Datensatz zu erstellen, werden die GT-Bilder manuell mit expliziten und impliziten Degradationsmodellierungstechniken degradiert. Bspw. wird hierzu eine Auflösung der GT-Bilder künstlich verringert. Dieses Vorgehen funktioniert gut, wenn die Algorithmen für Bodenbilder trainiert werden. Allerdings ist bei Satellitenbildern, die eine große Menge an Details und viele Hochfrequenzinformationen enthalten, eine Verbesserung der Bilder auf diese Weise nur eingeschränkt möglich.

In den letzten Jahren sind die Analyse und das Verständnis optischer Satellitenbilddaten zu einer entscheidenden Aufgabe für eine Reihe von Anwendungen geworden, z. B.

Fernerkundung, autonomes Fahren, Stadtverwaltung, usw. Da diese Bilder aus großer Höhe aufgenommen werden, gibt es mehrere physikalische und technische Aspekte, die die Qualität der Bilder beeinträchtigen können, wie z. B. Bewölkung, atmosphärische Verzerrungen, Sensorrauschen und ungleichmäßige Beleuchtung. Herkömmliche Bildverbesserungstechniken können bereits dabei helfen, die visuelle Qualität der Bilder zu verbessern und gleichzeitig die Details zu bewahren. Hierzu können diese Techniken verschiedene Transformationen, Farbkorrekturen, Rauschunterdrückung und die Erhöhung der räumlichen Auflösung anwenden.

Auch wenn die traditionellen Algorithmen in der Vergangenheit gut funktionierten, haben sich Deep-Learning-Modelle aufgrund ihrer komplexen Natur und ihrer Lernfähigkeit als geeigneter erwiesen. Die meisten auf Deep Learning basierenden Verbesserungstechniken sind zwar auf Bodenbilder zugeschnitten, doch könnten diese Modelle auch auf andere Bereiche ausgeweitet werden. Da die meisten dieser Algorithmen mittels Überwachten Lernen trainiert werden, ist ein anderer Ansatz erforderlich, um das Satellitenbild in seiner ursprünglichen Auflösung zu verbessern, ohne dass GT-Daten benötigt werden.

Mit den Fortschritten bei den Generativen Adversen Netzen (GANs oder engl. Generative adversarial networks) - s. [17], wobei die angegebenen Referenzen am Ende der Beschreibung aufgelistet sind - ist die Bild-zu-Bild-Übersetzung (I2I) [20] für Anwendungen wie Bildwiederherstellung, Übertragung beliebiger Stile und semantische Bildsynthese sehr beliebt geworden. Algorithmen zur Bildwiederherstellung helfen bei der Wiederherstellung alter und beschädigter Fotos. Ein Beispiel dafür ist die Bildeinfärbung, bei der einfarbige Bilder durch Erraten der Pixelfarben auf der Grundlage ihrer Helligkeit eingefärbt werden [14, 18, 31 , 69]. Für viele Anwendungen in der realen Welt ist der gepaarte Datensatz oft nicht verfügbar und recht teuer in der Herstellung. In solchen Fällen wird die unüberwachte I2I verwendet, bei der der Algorithmus auf einer großen Menge ungepaarter Daten trainiert wird. Um das gewünschte Ergebnis zu erhalten, sind oft zusätzliche Einschränkungen für das generierte Bild erforderlich. Cycle-GAN [71] ist ein ungepaarter Bild-zu-Bild- Übersetzungsalgorithmus, der eine zyklische Einschränkung (zyklischer Verlust) verwendet, bei der ein generiertes Ausgangsbild zurück in seinen ursprünglichen Bereich übertragen und mit dem Originalbild verglichen wird. Diese Einschränkung könnte indessen ineffizient sein, wenn es eine große Varianz zwischen den Domänen des Datensatzes gibt.

In vielen Veröffentlichungen wie [3, 22, 31 , 34, 61] usw. wurde die Übersetzung über die Einschränkung der Zykluskonsistenz hinaus durch die Verwendung von Merkmalstransformationen oder einen separaten Encoder zur Einbettung von Stilinformationen in das Inhaltsbild vorgenommen. Arbiträre Stilübertragungsalgorithmen werden verwendet, um Bilder zu erzeugen, die den Inhalt (also insbesondere die dargestellten Objekte) des Quellbildes und den Stil des Zielbildes aufweisen. Viele bekannte Algorithmen wie [20, 44, 51 , 56, 57, 65, 70, 72] verwenden diese Methode, um realistische künstlerische Szenen zu erzeugen. Die semantische Bildsynthese wandelt die Segmentierungskarten in Bilder der realen Welt um [22, 28, 44, 50, 57],

Viele Veröffentlichungen diskutieren die verschiedenen realen Anwendungen von I2I, konzentrieren sich aber meist auf die Verbesserung der Gesamtleistung von I2I. Es gibt nur wenige Veröffentlichungen, die sich mit der Frage beschäftigen, wie I2I andere Computer Vision Aufgaben unterstützen kann. Dieser Weg wird durch die Verwendung von I2I zur Generierung von Daten erforscht, die, wenn sie zum Trainieren anderer Low-Level- Computer-Vision-Aufgaben verwendet werden, deren Leistung steigern können, um qualitativ bessere Bilder zu generieren. Es ist daher ein Nachteil des Stands der Technik, dass die Verbesserung von Satellitenbildern durch Algorithmen des Maschinellen Lernens durch die begrenzte Verfügbarkeit von Ground-Truth Daten limitiert ist. Ein manuelles Verschlechtern der Auflösung zur Erstellung gepaarter Datensätze für ein Training verursacht ferner häufig Artefakte in den Bildern, was die Genauigkeit des trainierten Algorithmus herabsetzen kann. Ferner ist es ein Nachteil, dass der Einsatz von I2I bislang nur begrenzt auf Einsatzgebiete für andere Computer Vision Aufgaben erweitert wurde.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist daher eine Aufgabe der vorliegenden Erfindung, die voranstehenden Nachteile des Standes der Technik zumindest teilweise zu reduzieren.

Die voranstehende Aufgabe wird gelöst durch ein Verfahren zum Training sowie ein Verfahren zur Erhöhung einer Auflösung und ein Verfahren für einen Stiltransfer, ein trainiertes Maschinenlern-Modell, ein Computerprogramm sowie eine Vorrichtung zur Datenverarbeitung gemäß den unabhängigen Patentansprüchen. Weitere Merkmale und Details der Erfindung ergeben sich aus den jeweiligen Unteransprüchen, der Beschreibung und den Zeichnungen.

Gegenstand der Erfindung ist insbesondere ein Verfahren zum Trainieren eines Maschinenlern-Modells, insbesondere Super-Resolution Modells, zur Erhöhung einer Auflösung basierend auf Bildern einer ersten Kategorie. Dabei können die die nachfolgenden Schritte vorgesehen sein, welche vorzugsweise nacheinander oder in beliebiger Reihenfolge, ggf. auch wiederholt und/oder zumindest teilweise zeitlich parallel, ausgeführt werden. Gemäß einem ersten Verfahrensschritt kann ein Ermitteln von Bildern einer zweiten Kategorie durchgeführt werden, wobei die Bilder der zweiten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittelresultieren. Gemäß einem weiteren Verfahrensschritt kann ein Produzieren von künstlichen Bildern der ersten Kategorie basierend auf den Bildern der zweiten Kategorie und einem Stiltransfer durchgeführt werden. Gemäß einem weiteren Verfahrensschritt kann ein Trainieren des Maschinenlern-Modells basierend auf den künstlichen Bildern der ersten Kategorie erfolgen, wobei das Produzieren der künstlichen Bilder der ersten Kategorie basierend auf den Bildern der zweiten Kategorie und dem Stiltransfer im Trainieren des Maschinenlern-Modells in einem End-2-End Ansatz enthalten sein kann. Durch das trainierte Maschinenlern-Modell kann schließlich ein Bildverbesserungsalgorithmus bereitgestellt werden. Damit kann eine Pipeline bereitgestellt werden, mit der es möglich ist, Bilder der ersten Kategorie in ihrer ursprünglichen Auflösung zu verbessern, ohne dass eine höhere Auflösung der GT-Bilder der ersten Kategorie erforderlich ist. Dabei kann es ein Vorteil des erfindungsgemäßen Verfahrens sein, dass das auf dem Training mittels Stiltransfer, auch Style-Transfer-Learning bezeichnet, basierende Maschinenlern-Modell die Qualität von Bildern der ersten Kategorie verbessern kann, obwohl für das Training keine Labels (Annotationen) oder eine Ground-Truth verfügbar ist. Stattdessen können während des Trainings Bilder der zweiten Kategorie und Bilder der ersten Kategorie verwendet werden, die nicht vom gleichen Ort oder zur gleichen Zeit aufgenommen wurden. Das trainierte Maschinenlern-Modell, insbesondere in der Form eines Super Resolution Algorithmus, bekommt dabei vorzugsweise nur ein Bild der ersten Kategorie mit geringer Auflösung als Eingabe. Bspw. kann auf diese Weise aus der Eingabe eines (z. B. 30 cm) Bildes der ersten Kategorie ein (z. B. 15 cm) Bild der ersten Kategorie mit höherer Auflösung als Ausgabe erhalten werden, wobei das ausgegebene (15 cm) Bild der ersten Kategorie wie ein Bild der zweiten Kategorie aussehen kann. Das Maschinenlern-Modell kann somit dafür trainiert sein, sowohl einen Stiltransfer als auch eine Erhöhung der Auflösung, insbesondere Super Resolution, am eingegebenen Bild der ersten Kategorie durchzuführen. Das Ergebnis kann zusätzlich eine Verringerung von Artefakten (z.B. Atmosphären- und/oder Pansharpening Artefakten) im ausgegebenen Bild der ersten Kategorie umfassen. Gleichzeitig kann aber eine geometrische Lage aller Objekte in dem ausgegebenen Bild der ersten Kategorie an der gleichen Stelle bleiben wie im eingegebenen (Original-) Bild der ersten Kategorie.

Die erste Kategorie und die zweite Kategorie von Bildern, wie sie hierin beschrieben werden, können gleich sein (d.h. die Bilder der ersten Kategorie und die Bilder der zweiten Kategorie sind Bilder der gleichen Kategorie) oder unterschiedlich sein (d.h. Bilder der ersten Kategorie sind aus einer anderen Kategorie als die Bilder der zweiten Kategorie). Bei Bildern der ersten Kategorie, wie sie hierin beschrieben werden, kann es sich beispielsweise um Satellitenbilder, Luftbilder, thermische Bilder, Radarbilder oder Lidarbilder handeln. Bei Bildern der zweiten Kategorie, wie sie hierin beschrieben werden, kann es sich beispielsweise um Satellitenbilder, Luftbilder, thermische Bilder, Radarbilder oder Lidarbilder handeln. Je nach Kategorie kann es sich bei einem Aufzeichnungsmittel zum Aufzeichnen entsprechender Bilder beispielsweise um eine Kamera zum Aufzeichnen von Luftbildern oder thermischen Bildern, um einen Satelliten zum Aufzeichnen von Satellitenbildern, um einen Radarsensor zum Aufzeichnen von Radarbildern oder um einen Lidarsensor zum Aufzeichnen von Lidarbildern handeln. Mit dem vorgeschlagenen Verfahren kann sozusagen die Lücke zwischen Bildern der zweiten Kategorie - und Bildern der ersten Kategorie geschlossen werden. Die Erhöhung der Auflösung kann dabei mit einer Veränderung des Stils im ausgegebenen Bild der ersten Kategorie einhergehen. In anderen Worten kann das Ergebnis, d. h. das durch das trainierte Maschinenlern-Modell ausgegebene Bild der ersten Kategorie, nicht mehr wie ein Bild der ersten Kategorie aussehen, sondern wie ein echtes Bild der zweiten Kategorie, mit weniger Rauschen und Artefakten, wie z. B. durch den Einfluss der Atmosphäre bei echten Satellitenbildern. Dennoch kann es den Inhalt des eingegebenen Bildes der ersten Kategorie enthalten und in einer höheren Auflösung abbilden. Auf diese Weise können auch kleine Objekte wie Fahrbahnmarkierungen und allgemein alle hochfrequenten Objekte derart im ausgegebenen Bild der ersten Kategorie abgebildet werden, wie es in einem Bild der zweiten Kategorie aussehen würde. Das ausgegebene Bild der ersten Kategorie kann daher auch als künstliches Bild der zweiten Kategorie bezeichnet werden. Das Ergebnis kann ferner weniger Dunst und Schatten aufweisen und auch dunkle Bereiche können aufgehellt und gleichzeitig kontrastreicher dargestellt werden. Ferner können als die ein- und ausgegebenen Bilder der ersten Kategorie ggf. 16 Bit (pro Kanal) Bilder verwendet werden. Im Gegensatz zu herkömmlichen Algorithmen kann die Auflösung ggf. auch mehrfach verbessert werden, z. B. 2-fach oder 4-fach oder 8-fach.

Es ist möglich, dass für das Training der Stiltransfer zum Einsatz kommt, damit das Problem der nicht verfügbaren Ground-Truth umgangen werden kann. Vorzugsweise unter Verwendung des Stiltransfers, also einer Bild-zu-Bild-Übersetzungstechnik oder kurz I2I, kann dabei eine neuartige Pipeline zur Erstellung synthetischer Datensätze für Bilder der ersten Kategorie bereitgestellt werden. Die synthetischen Datensätze können genutzt werden, um damit verschiedene Bildverbesserungsalgorithmen wie das Maschinenlern- Modell zu trainieren. Es hat sich hierbei gezeigt, dass aus einer Anwendung dieser trainierten Bildverbesserungsalgorithmen verbesserte Bilder mit einer besseren Auflösung, korrekt aufgelösten Hochfrequenzinformationen und weniger Bildartefakten wie Rauschen oder Dunst resultieren können.

Ebenfalls ist es denkbar, dass gemäß der Erfindung der Stiltransfer zusammen mit dem Bildverbesserungsalgorithmus, insbesondere einem Super Resolution Algorithmus, in einem „End-2-End“ Ansatz bereitgestellt werden. Auf diese Weise kann eine Kombination der beiden Algorithmen erfolgen, die es ermöglicht, dass beim Training die Eingabe und Ausgabe des kombinierten Algorithmus die gleichen ermittelten Bilder der zweiten Kategorie umfassen. Dies ermöglicht eine enorm einfache und effiziente Durchführung des Trainings. Durch den Stiltransfer als Zwischenschritt können dabei die synthetischen Bilder der ersten Kategorie generiert werden, um diese dann für das Training des Bildverbesserungsalgorithmus zu verwenden. In anderen Worten kann der Schritt des Produzierens der künstlichen Bilder der ersten Kategorie basierend auf den Bildern der zweiten Kategorie und dem Stiltransfer im Training in einem End-2-End Ansatz enthalten sein. Alternativ kann der Schritt auch vor dem Training separat ausgeführt werden.

Ferner kann bei der Erfindung ein ermitteltes Bild der zweiten Kategorie mit guter Auflösung (erfasst von einem Aufzeichnungsmittel wie einem bekannten Kamera Sensor) verwendet werden, um das künstliche Bild der ersten Kategorie durch den Stiltransfer mit geringerer Auflösung zu produzieren, so dass es aber radiometrisch starke Ähnlichkeit mit einem echten Bild der zweiten Kategorie hat, also wie vom gleichen Ort, Zeit, Kamera-Winkel, Sonnen-Winkel, u.a. aufgenommen. Dieses künstlich erstellte Bild der ersten Kategorie und das Bild der zweiten Kategorie können dann verwendet werden, um den Bildverbesserungsalgorithmus zu trainieren. Bei diesem Vorgehen kann es möglich sein, dass der Bildverbesserungsalgorithmus nur das radiometrische Verhalten von einem Beispiel-Bild der ersten Kategorie als Eingabe bekommt um anschließend das radiometrische Verhalten des ermittelten Bildes der zweiten Kategorie zu lernen. Der Algorithmus überträgt in anderen Worten das radiometrische Verhalten des Bildes der zweiten Kategorie auf das radiometrische Verhalten des Bildes der ersten Kategorie. In diesem Fall werden somit nur die radiometrischen Eigenschaften übertragen und keine Bildinhalte. Eine weiterführende Idee ist es, dass ein „end-2-end“ Super Resolution Ansatz vorgesehen ist, der nicht nur die radiometrische Qualität lernt, sondern auch die höhere geometrische Auflösung erlernt. Der Ansatz kann durch ein künstliches neuronales Netz bereitgestellt werden. Dieses Netz kann vorzugsweise nicht nur die Verbesserung der Auflösung erlernen, sondern ggf. auch ein Pansharpening und/oder eine Schatten- und/oder Dunst- und/oder Dunkelheit-Korrektur durchführen, sodass letztlich ein komplettes Paket der Qualitätsoptimierung der Bilder entsteht.

Das Verfahren kann vorzugsweise die Erstellung der künstlichen, d.h. synthetischen, Bilder der ersten Kategorie (z.B. Satellitenbilder, auch abgekürzt SynthSat bezeichnet) mit einem Bodenabtastabstand (GSD) von 30 cm aus den hochauflösenden ermittelten Bildern der zweiten Kategorie mit einem GSD von 15 cm unter Verwendung des Stiltransfers, insbesondere in der Form eines Bild-zu-Bild-Übersetzungsalgorithmus bzw. I2I, umfassen. Der Stiltransfer kann somit verwendet werden, um einen gepaarten Datensatz aus einem hochauflösenden Bild der zweiten Kategorie und dem entsprechenden niedrigauflösenden Bild der ersten Kategorie zu erzeugen. Dieser Datensatz kann dann verwendet werden, um das Maschinenlern-Modell, vorzugsweise in der Form eines Super Resolution (SR)- Algorithmus, zu trainieren. Es hat sich herausgestellt, dass die Anwendung dieses trainierten Maschinenlern-Modells auf ein reales Bild der ersten Kategorie mit 30 cm GSD zu einer Erhöhung der Auflösung führt und gleichzeitig Hochfrequenzinformationen und Texturen aufgelöst werden.

Ebenfalls ist es möglich, dass der nachfolgende Schritt vorgesehen ist: Ermitteln von realen Bildern der ersten Kategorie, wobei die realen Bilder der ersten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel resultieren. Hierbei kann durch den Stiltransfer ein Stil der realen Bilder der ersten Kategorie auf die Bilder der zweiten Kategorie übertragen werden, um die künstlichen Bilder der ersten Kategorie zu produzieren. Ferner können die künstlichen Bilder der ersten Kategorie mit einem Inhalt, insbesondere mit abgebildeten Objekten, der Bilder der zweiten Kategorie und dem Stil der realen Bilder der ersten Kategorie produziert werden. Dies ermöglicht es, dass degradierte Bilder für das Training aus den Bildern der zweiten Kategorie künstlich produziert werden können. Die Bilder der ersten Kategorie können dabei lediglich für die Übertragung des Stils herangezogen werden, ohne Berücksichtigung des Inhalts der Bilder der ersten Kategorie. Damit kann auf eine aufwendige Ermittlung einer Ground Truth verzichtet werden. Vorteilhafterweise umfasst der Stil dabei wenigstens einen der folgenden Parameter: wenigstens eine radiometrische Eigenschaft, einen Kamerawinkel, welcher zur Aufzeichnung verwendet wurde, einen Ort, von welchem aus die Aufzeichnung durchgeführt wurde, eine Beleuchtung, vorzugsweise basierend auf einem Sonnenstand, eine Helligkeit, einen Schattenwurf.

Darüber hinaus ist es denkbar, dass durch den Stiltransfer wenigstens eine radiometrische Eigenschaft der realen Bilder der ersten Kategorie auf die Bilder der zweiten Kategorie übertragen wird, um die künstlichen Bilder der ersten Kategorie zu produzieren. Alternativ oder zusätzlich kann es vorgesehen sein, dass die Bilder der zweiten Kategorie zur Umwandlung in die künstlichen Bilder der ersten Kategorie degradiert werden, bevorzugt durch eine Herabsetzung der Auflösung. Alternativ oder zusätzlich kann es vorgesehen sein, dass die Bilder der zweiten Kategorie und die daraus produzierten, künstlichen Bilder der ersten Kategorie als Trainingsdaten und vorzugsweise als gepaarte Datensätze für das Maschinenlern-Modell verwendet werden, wobei bevorzugt die Bilder der zweiten Kategorie als Ground-Truth verwendet werden. Somit kann auf eine aufwendige Ermittlung eines hochauflösenden Ground-Truth verzichtet werden.

Ferner ist es möglich, dass der Stiltransfer eine Anwendung eines Stiltransfer-Modells umfasst, vorzugsweise eines künstlichen neuronalen Netzes, wobei ein Training des Stiltransfer-Modells die nachfolgenden Schritte umfasst: Ermitteln von realen Bildern der ersten Kategorie, wobei die realen Bilder der ersten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittelresultieren und eine niedrigere Auflösung als die Bilder der zweiten Kategorie aufweisen; Trainieren des Stiltransfer-Modells basierend auf den realen Bildern der ersten Kategorie und den Bildern der zweiten Kategorie. Somit ist es möglich, einen zuverlässigen I2I Algorithmus durch das trainierte Stiltransfer-Modell bereitzustellen.

Darüber hinaus kann es vorgesehen sein, dass die realen Bilder der ersten Kategorie zu einer anderen Zeit und/oder mit einem anderen Kamerawinkel und/oder von einem anderen Ort aufgezeichnet wurden als die Bilder der zweiten Kategorie. Somit sind die Anforderungen an die Bilder der ersten Kategorie gering, und es kann der technische Aufwand für das Training reduziert werden.

Es kann der nachfolgende Schritt zur Erzeugung von gepaarten Datensätzen für das Maschinenlern-Modell vorgesehen sein: Anwenden des trainierten Stiltransfer-Modells mit den Bildern der zweiten Kategorie als Eingabe, um basierend auf den Bildern der zweiten Kategorie die künstlichen Bilder der ersten Kategorie mit einem Inhalt der Bild der zweiten Kategorie in geringerer Auflösung und im Stil eines Bildes der ersten Kategorie zu simulieren. Das Stiltransfer-Modell bietet somit eine einfache Möglichkeit, um aus Bildern der zweiten Kategorie eine große Menge Trainingsdaten für das Training des Maschinenlern- Modells, vorzugsweise eines Super Resolution Algorithmus für Bilder der ersten Kategorie, zu generieren.

Gemäß einem weiteren Vorteil kann das Maschinenlern-Modell trainiert werden, um die Auflösung aus realen Bildern der ersten Kategorie zu verbessern, vorzugsweise zumindest um einen Faktor 1 ,5 oder zumindest um einen Faktor 1 ,8 oder zumindest um einen Faktor 2 zu verbessern. Entsprechend kann das Maschinenlern-Modell als ein Super Resolution Algorithmus ausgeführt sein.

Das Maschinenlern-Modell, insbesondere in der Form eines Super Resolution Algorithmus, kann trainiert werden, um aus den realen Bildern der ersten Kategorie neue Bilder mit dem Inhalt der realen Bilder der ersten Kategorie in verbesserter Auflösung und vorzugsweise im Stil eines Bildes der zweiten Kategorie zu generieren. Damit wird nicht nur die Auflösung verbessert, sondern durch den Stiltransfer generell die Qualität des Bildes der ersten Kategorie optimiert.

Es ist möglich, dass für das Trainieren des Maschinenlern-Modells eine Ground-Truth, vorzugsweise ausschließlich, basierend auf dem Stiltransfer generiert wird. Dies ermöglicht ein Training auch dann, wenn keine Ground-Truth für eine entsprechende hohe Auflösung von Bildern der ersten Kategorie verfügbar ist.

Ebenfalls ist es möglich, dass das Maschinenlern-Modell wenigstens oder genau ein (künstliches) neuronales Netz umfasst. Dies ermöglicht, dass der Bildverbesserungsalgorithmus durch ein Maschinelles Lernen erhalten werden kann.

Ebenfalls Gegenstand der Erfindung ist ein Verfahren zur Erhöhung einer Auflösung basierend auf Bildern der ersten Kategorie, umfassend den nachfolgenden Schritt: Ermitteln von realen Bildern der ersten Kategorie, wobei die realen Bilder der ersten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel resultieren. Ferner kann das Verfahren den nachfolgenden Schritt umfassen: Erhöhen einer Auflösung der Bilder der ersten Kategorie durch eine Anwendung eines Maschinenlern-Modells, wobei das Maschinenlern- Modell gemäß einem erfindungsgemäßen Verfahren zum Trainieren eines Maschinenlern- Modells trainiert worden sein kann. Vorteile und Merkmale, die im Zusammenhang mit einem erfindungsgemäßen Verfahren zum Trainieren eines Maschinenlern-Modells beschrieben wurden, gelten dabei auch im Zusammenhang mit dem erfindungsgemäßen Verfahren zur Erhöhung einer Auflösung.

Ebenfalls Gegenstand der Erfindung ist ein Verfahren für einen Stiltransfer, umfassend die nachfolgenden Schritte: Bereitstellen eines Stiltransfer-Modells, wobei das Stiltransfer-Modell auf Basis von wenigstens einem (insbesondere realen) Bild der ersten Kategorie, insbesondere mehreren (vorzugsweise realen) Bildern der ersten Kategorie, für den Stiltransfer eines Stils von Bildern der ersten Kategorie trainiert wurde; Bereitstellen von Bildern der zweiten Kategorie, wobei die Bilder der zweiten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel resultieren können; und Anwenden des Stiltransfer-Modells mit den bereitgestellten Bildern der zweiten Kategorie als Eingabe, um daraus künstliche Bilder der ersten Kategorie mit in den Bildern der zweiten Kategorie dargestellten Objekten in einem Stil der Bilder der ersten Kategorie auszugeben. Vorteile und Merkmale, die im Zusammenhang mit einem erfindungsgemäßen Verfahren zum Trainieren eines Maschinenlern-Modells beschrieben wurden, gelten dabei auch im Zusammenhang mit dem erfindungsgemäßen Verfahren für einen Stiltransfer. Insbesondere kann das Stiltransfer-Modell in der Weise trainiert werden, wie es im Zusammenhang mit dem erfindungsgemäßen Verfahren zum Trainieren eines Maschinenlern-Modells beschrieben wurde. Ferner ist es denkbar, dass durch den Stiltransfer wenigstens eine radiometrische Eigenschaft der realen Bilder der ersten Kategorie auf die Bilder der zweiten Kategorie übertragen wird, um die künstlichen Bilder der ersten Kategorie mit einem Inhalt der Bilder der zweiten Kategorie und der übertragenen radiometrischen Eigenschaft auszugeben.

Ebenfalls Gegenstand der Erfindung kann ferner ein Verfahren zum Trainieren des Stiltransfer-Modells sein. Hierbei können gemäß einem ersten Trainingsschritt zunächst Bilder der zweiten Kategorie und/oder wenigstens ein oder mehrere Bilder der ersten Kategorie ermittelt werden, wobei die Bilder der zweiten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel resultieren können und/oder das wenigstens eine oder die mehreren Bilder der ersten Kategorie aus einer Aufzeichnung durch ein Aufzeichnungsmittel resultieren können. Anschließend kann das Stiltransfer-Modell basierend auf dem wenigstens einen oder mehreren Bildern der ersten Kategorie und den Bildern der zweiten Kategorie trainiert werden.

Insbesondere kann das Trainieren derart durchgeführt werden, dass das Stiltransfer-Modell dafür trainiert wird, wenigstens eine radiometrische Eigenschaft des wenigstens einen oder der mehreren Bilder der ersten Kategorie auf die Bilder der zweiten Kategorie zu übertragen.

Es ist ferner möglich, dass das Stiltransfer-Modell zumindest oder genau ein neuronales Netz umfasst, welches im Falle von Satellitenbildern auch als SynthSat-Netz bezeichnet werden kann. Das Stiltransfer-Modell kann durch das Trainieren eine zuverlässige Bild-zu- Bild Übersetzung zur Stilübertragung bereitstellen und damit einen I2l-Algorithmus ausbilden. Der Vorteil des Netzes liegt nicht nur darin, den Stil eines Bildes der ersten Kategorie zu übertragen, sondern auch die Informationen - also den Inhalt, insbesondere die abgebildeten Objekte - des Bildes der zweiten Kategorie zu erhalten und sie vorzugsweise so zu rekonstruieren, dass sie den entsprechenden Objekten im Bild der ersten Kategorie ähnlich sind. Auch wenn sich Bilder der zweiten Kategorie und Bilder der ersten Kategorie in Bezug auf Qualität, Flächenabdeckung, Sensorkalibrierung usw. unterscheiden, beschreiben sie dieselben physikalischen und biologischen Objekte.

Es kann vorgesehen sein, dass eine Architektur des Stiltransfer-Modells einen Generator mit einer Encoder-Decoder-Struktur umfasst. Dies ermöglicht eine zuverlässige Durchführung des Stiltransfers.

Ferner kann für den Stiltransfer ein Inhaltsencoder und ein Stilencoder vorgesehen sein. Damit kann ein Inhalt des Bildes der zweiten Kategorie erhalten bleiben und im Stil der Bilder der ersten Kategorie ausgegeben werden. Ferner kann es möglich sein, dass für den Stiltransfer ein Inhaltsbild, insbesondere eines der bereitgestellten Bilder der zweiten Kategorie, einem Inhaltsencoder (engl. Content Encoder) zugeführt wird. Ferner kann ein Stilbild, also vorzugsweise das oder eines der bereitgestellten Bilder der ersten Kategorie, vorgesehen sein, welches einem Stilencoder (engl. Style Encoder) zugeführt wird. Das Ergebnis des Stilencoders und des Inhaltsencoders können sodann einem, insbesondere einzigen, Decoder zugeführt werden, welcher das künstliche Bild der ersten Kategorie ausgibt.

Es ist darüber hinaus optional vorgesehen, dass die beiden Kodierer, d.h. der Inhalts- und Stilencoder, eine Extraktion von Merkmalen auf verschiedenen Ebenen durchführen. Der, insbesondere einzige, Decoder fusioniert dann die Bildmerkmale aus den beiden Kodierer, vorzugsweise über verschiedene Skalen, hinweg.

Es ist möglich, dass für das Training ein Diskriminator, vorzugsweise Multiskalen- Diskriminator, vorgesehen ist, um einen Unterschied zwischen dem ausgegebenen künstlichen Bild der ersten Kategorie und dem realen Bild der ersten Kategorie zu ermitteln, vorzugsweise hinsichtlich des Stils des Bildes der ersten Kategorie.

Außerdem ist es denkbar, dass ein, vorzugsweise einziger, Multiskalen-Diskriminator vorgesehen ist, um zwischen dem ausgegebenen künstlichen Bild der ersten Kategorie und einem realen Bild der ersten Kategorie in verschiedenen Maßstäben zu unterscheiden. Da die GSD (also der Bodenabtastabstand) und die räumliche Auflösung umgekehrt proportional zueinander sind, können die Bilder der zweiten Kategorie räumlich doppelt so groß sein wie die Bilder der ersten Kategorie, wobei die übersetzten künstlichen Bilder der ersten Kategorie die räumliche Auflösung der Bilder der ersten Kategorie haben können. Es kann vorgesehen sein, dass der Multiskalen-Diskriminator zumindest zwei oder zumindest drei Diskriminatoren aufweisen, welche das ausgegebene künstliche Bild der ersten Kategorie und ein reales Bild der ersten Kategorie in mindestens zwei oder drei Maßstäben vergleichen. Der Vergleich kann anschließend im Zusammenhang mit einer Verlustfunktion für das Trainieren verwendet werden.

Der Decoder kann dafür ausgeführt sein, Inhalts- und Stilmerkmale der bereitgestellten Bilder der zweiten Kategorie und Bilder der ersten Kategorie zu verschmelzen und sie zu rekonstruieren, um das künstliche Bild der ersten Kategorie vorzugsweise in der Form eines natürlich aussehenden synthetischen Bildes der ersten Kategorie zu erzeugen. Dabei können die Inhaltsmerkmale aus einem Inhalt der Bilder der zweiten Kategorie und die Stilmerkmale aus dem wenigsten einen Bild der ersten Kategorie resultieren. Ferner ist es denkbar, dass ein Aufmerksamkeitsmodul, vorzugsweise Attentional Manifold Alignment Block (AMA), vorgesehen ist, um eine Verschmelzung und/oder Übertragung des Stils vorzugsweise unter Verwendung von Inhalts- und Stilmerkmalen aus den Encodern, insbesondere auf jeder Ebene, durchzuführen. Dies ermöglicht es, dass realistisch aussehende künstliche Bilder der ersten Kategorie erzeugt werden, bei denen die Inhaltsinformationen erhalten bleiben.

Vorteilhafterweise umfasst das Aufmerksamkeitsmodul ein Aufmerksamkeits- und ein raumbezogenen Interpolationsmodul. Es kann für die Verschmelzung und Übertragung des Stils unter Verwendung von Inhalts- und Stilmerkmalen aus den Encodern auf jeder Ebene verantwortlich sein. Im Aufmerksamkeitsmodul können dabei die normalisierten Inhalts- und Stilmerkmale eingebettet sein, um die Aufmerksamkeitskarte zu berechnen, die die paarweisen Ähnlichkeiten zwischen den Inhalts- und Stilmerkmalen enthält. Diese Karte kann als affine Transformation dienen, die, wenn sie auf die Stilmerkmale angewendet wird, diese räumlich neu anordnet.

Darüber hinaus ist ein trainiertes Maschinenlern-Modell, welches gemäß einem erfindungsgemäßen Verfahren zum Trainieren eines Maschinenlern-Modells trainiert ist, Gegenstand der Erfindung

Gegenstand der Erfindung sind ferner wenigstens eine Vorrichtung zur Datenverarbeitung, umfassend Mittel zur Ausführung der Schritte eines erfindungsgemäßen Verfahrens und wenigstens ein Computerprogramm umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte eines erfindungsgemäßen Verfahrens auszuführen.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Zum besseren Verständnis der Offenbarung wird auf die folgenden Zeichnungen verwiesen:

Fig. 1 : Eine schematische Darstellung eines Ausführungsbeispiels der Erfindung;

Fig. 2: Eine schematische Darstellung eines Ausführungsbeispiels der Erfindung mit weiteren Einzelheiten;

Fig. 3 Eine schematische Darstellung eines Ausführungsbeispiels der Erfindung mit weiteren Einzelheiten; Fig. 4 Ein Workflow zum Stiltransfer und Super Resolution Ansatz gemäß einem Ausführungsbeispiel der Erfindung;

Fig. 5 eine schematische Darstellung eines Trainings und einer Anwendung des Maschinenlern-Modells gemäß einem Ausführungsbeispiel der Erfindung;

Fig. 6 Elemente einer Architektur gemäß einem Ausführungsbeispiel der Erfindung;

Fig. 7 Verfahrensschritte gemäß einem Ausführungsbeispiel der Erfindung.

BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSBEISPIELE

Im Folgenden wird beispielhaft auf die Verbesserung von Bildern einer ersten Kategorie, hier Satellitenbildern mit 30 cm GSD, unter Verwendung eines Maschinenlern-Modells für Super Resolution eingegangen. Da 30 cm GSD die höchste Auflösung ist, die ein kommerziell erhältlicher Satellit bietet, werden für das Training des Maschinenlern-Modells Bilder einer zweiten Kategorie, hier hochauflösende Luftbilder mit 15 cm GSD, verwendet. Mittels eines Stiltransfers werden daraus realistische künstliche Satellitenbilder, nachfolgend auch als SynthSat-Bilder bezeichnet, mit 30 cm GSD produziert. Diese SynthSat-Bilder erhalten durch den Stiltransfer einen Stil von 30 cm GSD-Satellitenbilder. Die SynthSat-Bilder sind in der Lage, den maximalen Inhalt der ursprünglichen Luftbilder zu enthalten, allerdings im Stil von Satellitenbildern, und fungieren somit als degradiertes Gegenstück zu den entsprechenden hochauflösenden Luftbildern. Unter Verwendung von Luftbildern als Grundlage und SynthSat-Bildern als niedrig aufgelöstes Bild wird ein Training des Maschinenlern-Modells vorgeschlagen. Dieser trainierte SR-Algorithmus kann dann zur Verbesserung von Satellitenbildern mit 30 cm GSD verwendet werden. Wie bereits erwähnt, ist der hierin vorgestellte Ansatz nicht auf die Verbesserung von Satellitenbildern beschränkt. Es handelt sich hierbei lediglich um ein nicht einschränkendes Beispiel mittels welchem die grundlegende Funktionalität des vorgestellten Ansatzes aufgezeigt werden soll.

Die Gesamtansicht der beschriebenen Pipeline ist in Fig. 1 und mit weiteren Einzelheiten in Fig. 5 schematisch dargestellt. Durch einen ersten Block 300 wird hierbei der Stiltransfer, insbesondere I2I Algorithmus visualisiert. Für den Stiltransfer 300 kann ein Stiltransfer- Modell 500 wie ein neuronales Netz, nachfolgend für das Beispiel zur Verbesserung der Satellitenbilder auch SynthSat Netz bezeichnet, genutzt werden. Als Eingabe des Stiltransfer-Modells 500 kann ein ermitteltes Luftbild 420 verwendet werden. Das Luftbild 420 stellt den hochaufgelösten Inhalt, also insbesondere die abgebildeten Objekte 450, bereit. Daher kann das ermittelte Luftbild 420 auch als Ground-Truth für das spätere Training des Maschinenlern-Modells 400 Verwendung finden. Ferner kann als Eingabe des Stiltransfer- Modells 500 ein reales Satellitenbild 412 verwendet werden. Das reale Satellitenbild 412 kann dazu genutzt werden, unabhängig vom Inhalt des Satellitenbildes 412 einen Stil des Satellitenbildes 412 bereitzustellen. Das Stiltransfer-Modell 500 kann sodann den Stil des Satellitenbildes 412 auf das ermittelte Luftbild 420 übertragen. Zusätzlich kann ggf. eine Auflösung des Luftbildes 420 herabgesetzt werden. Daraus ergibt sich ein künstliches Satellitenbild 411 mit dem Stil des Satellitenbildes 412 und dem Inhalt 450 des ermittelten Luftbildes 420 in reduzierter Auflösung. Zusammen mit dem ermittelten Luftbild 420 höherer Auflösung ergibt sich daher ein gepaarter Datensatz 501 . Dieser kann anschließend für das Training des Maschinenlern-Modells 400 genutzt werden. Auf diese Weise kann ein trainiertes Maschinenlern-Modell 401 und vorzugsweise Super Resolution Modell 401 aus dem Training resultieren. Bei Anwendung ist das trainierte Maschinenlern-Modell 401 in der Lage, aus einem realen Satellitenbild 412 geringerer Auflösung ein verbessertes Satellitenbild 413 mit höherer Auflösung zu generieren.

Als Vorteil der vorliegenden Erfindung ergibt sich insbesondere, dass ein Bild-zu- Bild- Übersetzungsnetzwerk zur Erzeugung realistischer synthetischer Bilder einer ersten Kategorie, hier Satellitenbilder, aus hochauflösenden Bildern einer zweiten Kategorie, hier Luftbildern, und zum Aufbau eines gepaarten Datensatzes genutzt werden kann. Der dabei verwendete Stiltransfer kann dabei auch zum Trainieren anderer Low-Level-Computer- Vision-Aufgaben Verwendung finden.

Das Ziel der Bild-zu-Bild-Übersetzungsaufgaben ist es insbesondere, ein Bild in einem Stilbereich (auch als Domäne oder engl. Domain bezeichnet) auf ein entsprechendes Bild in einem anderen Stilbereich abzubilden. Dazu gehört ein breites Spektrum von Aufgaben wie die Übertragung eines fotorealistischen Stils, das Hinzufügen oder Entfernen von Bildattributen, die Erzeugung künstlerischer Bilder, die semantische Bildsynthese, die Bildverbesserung wie die Einfärbung von Bildern, die Superauflösung von Bildern usw. Gatys et al. [15, 16] schlugen erstmals einen Stilübertragungsalgorithmus mit einem iterativen Ansatz zur Optimierung eines Bildes mit Vorwärts- und Rückwärtsdurchläufen vor. Um den Vorgang der Stilisierung zu beschleunigen, wurden mehrere Feed-Forward-Ansätze [24, 27, 33, 53, 55] eingeführt. Derzeit verwenden die meisten Übersetzungsnetzwerke generative adversarische Netzwerke (GANs) [17], die versuchen, die Verteilung des Zielbereichs zu modellieren und Bilder in diesem Stilbereich zu erzeugen. Diese Methoden sind entweder überwacht oder unüberwacht. Die überwachten Übersetzungsmethoden benötigen alignierte Bildpaare für den Quell- und Zielbereich. Sie sind datenabhängig, und die Beschaffung eines solchen gepaarten Datensatzes kann aufwendig oder manchmal unmöglich sein. Unüberwachte Methoden haben dieses Problem nicht, da sie keine gepaarten Datensätze benötigen, aber sie benötigen möglicherweise einige zusätzliche Beschränkungen wie Beschriftungen, Zykluskonsistenz, semantische Karten usw. In der unüberwachten Umgebung ist I2I ein sehr schlecht gestelltes Problem. Um dieses Problem zu lösen, werden die Bilder aus dem Quell- und dem Zielbereich auf den latenten Raum projiziert, und es wird angenommen, dass die Quell- und Zielbilder einen gemeinsamen Bereich in diesem latenten Raum haben. Wenn ein Bild aus diesem gemeinsamen latenten Raum abgeleitet wird, wird der Bereich des Quellbildes in den Zielbereich übersetzt. Eine weitere beliebte Methode für I2l-Aufgaben sind Variationale Autoencoder (VAE). Sie bieten im Vergleich zu GAN- basierten Modellen ein stabileres Training, haben aber einige Nachteile wie schlechte Bildqualität, Artefakte, strukturelle Verzerrungen usw. Darüber hinaus kann I2I nicht nur Bilder zwischen zwei Stilbereichen übersetzen, sondern ist mit einem einzigen Modell auf mehrere Stilbereichen skalierbar. StarGAN [7] ist eines der ersten Modelle, das das Problem der Skalierbarkeit in einem einheitlichen Rahmen behandelt. Später bot StarGANv2 [43] eine Verbesserung gegenüber StarGAN, indem es verschiedene Bilder über mehrere Stilbereiche hinweg generierte. Andere Methoden wie [6, 21 , 30, 37, 38, 62] wurden vorgeschlagen, die multimodale Ergebnisse in einer I2l-Umgebung mit mehreren Stilbereichen erzeugen können.

Die Übertragung eines beliebigen Stils ist eine Art von I2l-Aufgabe, bei der der Stil eines Bildes auf das Inhaltsbild unter Verwendung beliebiger Inhalt-Stil-Bildpaare angewendet wird. Stilübertragungsalgorithmen können einer der beiden Kategorien angehören: 1) Nichtfotorealistisches Rendering, das darauf abzielt, künstlerisch aussehende Bilder zu synthetisieren. 2) Photorealistisches Rendering, das darauf abzielt, realistische Bilder zu synthetisieren. Techniken zur Stilübertragung haben ihren Ursprung in Textursynthese- und - Übertragungsmethoden [10-12] für nicht fotorealistisches Rendering. Später demonstrierten Gatys et al. [16] die Fähigkeit von CNNs zur unabhängigen Verarbeitung und Manipulation von Inhalt und Stilbild für die Stiltransferaufgabe durch iterative Optimierung des endgültigen Bildes. Die auf Optimierung basierenden Methoden waren langsam und wurden durch Feed- Forward-Stilübertragungsalgorithmen ersetzt, die eine schnellere Inferenz in Echtzeit ermöglichen. Das Problem bei den Feed-Forward-Methoden war, dass sie nicht in der Lage waren, sich an den Stil anzupassen, der während der Trainingsphase nicht beobachtet wurde. Chen et al. [5] stellten eine patchbasierte Feed-Forward-Methode vor, die beliebige Stile übertragen kann. Huang et al. [19] schlugen eine adaptive Instanznormalisierung vor, die affine Parameter aus der Stileingabe berechnen und die Inhaltsbilder mit denselben normalisieren kann, um die stilisierte Ausgabe zu erzeugen. Mit der zunehmenden Popularität der adversen Modellierung haben die meisten der aktuellen Methoden zur Stilübertragung einen GAN-basierten Ansatz gewählt, insbesondere für die fotorealistische Ausgabe. Methoden wie [22, 23, 34, 49] bieten hervorragende Möglichkeiten zur Übertragung beliebiger Stile. Anokhin et al. [4] schlugen ein Multidomänen-I2l-Modell vor, das nicht nur Bilder mit verschiedenen Stiltransformationen, sondern auch mit hoher Auflösung erzeugt. Ein Teilaspekt von Ausführungsbeispielen dieser Erfindung hat den Zweck, eine fotorealistische Stilübertragung anhand von Bildern der zweiten Kategorie und der ersten Kategorie (z.B. Luft- und Satellitenbilder) zu erreichen. Frühere Veröffentlichungen wie [8, 13, 25, 40, 60] haben das Potenzial für Satelliten — > Karten und umgekehrt gezeigt. Schenkel et al. [48] stellen eine zykluskonsistente adversarische Domänenanpassungsmethode vor, um den Stil zwischen Luft Satelliten-, Luft Luftbildern in den Nah-IR- und RGB-Bändern bei niedriger GSD zu übertragen, und verwenden die Ergebnisse der Stilübertragung mit einem Vegetationssegmentierungsnetzwerk. Sie sind in der Lage zu zeigen, dass die Stil-Transfer- Bilder die Vegetationsindex-Merkmale für die Luft- und Satellitenbilder bewahren, und wenn die Stil-Transfer-Bilder mit dem Vegetationssegmentierungsnetzwerk verwendet werden, verbessert es die Leistung des Netzwerks im Vergleich zu den Standardbildern. Das gemäß Ausführungsbeispielen der Erfindung vorgeschlagene Verfahren beruht auf einer ähnlichen Idee, bei der die I2l-Ergebnisse für Bildverbesserungsaufgaben verwendet werden sollen.

Bei der Bildverbesserung handelt es sich um ein inverses Problem auf niedriger Ebene, bei dem eine Zuordnung zwischen dem verschlechterten Bild und seinem qualitativ hochwertigen Gegenstück entweder im überwachten oder im unbeaufsichtigten Umfeld vorgenommen wird. Sie umfasst verschiedene Aufgaben wie Bildsuperauflösung [9,29,32,35,58,59,67], Bildentschärfung [64], Rauschentfernung [52], Farbabstufung [1 ,2,42] usw. Für die meisten praktischen Anwendungen werden überwachte Methoden verwendet, aber auch unüberwachte Methoden werden aufgrund des Mangels an gepaarten Datensätzen immer beliebter. Die überwachten Methoden erfordern einen gepaarten Datensatz, der aus Bildpaaren hoher und niedriger Qualität besteht. Die degradierten Bilder in diesen gepaarten Datensätzen werden manuell mit einigen Techniken erstellt, die versuchen, den natürlichen Degradierungsprozess nachzuahmen. So komplex diese Degradationsprozesse auch sind, sie erfassen nicht die reale Degradation. Wenn eine bestimmte Bildverbesserung mit solchen Datensätzen trainiert wird, können sie eine einzige Aufgabe lösen, die auf eine Bildqualität abzielt, die derjenigen der echten Bilder entspricht. Für Fernerkundungsbilder werden ähnliche Datenerstellungstechniken verwendet, um die Algorithmen zu trainieren. Für die Verbesserung von Satellitenbildern wird das ursprüngliche 30-cm-GSD-Bild nicht heruntergerechnet, sondern I2I verwendet, um hochauflösende Luftbilder von 15 cm GSD in synthetische 30-cm-Satellitenbilder umzuwandeln. Dieser gepaarte Datensatz aus Luftbildern und synthetischen Bildern wird gemäß Ausführungsvarianten der Erfindung zum Trainieren des Algorithmus für die Superauflösung, d. h. für das Maschinenlern-Modell, verwendet. Wenn dieser Algorithmus an realen Satellitenbildern getestet wird, zeigt er im Vergleich zum herkömmlichen Ansatz bessere Ergebnisse.

Der Stiltransfer kann eine Anwendung eines Stiltransfer-Modells umfassen, welches vorzugsweise zumindest ein neuronales Netz umfasst, in diesem Beispiel auch SynthSat- Netz bezeichnet. Das Stiltransfer-Modell kann auf diese Weise einen zuverlässigen I2I- Algorithmus bilden. Generell können I2l-Algorithmen aber bei der Stilübertragung anfällig für Verzerrungen und/oder visuelle Artefakte sein. Das Ziel des (SynthSat-)Netzes besteht also nicht nur darin, den Stil eines Bildes der ersten Kategorie (z.B. eines Satellitenbildes) zu übertragen, sondern auch die Informationen - also den Inhalt - des Bildes der zweiten Kategorie (z.B. des Luftbildes) zu erhalten und sie so zu rekonstruieren, dass sie den entsprechenden Objekten im Bild der ersten Kategorie (z.B. im Satellitenbild) ähnlich sind. Auch wenn sich die Bilder der ersten und zweiten Kategorie (z.B. Luft- und Satellitenbilder) in Bezug auf Qualität, Flächenabdeckung, Sensorkalibrierung usw. unterscheiden können, beschreiben sie dieselben physikalischen und biologischen Objekte. Diese Objekte weisen eine ähnliche latente Raumstruktur auf. Daher müssen die übersetzten Bilder aus diesem latenten Raum abgetastet werden, wobei die lokalen Strukturen des Inhaltsbildes im Merkmalsraum des Satellitenbildes dargestellt werden. Die Architektur, welche in Fig. 2 beispielhaft dargestellt ist, kann daher einen Generator G mit Encoder-Decoder-Struktur umfassen. In Fig. 2 sind ein Inhaltsbild 420 dargestellt, also bspw. ein ermitteltes Luftbild 420, welches einem Inhaltsencoder (engl. Content Encoder) zugeführt wird. Ferner ist ein Stilbild, vorzugsweise in der Form eines realen Satellitenbildes 412, gezeigt, welches einem Stilencoder (engl. Style Encoder) zugeführt werden kann. Das Ergebnis des Stilencoders und des Inhaltsencoders können sodann einem einzigen Decoder zugeführt werden, welcher das künstliche Satellitenbild 411 ausgibt. Wie bereits erwähnt, ist der hierin vorgestellte Ansatz nicht auf die Verbesserung von Satellitenbildern beschränkt. Es handelt sich hierbei lediglich um ein nicht einschränkendes Beispiel mittels welchem die grundlegende Funktionalität des vorgestellten Ansatzes aufgezeigt werden soll.

Die beiden Kodierer, d.h. Inhalts- und Stilkodierer, helfen bei der Extraktion von Merkmalen auf verschiedenen Ebenen. Der einzige Decoder fusioniert dann die Bildmerkmale aus den beiden Encodern über die verschiedenen Skalen hinweg. Ein einziger Multiskalen- Diskriminator wird verwendet, um zwischen dem erzeugten synthetischen Bild der ersten Kategorie (z.B. ein erzeugtes synthetisches Satellitenbild) und dem realen Bild der ersten Kategorie (z.B. ein reales Satellitenbild) in verschiedenen Maßstäben zu unterscheiden. Da die GSD und die räumliche Auflösung umgekehrt proportional zueinander sind, sind die Luftbilder räumlich doppelt so groß wie die Satellitenbilder und die übersetzten synthetischen Satellitenbilder haben die räumliche Auflösung der Satellitenbilder. Das SynthSat-Netz ist von den Veröffentlichungen verschiedener I2l-Algorithmen inspiriert, wie z. B. [22, 39, 44]

Nachfolgend werden Ausführungsbeispiele der Architektur näher beschrieben, welche zusätzlich auch in Fig. 3 mit weiteren Einzelheiten schematisch visualisiert ist. Wie bereits erwähnt, ist der hierin vorgestellte Ansatz nicht auf die Verbesserung von Satellitenbildern beschränkt. Es handelt sich hierbei lediglich um ein nicht einschränkendes Beispiel mittels welchem die grundlegende Funktionalität des vorgestellten Ansatzes aufgezeigt werden soll. Die Encoder für Inhalt und Stil können die gleiche Architektur haben. Die Struktur des Encoders ist für die Extraktion von Merkmalen auf hoher und niedriger Ebene und die Projektion der Bilder von ihrer Bilddomäne auf ihre latente Raumdarstellung verantwortlich. Der Residualblock des Encoders kann ähnlich organisiert sein wie der Residualblock in [68], ggf. jedoch mit Änderungen. Die drei Schichtmodule, die aus Faltungs-Normalisierungs- LRelu-Schichten bestehen, sind dicht miteinander verbunden, um einen maximalen Informationsfluss zwischen den Schichten zu gewährleisten. Eine Sprungverbindung mit einer Kanalaufmerksamkeitsschicht [66] (engl. channel attention layer) fördert das lokale „Residual learning“ von bedeutungsvollen Informationen. Der Mechanismus der Kanalaufmerksamkeit hilft dem Netzwerk, für jedes kanalweise Merkmal eine andere Aufmerksamkeitskarte (engl. attention map) zu erzeugen, indem es die Beziehung zwischen den Kanälen ausnutzt und so die wertvollen Hochfrequenzinformationen bewahrt. Obwohl GANs hervorragende Leistungen bei der Erzeugung natürlicher Bilder erzielt haben, sind sie traditionell mit Problemen wie Trainingsinstabilität und Modenkollaps verbunden [47], Um dieses Problem zu entschärfen, wird eine Kombination aus Spektral-Instanz-Normalisierung in den Restschichten verwendet. In [36, 41 , 44] wurde gezeigt, dass eine solche Normalisierung zur allgemeinen Stabilität beim Training von GANs beiträgt. Am Ende jeder Ebene befindet sich eine Downsampling-Schicht, um die räumlichen Dimensionen für die auf der nächsten Ebene zu verarbeitenden Schichten zu reduzieren. Die Downsampling- Schichten bestehen aus einer einfachen bikubischen Interpolationsoperation mit konstantem Maßstab. Am Ende des Encodernetzwerks werden die Inhalts- und Stilbilder in ihrem jeweiligen latenten Raum dargestellt. Die Merkmale auf verschiedenen Ebenen werden im Decoder-Netzwerk systematisch fusioniert. Bevor das Inhaltsbild in den Kodierer eingespeist wird, wird es durch bikubische Interpolation auf die räumliche Größe des Stilbildes heruntergerechnet.

Das Decoder-Netzwerk ist dafür verantwortlich, die Inhalts- und Stilmerkmale zu verschmelzen und sie zu rekonstruieren, um natürlich aussehende synthetische Satellitenbilder zu erzeugen. Die Struktur des Decoder-Netzwerks spiegelt die des Encoder- Netzwerks wider. Sei x c das Inhaltsbild und x s , das Stilbild und x t das erzeugte synthetische Satellitenbild. Die Bilder x c und x s werden ihrem jeweiligen Encoder zugeführt, CE und SE. Das Encodernetzwerk besteht aus i Ebenen und der Ausgang auf einer Ebene i für die Kodierer sind gegeben als CE = {ce x , ce 2 , ce 3 , ... , ce t } und SE = {se 1; se 2 , se 3 , ... , se;}. Dann beginnt das Decodernetz mit der Stilfusion und der Merkmalsrekonstruktion auf der i - ten Ebene und bis hin zur Ebene 1, wo das endgültige Ausgangsbild erzeugt wird. Die Ausgangsmerkmale des Decoders nach dem Upsampling können wie folgt dargestellt werden

AdalN [19] wurde verwendet, um die Stilübertragung im Merkmalsraum durch Übertragung der Merkmalsstatistiken durchzuführen. Es wurde von mehreren I2l-Algorithmen zur Stilübertragung verwendet. Bei der Übertragung des Stils von Satellitenbildern auf Luftbilder konnten jedoch die Informationen des Inhaltsbildes nicht erhalten werden. Um realistisch aussehende synthetische Satellitenbilder zu erzeugen, bei denen die Inhaltsinformationen erhalten bleiben, wird der in [39] vorgestellte Attentional Manifold Alignment Block (AMA) verwendet. Er besteht aus einem Aufmerksamkeits- und einem raumbezogenen Interpolationsmodul. Es ist für die Verschmelzung und Übertragung des Stils unter Verwendung von Inhalts- und Stilmerkmalen aus den Encodern auf jeder Ebene verantwortlich. Im Aufmerksamkeitsmodul werden die normalisierten Inhalts- und Stilmerkmale eingebettet, um die Aufmerksamkeitskarte zu berechnen, die die paarweisen Ähnlichkeiten zwischen den Inhalts- und Stilmerkmalen enthält. Diese Karte dient als affine Transformation, die, wenn sie auf die Stilmerkmale angewendet wird, diese räumlich neu anordnet. ( T \ fi(Norm(cei)) ® gi(Norm(sei)) I (1) sej = 0(hi(sei) T (g) Att^) (2) wobei ;(•), S'i(-) and /!;(•) eine l x l Faltung zur Merkmalseinbettung auf einer Ebene i sind, Norm(-) sich auf die Mittelwert-Varianz-Normalisierung bezieht und 0 eine Matrixmultiplikation bezeichnet. Das Space-aware interpolation Modul ist für die adaptive Interpolation zwischen den Merkmalen, ce L und se t mit regionalen Informationen zuständig. Die lernfähige Operation der Kanaldichte nutzt Faltungskerne verschiedener Skalen auf dem verketteten Merkmal, um „multi-scale“ regionale Informationen auf mehreren Skalen zusammenzufassen, die skalare räumliche Gewichte ausgeben W e /? Hxlv ausgibt, die für die Interpolation verwendet werden. wobei ipt(-) der i-te Faltungskernel ist, und die [•,•] die Operation der Kanalverkettung bezeichnet.

AMA; = Wj O ce; + (1 - Wj) O se, (4) wobei O sich auf das Skalarprodukt bezieht. Die raumbezogene Interpolation im AMA-Block trägt dazu bei, eine Verschlechterung der Inhaltsmerkmale zu verhindern, so dass wichtige Informationen des Inhaltsbildes erhalten bleiben. Der Ausgang des jeweiligen AMA-Blocks wird dann an den Decoder-Restblock weitergeleitet. Dieser Block hat eine ähnliche Struktur wie der FADE-Restblock [22], der seinerseits vom SPADE-Restblock [44] inspiriert ist. Der Residualblock des Decoders besteht aus zwei Residualmodulen, die jeweils aus einer FADE-Schicht (Feature Adaptive DENormalization) [22], gefolgt von einer LeakyReLU- Aktivierung und einem Faltungsblock bestehen. Für das Lernen der Residuen wird eine Skip- Verbindung hinzugefügt, die aus einem Residualmodul gefolgt von Channel Attention [66] besteht. SPADE wurde eingeführt, um die semantischen Informationen gegenüber den üblichen Normalisierungsschichten besser zu erhalten. FADE verwendet nicht die verkleinerte semantische Karte als Eingabe, sondern die Darstellung von Merkmalen in mehreren Maßstäben aus dem Inhaltsbild. Diese Ebene bietet eine zusätzliche Kontrolle über die Erhaltung der im Inhaltsbild vorhandenen Informationen. Auf der Ebene i wird die Stapelnormalisierung [54] auf die Ausgabe des AMA-Blocks angewendet. Die normalisierten Merkmale werden dann mit gelernten Parametern moduliert y; und ß die mit Hilfe eines zweischichtigen Faltungsnetzwerks erzeugt werden, das ce t als Eingabe erhält. Gegeben n e N , c e C b h e H b w e W t , wobei N die Losgröße ist, C die Anzahl der Kanäle ist, H und W die Höhe und Breite der Merkmalskarten sind, dann ist die Aktivierung: wobei pf und of der Mittelwert und die Standardabweichung der AMA t Merkmalskarten vor der Stapelnormalisierung sind. Somit ist die Ausgabe auf jeder Ebene für den Decoder wie folgt gegeben: d; = upi(drt>i(AMAi)) (8)

Gleichung 8 kommt zur Anwendung, wenn i die niedrigste Ebene des Decoders ist. di = upi(drbi(AMAi + d i+1 )) (9)

Gleichung 9 kommt zur Anwendung, wenn i jede andere Stufe des Decoders außer der niedrigsten, drb und up beziehen sich auf den Decoder-Restblock (engl. decoder residual block) und die Upsampling-Schicht auf der Ebene i entsprechend.

Multiskalen-Diskriminator [57], [44], bestehend aus drei Diskriminatoren mit identischer Netzwerkarchitektur in verschiedenen Bildmaßstäben, werden verwendet, um das übersetzte synthetische Bild x t und das reale Stilbild x s in drei verschiedenen Maßstäben zu vergleichen. Das übersetzte x t und das Stilbild x s Bilder werden um den Faktor 2 und 4 heruntergerechnet, um eine Bildpyramide mit drei Maßstäben zu erstellen. Da alle Diskriminatoren in verschiedenen Maßstäben arbeiten, haben sie ein unterschiedliches rezeptives Feld. So können sie beim Training des Grob-zu-Fein-Generators helfen und den einheitlichen Stil beibehalten.

Es können verschiedene Verlustfunktionen eingesetzt werden, um eine konsistente Stilübertragung und ein Maximum an Informationen in den erzeugten Bildern zu gewährleisten.

Die Leistung des Generators wird wie folgt angegeben: x t = G(x c ,x s ) (10)

Der Generator und die Multiskalen-Diskriminatoren [57] werden abwechselnd durch

Minimierung des adversen Verlusts trainiert. Anstelle von least-squares wird jedoch sowohl für den Generator als auch für den Multiskalen-Diskriminator ein scharnierbasierter (engl. hinge-based) adverser Verlust [63] [41] verwendet. Der adversarische Verlust ist somit gegeben als: , -l - D(x t ))], (12)

Um den GAN-Verlust zu verbessern, wurde in [57] der auf dem Diskriminator basierende Feature-Matching-Verlust verwendet. Insbesondere wird der gleiche Verlust bei der Merkmalsübereinstimmung verwendet, um sicherzustellen, dass das generierte Bild x t ein ähnliches natürliches Aussehen hat wie das Stilbild x s . Dies geschieht durch die Extraktion von Merkmalen auf mehreren Ebenen aus dem Diskriminator für das übersetzte synthetische Bild und das Stilbild und den Abgleich dieser Zwischenmerkmale. Für einen Diskriminator D k werden die Merkmale aus der j-ten Schicht als ^bezeichnet, dann kann der Merkmalsverlust wie folgt beschrieben werden: wobei T die Gesamtzahl der Schichten im Diskriminator ist D k und Nj die Anzahl der Merkmale in jeder Schicht bezeichnet.

Kornia [46] ist eine Open-Source-Bibliothek, die differenzierbare Computer- Vision- Funktionen implementiert, die in Deep-Learning-Modellen verwendet werden können. Mithilfe ihres Kantendetektionsfilters wird die Ausgabe des Inhalts x c und übersetzten x t Bildes mit Hilfe einer LI Verlustfunktion verglichen.

In Anlehnung an [26, 39, 45] wird die Relaxed Earth Mover Distance (REMD) als der Stilverlust zwischen x t und x s adaptiert. Die paarweise Kosinus-Abstandsmatrix C t j definiert, wie weit die hochrangigen Merkmale in x t von einem hochrangigen Merkmal in x s entfernt sind. Diese Verlustfunktion stellt nicht nur sicher, dass der Stil des übersetzten Bildes dem Stilbild ähnlich ist, sondern überträgt auch die Strukturinformationen des Inhaltsbildes gut auf das übersetzte Bild.

Die Gesamtverlustfunktion ist gegeben als:

^edge^- , eg (. x t’ X c') T

^remd^- , ‘e'md(. x t> x s

(16) wobei fm , X edge u ncl emd die Hyperparameter sind, die die Bedeutung ihrer jeweiligen Verlustfunktionen definieren.

In Fig. 4 ist ein Workflow für den Stiltransfer 300 mit weiteren Einzelheiten visualisiert. Dabei werden wie schon voranstehend beschrieben ein ermitteltes Luftbild 420 und ein reales Satellitenbild 412 verwendet, um ein Stiltransfer-Modell 500 zu trainieren. Darüber hinaus ist auch ein bereits beschriebener Diskriminator 601 und eine Loss-Funktion 602 gezeigt. In Fig. 6 sind die Elemente der Architektur des entwickelten Netzwerkes beim Siltransfer 300 näher visualisiert. Das Bezugszeichen 701 bezeichnet dabei einen Encoder-Restblock (engl. encoder residual block) und das Bezugszeichen 702 bezeichnet einen Decoder-Restblock (engl. decoder residual block).

In Fig. 7 sind schematisch Verfahrensschritte gemäß einem Ausführungsbeispiel der Erfindung dargestellt. Das Verfahren 100 kann dabei zum Trainieren eines Maschinenlern- Modells 400, insbesondere Super-Resolution Modells, zur Erhöhung einer Auflösung basierend auf Bildern einer ersten Kategorie (z.B. Satellitenbilder, Radarbilder, Lidarbilder, thermische Bilder etc.) 410 vorgesehen sein. Gemäß einem ersten Verfahrensschritt 101 erfolgt hierbei ein Ermitteln von Bildern einer zweiten Kategorie (z.B. Luftbilder, Radarbilder, Lidarbilder, thermische Bilder etc.) 420, wobei die Bilder der zweiten Kategorie 420 aus einer Aufzeichnung durch ein Aufzeichnungsmittel (z.B. durch eine Kamera 2) resultieren. Anschließend kann gemäß einem zweiten Verfahrensschritt 102 ein Produzieren von künstlichen Bildern der ersten Kategorie (z.B. künstliche Satellitenbilder) 411 basierend auf den Bildern der zweiten Kategorie 420 und einem Stiltransfer 300 durchgeführt werden. Damit ist es möglich, in einem dritten Verfahrensschritt 103 das Maschinenlern-Modell 400 basierend auf den künstlichen Bildern der ersten Kategorie 411 zu trainieren. Es ist möglich, dass ferner reale Bilder der ersten Kategorie 412 ermittelt werden, wobei die realen Bilder der ersten Kategorie 412 aus einer Aufzeichnung durch ein Aufzeichnungsmittel (z.B. bei realen Satellitenbildern durch einen Satelliten 3) resultieren. Der Stiltransfer 300 ermöglicht es hierbei, dass ein Stil der realen Bilder der ersten Kategorie 412 auf die Bilder der zweiten Kategorie 420 oder umgekehrt übertragen wird, um die künstlichen Bilder der ersten Kategorie 411 zu produzieren. Hierbei können die künstlichen Bilder der ersten Kategorie 411 mit einem Inhalt, insbesondere mit abgebildeten Objekten 450, der Bilder der zweiten Kategorie 420 und dem Stil der realen Bilder der ersten Kategorie 412 produziert werden.

Ebenfalls visualisiert ist ein Verfahren 200 zur Erhöhung einer Auflösung basierend auf Bildern einer ersten Kategorie (z.B. Satellitenbilder etc.) 410. Das Verfahren 200 umfasst zumindest die Schritte eines Ermittelns 201 von realen Bildern der ersten Kategorie 412, wobei die realen Bilder der ersten Kategorie 412 aus einer Aufzeichnung durch ein Aufzeichnungsmittel (z.B. durch einen Satelliten 3 etc.) resultieren, sowie eines Erhöhens 202 einer Auflösung der Bilder der ersten Kategorie 410 durch eine Anwendung eines Maschinenlern-Modells 400, wobei das Maschinenlern-Modell 400 gemäß dem Verfahren 100 trainiert ist.

Außerdem ist ein Verfahren 300 für einen Stiltransfer visualisiert, umfassend die nachfolgenden Schritte: Zunächst erfolgt ein Bereitstellen 301 eines Stiltransfer-Modells 500, wobei das Stiltransfer-Modell 500 auf Basis von Bildern einer ersten Kategorie 410 für den Stiltransfer eines Stils von Bildern der ersten Kategorie 410 trainiert wurde. Anschließend kann ein Bereitstellen 302 von Bildern einer zweiten Kategorie 420 vorgesehen sein, wobei die Bilder der zweiten Kategorie 420 aus einer Aufzeichnung durch ein Aufzeichnungsmittel (z.B. bei Luftbildern durch eine Kamera 2, bei Radarbildern durch einen Radarsensor etc.) resultieren. Sodann kann ein Anwenden 303 des Stiltransfer-Modells 500 mit den ermittelten Bildern der zweiten Kategorie 420 als Eingabe durchgeführt werden, um daraus künstliche Bilder der ersten Kategorie 411 mit in den Bildern der zweiten Kategorie 420 dargestellten Objekten 450 in einem Stil der Bilder der ersten Kategorie 410 auszugeben.

Gemäß Ausführungsvarianten der Erfindung kann außerdem wenigstens eine in Fig. 7 schematisch dargestellte Vorrichtung 1 zur Datenverarbeitung vorgesehen sein, welche Mittel zur Ausführung der Schritte eines Verfahrens 100, 200, 300 umfasst. Die Vorrichtung 1 kann konkret als ein Computer 1 ausgeführt sein. Dargestellt ist ebenfalls ein Computerprogramm 5 umfassend Befehle, die bei der Ausführung des Programms durch den Computer 1 diesen veranlassen, die Schritte eines Verfahrens 100, 200, 300 auszuführen.

Auch wenn einige Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, ist es klar, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, wobei ein Element oder eine Vorrichtung einem Verfahrensschritt oder einem Merkmal eines Verfahrensschritts entspricht. Analog dazu stellen Aspekte, die im Zusammenhang mit einem Verfahrensschritt beschrieben werden, auch eine Beschreibung eines entsprechenden Blocks oder Elements oder Merkmals einer entsprechenden Vorrichtung dar.

Ausführungsformen der Erfindung können auf einem Computersystem implementiert werden. Bei dem Computersystem kann es sich um ein lokales Computergerät (z. B. Personalcomputer, Laptop, Tablet-Computer oder Mobiltelefon) mit einem oder mehreren Prozessoren und einem oder mehreren Speichergeräten handeln oder um ein verteiltes Computersystem (z. B. ein Cloud-Computersystem mit einem oder mehreren Prozessoren und einem oder mehreren Speichergeräten, die an verschiedenen Orten verteilt sind, z. B. bei einem lokalen Client und/oder einer oder mehreren entfernten Serverfarmen und/oder Datenzentren). Das Computersystem kann jede beliebige Schaltung oder Kombination von Schaltungen umfassen. In einer Ausführungsform kann das Computersystem einen oder mehrere Prozessoren beliebiger Art umfassen. Der hier verwendete Begriff "Prozessor" kann jede Art von Rechenschaltung bezeichnen, z. B. einen Mikroprozessor, einen Mikrocontroller, einen CISC-Mikroprozessor (Complex Instruction Set Computing), einen RISC-Mikroprozessor (Reduced Instruction Set Computing), einen VLIW-Mikroprozessor (Very Long Instruction Word), einen Grafikprozessor, einen digitalen Signalprozessor (DSP), einen Mehrkernprozessor, ein FPGA (Field Programmable Gate Array) oder jede andere Art von Prozessor oder Verarbeitungsschaltung. Andere Arten von Schaltkreisen, die im Computersystem enthalten sein können, können ein kundenspezifischer Schaltkreis, ein anwendungsspezifischer integrierter Schaltkreis (ASIC) oder ähnliches sein, wie z. B. ein oder mehrere Schaltkreise (z. B. ein Kommunikationsschaltkreis) zur Verwendung in drahtlosen Geräten wie Mobiltelefonen, Tablet-Computern, Laptop-Computern, Zwei-Wege- Funkgeräten und ähnlichen elektronischen Systemen. Das Computersystem kann eine oder mehrere Speichervorrichtungen enthalten, die ein oder mehrere für die jeweilige Anwendung geeignete Speicherelemente umfassen können, wie z. B. einen Hauptspeicher in Form eines Direktzugriffsspeichers (RAM), eine oder mehrere Festplatten und/oder ein oder mehrere Laufwerke, die Wechseldatenträger wie Compact Disks (CD), Flash-Speicherkarten, digitale Videodisks (DVD) und dergleichen verarbeiten. Das Computersystem kann auch ein Anzeigegerät, einen oder mehrere Lautsprecher und eine Tastatur und/oder ein Steuergerät enthalten, das eine Maus, einen Trackball, einen Touchscreen, ein Spracherkennungsgerät oder ein anderes Gerät umfassen kann, das es einem Systembenutzer ermöglicht, Informationen in das Computersystem einzugeben und Informationen von ihm zu empfangen.

Einige oder alle Verfahrensschritte können von einer Vorrichtung wie einem Hardware-Gerät (oder unter Verwendung eines solchen) ausgeführt werden, wie z. B. einem Prozessor, einem Mikroprozessor, einem programmierbaren Computer oder einer elektronischen Schaltung. In einigen Ausführungsformen können einige oder mehrere der wichtigsten Verfahrensschritte von einem solchen Gerät ausgeführt werden.

Abhängig von bestimmten Implementierungsanforderungen können Ausführungsformen der Erfindung in Hardware oder in Software implementiert werden. Die Implementierung kann unter Verwendung eines nicht-übertragbaren Speichermediums wie eines digitalen Speichermediums, beispielsweise einer Diskette, einer DVD, einer Blu-Ray, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers erfolgen, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem Zusammenwirken (oder Zusammenwirken können), so dass das jeweilige Verfahren durchgeführt wird. Daher kann das digitale Speichermedium computerlesbar sein.

Einige Ausführungsformen der Erfindung umfassen einen Datenträger mit elektronisch lesbaren Steuersignalen, die in der Lage sind, mit einem programmierbaren Computersystem zusammenzuarbeiten, so dass eines der hier beschriebenen Verfahren durchgeführt wird.

Im Allgemeinen können Ausführungsformen der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert werden, wobei der Programmcode zur Durchführung eines der Verfahren dient, wenn das Computerprogrammprodukt auf einem Computer läuft. Der Programmcode kann zum Beispiel auf einem maschinenlesbaren Träger gespeichert sein.

Andere Ausführungsformen umfassen das Computerprogramm zur Durchführung eines der hier beschriebenen Verfahren, das auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten, eine Ausführungsform der vorliegenden Erfindung ist daher ein Computerprogramm mit einem Programmcode zur Durchführung eines der hierin beschriebenen Verfahren, wenn das Computerprogramm auf einem Computer läuft.

Eine weitere Ausführungsform der vorliegenden Erfindung ist daher ein Speichermedium (oder ein Datenträger oder ein computerlesbares Medium), auf dem das Computerprogramm zur Durchführung eines der hierin beschriebenen Verfahren gespeichert ist, wenn es von einem Prozessor ausgeführt wird. Der Datenträger, das digitale Speichermedium oder das aufgezeichnete Medium sind typischerweise greifbar und/oder nicht-übertragbar. Eine weitere Ausführungsform der vorliegenden Erfindung ist ein Gerät, wie hierin beschrieben, mit einem Prozessor und dem Speichermedium.

Eine weitere Ausführungsform der Erfindung ist ein Datenstrom oder eine Folge von Signalen, die das Computerprogramm zur Durchführung eines der hierin beschriebenen Verfahren darstellen. Der Datenstrom bzw. die Signalfolge kann beispielsweise so ausgestaltet sein, dass er bzw. sie über eine Datenkommunikationsverbindung, z.B. über das Internet, übertragen werden kann.

Eine weitere Ausführungsform umfasst ein Verarbeitungsmittel, z. B. einen Computer oder ein programmierbares Logikgerät, das so konfiguriert oder angepasst ist, dass es eines der hierin beschriebenen Verfahren durchführen kann.

Eine weitere Ausführungsform umfasst einen Computer, auf dem das Computerprogramm zur Durchführung eines der hierin beschriebenen Verfahren installiert ist.

Eine weitere Ausführungsform der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das so konfiguriert ist, dass sie bzw. es ein Computerprogramm zur Durchführung eines der hierin beschriebenen Verfahren an einen Empfänger überträgt (z. B. auf elektronischem oder optischem Weg). Bei dem Empfänger kann es sich beispielsweise um einen Computer, ein mobiles Gerät, ein Speichergerät oder dergleichen handeln. Die Vorrichtung oder das System kann zum Beispiel einen Dateiserver zur Übertragung des Computerprogramms an den Empfänger umfassen.

In einigen Ausführungsformen kann eine programmierbare Logikvorrichtung (z. B. ein feldprogrammierbares Gate-Array) verwendet werden, um einige oder alle Funktionen der hier beschriebenen Verfahren auszuführen. In einigen Ausführungsformen kann ein feldprogrammierbares Gate-Array mit einem Mikroprozessor Zusammenarbeiten, um eines der hier beschriebenen Verfahren durchzuführen. Im Allgemeinen werden die Verfahren vorzugsweise von einem beliebigen Hardware-Gerät durchgeführt.

REFERENZEN:

[1 ] Mahmoud Afifi. Semantic white balance: Semantic color constancy using convolutional neural network. arXiv preprintarXiv:1802.00153, 2018. 4

[2] Mahmoud Afifi and Michael S Brown. What else can fool deep learning? addressing color constancy errors on deep neural network performance. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 243-252, 2019. 4

[3] Youssef Alami Mejjati, Christian Richardt, James Tompkin, Darren Cosker, and Kwang In Kim. Unsupervised attention-guided image-to-image translation. Advances in neural information processing systems, 31 , 2018. 2

[4] Ivan Anokhin, Pavel Solovev, Denis Korzhenkov, Alexey Kharlamov, Taras Khakhulin, Aleksei Silvestrov, Sergey Nikolenko, Victor Lempitsky, and Gleb Sterkin. High-resolution daytime translation without domain labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7488-7497, 2020. 3

[5] Tian Qi Chen and Mark Schmidt. Fast patch-based style transfer of arbitrary style. arXiv preprint arXiv:1612.04337, 2016. 3

[6] Ying-Cong Chen, Xiaogang Xu, and Jiaya Jia. Domain adaptive image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5274-5283, 2020. 3

[7] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8789-8797, 2018. 3

[8] Sidonie Christophe, Samuel Mermet, Morgan Laurent, and Guillaume Touya. Neural map style transfer exploration with gans. International Journal of Cartography, 8(1 ):18-36, 2022. 3

[9] Chao Dong, Chen Change Loy, and Xiaoou Tang. Accelerating the super-resolution convolutional neural network. In European conference on computer vision, pages 391-407. Springer, 2016. 4 [10] Alexei A Efros and William T Freeman. Image quilting for texture synthesis and transfer. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 341-346, 2001. 3

[11] Alexei A Efros and Thomas K Leung. Texture synthesis by non-parametric sampling. In Proceedings of the seventh IEEE international conference on computer vision, volume 2, pages 1033-1038. IEEE, 1999. 3

[12] Michael Elad and Peyman Milanfar. Style transfer via texture synthesis. IEEE Transactions on Image Processing, 26(5):2338-2351 , 2017. 3

[13] Swetava Ganguli, Pedro Garzon, and Noa Glaser. Geogan: A conditional gan with reconstruction and style loss to generate standard layer of maps from satellite images. arXiv preprint arXiv:1902.05611 , 2019. 3

[14] Yuzhen Gao, Youdong Ding, Fei Wang, and Huan Liang. Attentional colorization networks with adaptive group-instance normalization. Information, 11 (10):479, 2020. 1

[15] Leon Gatys, Alexander S Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. Advances in neural information processing systems, 28, 2015. 3

[16] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2414-2423, 2016. 3

[17] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks.

Communications of the ACM, 63(11 ):139-144, 2020. 1 , 3

[18] Mingming He, Dongdong Chen, Jing Liao, Pedro V Sander, and Lu Yuan. Deep exemplar-based colorization. ACM Transactions on Graphics (TOG), 37(4):1 — 16, 2018. 1

[19] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, pages 1501-1510, 2017. 3, 6

[20] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1125-1134, 2017. 1 , 2 [21] Somi Jeong, Youngjung Kim, Eungbean Lee, and Kwanghoon Sohn. Memory-guided unsupervised image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6558-6567, 2021. 3

[22] Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, and Chen Change Loy. Tsit: A simple and versatile framework for image-to-image translation. In European Conference on Computer Vision, pages 206-222. Springer, 2020. 2, 3, 5, 6

[23] Yongcheng Jing, Xiao Liu, Yukang Ding, Xinchao Wang, Errui Ding, Mingli Song, and Shilei Wen. Dynamic instance normalization for arbitrary style transfer. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 4369-4376, 2020.

[24] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In European conference on computer vision, pages 694-71 1 . Springer, 2016. 3

[25] Yuhao Kang, Song Gao, and Robert E Roth. Transferring multiscale map styles using generative adversarial networks. International Journal of Cartography, 5(2-3):115-141 , 2019. 3

[26] Nicholas Kolkin, Jason Salavon, and Gregory Shakhnarovich. Style transfer by relaxed optimal transport and self-similarity. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10051-10060, 2019. 7

[27] Dmytro Kotovenko, Artsiom Sanakoyeu, Sabine Lang, and Bjorn Ommer. Content and style disentanglement for artistic style transfer. In Proceedings of the IEEE/CVF international conference on computer vision, pages 4422-4431 , 2019. 3

[28] Kumarapu Laxman, Shiv Ram Dubey, Baddam Kalyan, and Satya Raj Vineel Kojjarapu. Efficient high-resolution image-to-image translation using multi-scale gradient u-net. arXiv preprint arXiv:2105.13067, 2021. 2

[29] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al. Photorealistic single image super-resolution using a generative adversarial network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4681-4690, 2017. 4 [30] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In Proceedings of the European conference on computer vision (ECCV), pages 35-51 , 2018. 3

[31] Junsoo Lee, Eungyeup Kim, Yunsung Lee, Dongjun Kim, Jaehyuk Chang, and Jaegul Choo. Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5801-5810, 2020. 1 , 2

[32] Juncheng Li, Zehua Pei, and Tieyong Zeng. From beginner to master: A survey for deep learning-based single-image super-resolution. arXiv preprint arXiv:2109.14335, 2021. 4

[33] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Diversified texture synthesis with feed-forward networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3920-3928, 2017. 3

[34] Jie Liang, Hui Zeng, and Lei Zhang. High-resolution photorealistic image translation in real-time: A laplacian pyramid translation network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9392-9400, 2021. 2, 3

[35] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 136-144, 2017. 4

[36] Zinan Lin, Vyas Sekar, and Giulia Fanti. Why spectral normalization stabilizes gans: Analysis and improvements. Advances in neural information processing systems, 34:9625- 9638, 2021. 5

[37] Alexander H Liu, Yen-Cheng Liu, Yu-Ying Yeh, and Yu-Chiang Frank Wang. A unified feature disentangler for multi-domain image translation and manipulation. Advances in neural information processing systems, 31 , 2018. 3

[38] Yahui Liu, Marco De Nadai, Jian Yao, Nicu Sebe, Bruno Lepri, and Xavier Alameda- Pineda. Gmm-unit: Unsupervised multi-domain and multi-modal image-to-image translation via attribute gaussian mixture modeling. arXiv preprint arXiv:2003.06788, 2020. 3

[39] Xuan Luo, Zhen Han, Lingkang Yang, and Lingling Zhang. Consistent style transfer. arXiv preprint arXiv:2201 .02233, 2022. 5, 6, 7 [40] Javier Mar'in and Sergio Escalera. Sssgan: Satellite style and structure generative adversarial networks. Remote Sensing, 13(19):3984, 2021. 3

[41] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018. 5, 7

[42] Jongchan Park, Joon-Young Lee, Donggeun Yoo, and In So Kweon. Distort-and- recover: Color enhancement using deep reinforcement learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5928-5936, 2018. 4

[43] Taesung Park, Alexei A Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired image-to-image translation. In European conference on computer vision, pages 319-345. Springer, 2020. 3

[44] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 2337-2346, 2019. 2, 5, 6, 7

[45] Ting Qiu, Bingbing Ni, Ziang Liu, and Xuanhong Chen. Fast optimal transport artistic style transfer. In International Conference on Multimedia Modeling, pages 37-49. Springer, 2021. 7

[46] Edgar Riba, Dmytro Mishkin, Daniel Ponsa, Ethan Rublee, and Gary Bradski. Kornia: an open source differentiable computer vision library for pytorch. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 3674-3683, 2020.

7

[47] Divya Saxena and Jiannong Cao. Generative adversarial networks (gans) challenges, solutions, and future directions. ACM Computing Surveys (CSUR), 54(3):1— 42, 2021. 5

[48] Fabian Schenkel, Stefan Hinz, and Wolfgang Middelmann. Style transfer-based domain adaptation for vegetation segmentation with optical imagery. Applied Optics, 60(22):F109- F117, 2021. 3

[49] Lu Sheng, Ziyi Lin, Jing Shao, and Xiaogang Wang. Avatar-net: Multi-scale zero-shot style transfer by feature decoration. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8242-8250, 2018. 3 [50] Hao Tang, Song Bai, and Nicu Sebe. Dual attention gans for semantic image synthesis. In Proceedings of the 28th ACM International Conference on Multimedia, pages 1994-2002, 2020. 2

[51] Hao Tang, Dan Xu, Nicu Sebe, Yanzhi Wang, Jason J Corso, and Yan Yan. Multichannel attention selection gan with cascaded semantic guidance for cross-view image translation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 2417-2426, 2019. 2

[52] Chunwei Tian, Lunke Fei, Wenxian Zheng, Yong Xu, Wangmeng Zuo, and Chia-Wen Lin. Deep learning on image denoising: An overview. Neural Networks, 131 :251-275, 2020. 4

[53] Dmitry Ulyanov, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture networks: Feed-forward synthesis of textures and stylized images. arXiv preprint arXiv:1603.03417, 2016. 3

[54] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 6

[55] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Improved texture networks: Maximizing quality and diversity in feedforward stylization and texture synthesis. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6924-6932, 2017. 3

[56] Chao Wang, Haiyong Zheng, Zhibin Yu, Ziqiang Zheng, Zhaorui Gu, and Bing Zheng. Discriminative region proposal adversarial networks for high-quality image-to-image translation. In Proceedings of the European conference on computer vision (ECCV), pages 770-785, 2018. 2

[57] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8798-8807, 2018. 2, 7

[58] Xintao Wang, Liangbin Xie, Chao Dong, and Ying Shan. Real-esrgan: Training real- world blind super-resolution with pure synthetic data. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1905-1914, 2021. 4 [59] Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Yu Qiao, and Chen Change Loy. Esrgan: Enhanced super-resolution generative adversarial networks. In Proceedings of the European conference on computer vision (ECCV) workshops, pages 0-0, 2018. 4

[60] Chunxue Xu and Bo Zhao. Satellite image spoofing: Creating remote sensing dataset with generative adversarial networks (short paper). In 10th International conference on geographic information science (GIScience 2018). Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2018. 3

[61] Xu Yin, Yan Li, and Byeong-Seok Shin. Dagan: A domain-aware method for image-to- image translations. Complexity, 2020, 2020. 2

[62] Xiaoming Yu, Yuanqi Chen, Shan Liu, Thomas Li, and Ge Li. Multi-mapping image-to- image translation via learning disentanglement. Advances in Neural Information Processing Systems, 32, 2019. 3

[63] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In International conference on machine learning, pages 7354-7363. PMLR, 2019. 7

[64] Kaihao Zhang, Wenqi Ren, Wenhan Luo, Wei-Sheng Lai, Bjorn Stenger, Ming-Hsuan Yang, and Hongdong Li. Deep image deblurring: A survey. arXiv preprint arXiv:2201 .10700, 2022. 4

[65] Pan Zhang, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. Cross-domain correspondence learning for exemplar-based image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5143-5153, 2020. 2

[66] Yulun Zhang, Kunpeng Li, Kai Li, Lichen Wang, Bineng Zhong, and Yun Fu. Image super-resolution using very deep residual channel attention networks. In Proceedings of the European conference on computer vision (ECCV), pages 286-301 , 2018. 5, 6

[67] Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, and Yun Fu. Residual dense network for image super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2472-2481 , 2018. 4 [68] Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, and Yun Fu. Residual dense network for image super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2472-2481 , 2018. 5

[69] Yuzhi Zhao, Lai-Man Po, Kwok-Wai Cheung, Wing-Yin Yu, and Yasar Abbas Ur Rehman. Scgan: saliency map-guided colorization with generative adversarial network. IEEE Transactions on Circuits and Systems for Video Technology, 31 (8):3062-3077, 2020. 1

[70] Xingran Zhou, Bo Zhang, Ting Zhang, Pan Zhang, Jianmin Bao, Dong Chen, Zhongfei Zhang, and Fang Wen. Cocosnet v2: Full-resolution correspondence learning for image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11465-11475, 2021. 2

[71] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pages 2223-2232, 2017. 1

[72] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. Advances in neural information processing systems, 30, 2017. 2

LISTE DER BEZUGSZEICHEN

1 Vorrichtung

2 Kamera

3 Satellit

5 Computerprogramm

100 Trainingsverfahren

101 Ermitteln

102 Produzieren

103 Trainieren

200 Anwendungsverfahren

201 Ermitteln

202 Erhöhen

300 Stiltransfer

301 Bereitstellen

302 Ermitteln

303 Anwenden

400 Maschinenlern-Modell

401 trainiertes Super Resolution Modell

410 Satellitenbild

411 künstliches Satellitenbild

412 Reales Satellitenbild

413 Verbessertes Satellitenbild

420 Luftbild, Luftbilder

450 Objekte

500 Stiltransfer-Modell

501 gepaarter Datensatz

601 Diskriminator

602 Reconstruction Loss

701 Encoder-Restblock

702 Decoder-Restblock