Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR EVALUATING A STATISTICALLY DISTRIBUTED MEASURED VALUE IN THE EXAMINATION OF AN ELEMENT OF A PHOTOLITHOGRAPHY PROCESS
Document Type and Number:
WIPO Patent Application WO/2020/008021
Kind Code:
A1
Abstract:
The invention relates to a method (900) for evaluating a statistically distributed measured value (100, 300, 350) in the examination of an element (810) for a photolithography process, comprising the following steps: (a) using a plurality of parameters (730) in a trained model of machine learning (700), the parameters (730) characterizing a state of a measurement environment (880) in a time period associated with a measurement of the measured value (100, 300, 350); and (b) executing the trained model of machine learning (700) in order to evaluate the measured value (100, 300, 350).

Inventors:
SEIDEL DIRK (DE)
FREYTAG ALEXANDER (DE)
WOJEK CHRISTIAN (DE)
TÖPFER SUSANNE (DE)
SCHMIDT CARSTEN (DE)
HUSEMANN CHRISTOPH (DE)
Application Number:
PCT/EP2019/068067
Publication Date:
January 09, 2020
Filing Date:
July 05, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZEISS CARL SMT GMBH (DE)
International Classes:
G03F7/20; G03F1/84; G06N3/02
Domestic Patent References:
WO2017194289A12017-11-16
WO2017087653A22017-05-26
WO2017117568A12017-07-06
WO2017120253A12017-07-13
WO2017123555A12017-07-20
WO2017123561A12017-07-20
WO2017117573A12017-07-06
WO2017205537A12017-11-30
Foreign References:
DE102007047924B42013-03-21
DE102018211099A2018-07-05
DE102007047924B42013-03-21
Other References:
SCHMITT-WEAVER EMIL ET AL: "Overlay improvements using a real time machine learning algorithm", VISUAL COMMUNICATIONS AND IMAGE PROCESSING; 20-1-2004 - 20-1-2004; SAN JOSE,, vol. 9050, 2 April 2014 (2014-04-02), pages 90501S - 90501S, XP060030988, ISBN: 978-1-62841-730-2, DOI: 10.1117/12.2046914
Attorney, Agent or Firm:
WEGNER, Hans et al. (DE)
Download PDF:
Claims:
Ansprüche

1. Verfahren (900) zum Bewerten eines statistisch verteilten Messwertes (100, 300, 350) beim Untersuchen eines Elements (810) für einen Photolithographieprozess mit den folgenden Schritten: a. Verwenden mehrerer Parameter (730) in einem trainierten Modell maschi- nellen Lernens (700), wobei die Parameter (730) einen Zustand einer Messumgebung (880) in einem mit einer Messung des Messwertes (100,

300, 350) zugeordneten Zeitraum charakterisieren; und b. Ausführen des trainierten Modells maschinellen Lernens (700) zum Bewer- ten des Messwertes (100, 300, 350).

2. Verfahren (900) nach dem vorhergehenden Anspruch, wobei das Bewerten des Messwertes (100, 300, 350) auf der Basis eines Gütekriteriums (740) erfolgt.

3. Verfahren (900) nach dem vorhergehenden Anspruch, wobei das Gütekriterium (740) zumindest ein Element aus der Gruppe umfasst: einen Schwellenwert (380) bezüglich eines Erwartungswertes einer dem Messwert (100, 300, 350) zugeord- neten statistischen Verteilung, eine Zuordnung zu einem Bereich von mehreren für die statische Verteilung des Messwertes (100, 300, 350) vorgegebenen Berei- chen, und eine Abweichung des Messwertes (100, 300, 350) vom Erwartungswert der statistischen Verteilung.

4. Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei das Bewerten des Messwertes (100, 300, 350) vor einer geplanten Messung erfolgt, und ferner den Schritt aufweisend: Nichtausführen der geplanten Messung des Messwertes (100, 300, 350), wenn das Gütekriterium (740) in dem mit der geplanten Mes- sung des Messwertes (100, 300, 350) zugeordneten Zeitraum nicht erfüllt ist.

5. Verfahren (900) nach dem vorhergehenden Anspruch, ferner den Schritt aufwei- send: Verschieben der geplanten Messung bis das Gütekriterium (740) in dem mit der geplanten Messung des Messwertes (100, 300, 350) zugeordneten Zeit- raum erfüllt ist.

6. Verfahren (900) nach einem der Ansprüche 2-4, wobei das Bewerten des Mess- wertes (100, 300, 350) nach dessen Messung erfolgt, und ferner den Schritt auf- weisend: Verwerfen des Messwertes (100, 300, 350), falls das Gütekriterium (740) in dem mit der geplanten Messung des Messwertes (100, 300, 350) zuge- ordneten Zeitraum nicht erfüllt war.

7. Verfahren (900) nach einem der vorhergehenden Ansprüche, ferner den Schritt aufweisend: Erzeugen einer Vertrauensaussage zu dem Messwert (100, 300,

350).

8. Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei die charakte- risierenden Parameter (730) zwei oder mehr Elemente aus der Gruppe umfassen: Temperatur der Messumgebung (880), Druck der Messumgebung (880), Luft- feuchtigkeit der Messumgebung (880), Brechungsindex der Messumgebung (880), Fokusposition einer Vorrichtung (800) zum Messen des Messwertes (100, 300, 350), Wellenlänge eines optischen System (885) der Vorrichtung (800), Be- lichtungsintensität des optischen Systems (885) der Vorrichtung (800); Belich- tungseinstellung des optischen Systems (885) der Vorrichtung (800), Kohärenz- grad des optischen Systems (885) der Vorrichtung (800), Detektor- Einstellungen der Vorrichtung (800), Einstellungen eines oder mehrerer Interferometer (820) der Vorrichtung (800), Einstellungen eines oder mehrerer Dämpfungssysteme der Vorrichtung (800), und Einstellungen eines oder mehrerer Antriebe der Vor- richtung (800).

9. Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei die charakte- risierenden Parameter (730) eine zeitliche Entwicklung ihrer Zahlenwerte umfas sen.

10. Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei der Mess- wert (100, 300, 350) mehrere Messaufnahmen umfasst.

11. Verfahren (900) nach dem vorhergehenden Anspruch, wobei die mehreren Mess- aufnahmen zumindest einen geänderten charakterisierenden Parameter (730) umfassen.

12. Verfahren (900) nach dem vorhergehenden Anspruch, wobei zumindest einer der charakterisierenden Parameter (730) zumindest eine Kenngröße seiner statischen Verteilung während der mehreren Messaufnahmen für den Messwert (100, 300,

350) umfasst.

13· Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei das Modell maschinellen Lernens (600, 700) zumindest ein Element aus der Gruppe um- fasst: einen Kemdichteschätzer, ein statistisches Modell, einen Entscheidungs- baum, ein lineares Modell, ein zeitinvariantes Modell, eine nächste-Nachbar- Klassifikation, und einen k-nächste-Nachbar-Algorithmus sowie deren nichtline- are Erweiterungen mit nichtlinearen Merkmalstransformationen. 14. Verfahren (900) nach dem vorhergehenden Anspruch, wobei das Modell maschi- nellen Lernens (600) zwei oder mehr verschiedene Modelltypen maschinellen Lernens der Gruppe umfasst.

15· Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei ein Trai- ningsdatensatz zum Trainieren des Modells maschinellen Lernens (600) Daten- paare umfasst: charakterisierende Parameter (630) eines i-ten Messwertes (100, 300, 350) an einer j-ten Position des Elements (810) des Photolithographiepro- zesses und das Gütekriterium (640) des i-ten Messwertes (100, 300, 350) an der j-ten Position des Elements (810) des Photolithographieprozesses.

16. Computerprogramm, das Anweisungen umfasst, die, wenn sie von einem Compu- tersystem ausgeführt werden, das Computersystem veranlassen, die Verfahrens- schritte nach einem der Ansprüche 1 bis 15 auszuführen.

17. Vorrichtung (800) zum Bewerten eines statistisch verteilten Messwertes (100, 300, 250) bei einer Untersuchung eines Elements (810) für einen Photolithogra- phieprozess aufweisend: a. Mittel zum Verwenden mehrerer Parameter (730) in einem trainierten Mo- dell maschinellen Lernens (700), wobei die Parameter (730) einen Zustand einer Messumgebung (880) in einem mit einer Messung des Messwertes (100, 300, 350) zugeordneten Zeitraum charakterisieren; und b. Mittel zum Ausführen des trainierten Modells maschinellen Lernens (700) zum Bewerten des Messwertes (100, 300, 350).

18. Vorrichtung (800) nach dem vorhergehenden Anspruch, ferner aufweisend: Mit- tel zum Ausführen der Messung.

19. Vorrichtung (800) nach dem vorhergehenden Anspruch, wobei das Mittel zum Ausführen der Messung umfasst: eine Quelle zum Erzeugen eines Teilchenstrahls (825) und einen Detektor (835) zum Nachweis von von dem Element (810) des Photolithographieprozesses herkommender Teilchen.

20. Vorrichtung (800) nach einem der Ansprüche 17-19, ferner aufweisend: Mittel zum Bestimmen der charakterisierenden Parameter (730) und/oder Mittel zum Ändern der charakterisierenden Parameter (730).

Description:
Verfahren und Vorrichtung zum Bewerten eines statistisch verteilten Messwertes beim Untersuchen eines Elements eines

Photolithographieprozesses

Die vorliegende Anmeldung beansprucht die Priorität der deutschen Patentanmeldung DE 10 2018 211 099.9 vom 5. Juli 2018, deren gesamter Inhalt hiermit durch Bezug- nahme Teil der vorliegenden Offenbarung gemacht wird.

1. Technisches Gebiet

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verbessern der Messgenauigkeit von Messvorrichtungen, die im Bereich der Halbleiterindustrie eingesetzt werden. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und eine Vorrichtung zum Bewerten eines statistisch verteilten Messwertes beim Untersu- chen eines Elements eines Photolithographieprozesses.

2. Stand der Technik

Als Folge der wachsenden Integrationsdichte in der Halbleiterindustrie müssen Photo- lithographiemasken zunehmend kleinere Strukturen auf Wafer abbilden. Die fort- schreitende Miniaturisierung von Strukturen auf Wafern und damit auch auf den zur Belichtung der Wafer benutzten Pattern-tragenden Elementen, wie etwa photolitho- graphische Masken oder Templates für die Nanoimprint-Lithographie, hat weitrei- chende Auswirkungen auf die Inspektion, die Metrologie und die Verifikation der Pat- tern-tragenden Elemente. Moderne Messvorrichtungen oder Tools, die zur Überwa- chung und Reparatur von photolithographischen Masken, Templates und/oder Wafern während deren Herstellungsprozessen eingesetzt werden, sind sehr komplex, um den extrem hohen Anforderungen an die Genauigkeit der Halbleiterindustrie Rechnung zu tragen.

Beispiele solcher Messvorrichtungen für den Herstellungsprozess von photolithogra- phischen Masken, Photomasken oder einfach Masken sind Inspektions-Tools zur De- tektion von auf Photomasken vorhandenen Defekten, Metrologie-Tools zur Messung der kritischen Dimension (CD) und von Platzierungsfehlem von Pattern-Elementen (etwa ein WLCD-Tool oder ein PROVE ® -Tool), Verifikations-Tools zum Bestimmen, ob ein Defekt einer Maske auf einem Wafer sichtbar ist (etwa ein AIMS™-Tool), Masken- reparatur-Tools (beispielsweise ein MeRiT®-Tool) und Phasenmessungs-Tools.

In einem neuen Ansatz wird derzeit versucht, mehrere Herausforderungen bei der Qua- litätsbewertung von Photomasken mit Hilfe eines Modells maschinellen Lernens (ML) anzugehen. Beispielhaft für diese Herangehensweise seien die nachfolgenden Doku- mente genannt: WO 2017 / 087653 Ai, WO 2017 / 117568 Ai, WO 2017 / 120 253 Ai, WO 2017 / 123 555 Ai, WO 2017 / 123 561 Ai, WO 2017 / 117573 Ai, WO 2017 / 123 555 Ai und WO 2017/ 205 537 Ai.

Die Patentschrift DE 10 2007924 B4 beschreibt ein Verfahren zur automatischen De- tektion von Fehlmessungen mittels Qualitätsfaktoren unmittelbar nach deren Messung. Die detektierte Fehlmessung wird verworfen und durch eine neue Messung ersetzt, die die Qualitätsfaktoren erfüllt.

Das Aufstellen der Qualitätsfaktoren einer Messung für die oben erwähnten hochpräzi- sen Messvorrichtungen ist ein komplexer Prozess, da der Zusammenhang zwischen den Qualitätsfaktoren und der dazugehörigen Messung für hochpräzise, komplexe Tools in der Regel nicht bekannt ist.

Der vorliegenden Erfindung liegt daher das Problem zu Grunde, ein Verfahren und eine Vorrichtung anzugeben, die die Messgenauigkeit von Messvorrichtungen steigern und die oben beschriebenen Nachteile zumindest zum Teil vermeiden.

3. Zusammenfassung der Erfindung

Gemäß einem Aspekt der vorliegenden Erfindung wird dieses Problem durch ein Ver- fahren nach Anspruch 1 und eine Vorrichtung nach Anspruch 17 gelöst. In einer Aus- führungsform umfasst das Verfahren zum Bewerten eines statistisch verteilten Mess- wertes beim Untersuchen eines Elements für einen Photolithographieprozess die fol- genden Schritte: (a) Verwenden mehrerer Parameter in einem trainierten Modell ma- schinellen Lernens, wobei die Parameter einen Zustand einer Messumgebung in einem einer Messung des Messwertes zugeordneten Zeitraum charakterisieren; und (b) Aus- führen des trainierten Modells maschinellen Lernens zum Bewerten des Messwertes. Das erfindungsgemäße Verfahren ermöglicht es auf der Basis die Messumgebung cha- rakterisierender Parameter automatisch vor, während oder nach einer Messung anzu- zeigen, wie ein geplanter oder ein aufgenommener Messwert in seiner statistischen Verteilung positioniert sein wird bzw. ist. Damit kann die Signifikanz eines Messwertes bereits vor, während oder unmittelbar nach seiner Messung bewertet werden. Durch das Einleiten von geeigneten Gegenmaßnahmen ermöglicht das erfindungsgemäße Ver- fahren somit eine bedeutende Steigerung der Messgenauigkeit von hochpräzisen kom- plexen Messvorrichtungen.

Das erfindungsgemäße Verfahren kann beliebige unbekannte Zusammenhänge zwi- schen den Messdaten und den die Messumgebung charakterisierenden Parametern erfassen und zum Bewerten von Messwerten ausnutzen. Dies ist ein entscheidender Vorteil des hier beschriebenen Verfahrens, da bei sehr genauen, komplexen Messvor- richtungen die Kausalität zwischen Messdaten einerseits und den die Messumgebung charakterisierenden Parametern in aller Regel nicht bekannt ist.

Im Idealfall sollte der Messwert und die die Messumgebung charakterisierenden Para- meter zum gleichen„Zeitpunkt“ gemessen werden. In einer realen Messvorrichtung findet eine Messung eines Messwertes nicht zu einem Zeitpunkt, sondern innerhalb eines Zeitintervalls statt. Dies bedeutet, der Messung oder der Aufnahme eines Mess- wertes ist ein Zeitraum zugeordnet oder die Messung oder die Aufnahme eines Mess- wertes ist mit einem Zeitraum korreliert. Die charakterisierenden Parameter sollten die Messumgebung innerhalb des der Messung zugeordneten Zeitraumes charakterisieren. Dies bedeutet jedoch nicht, dass für jeden charakterisierenden Parameter innerhalb des korrelierten Zeitraums eine Messung ausgeführt werden muss. Ein charakterisierender Parameter, der einer schnellen Variation unterliegt, sollte innerhalb des einer geplan- ten Messung zugeordneten Zeitraumes ein oder sogar mehrere Male gemessen werden. Hingegen kann es für einen charakterisierenden Parameter, der nur einer langsamen Drift unterliegt, ausreichend sein, eine Messung in einem Zeitintervall auszuführen, das größer ist als der der geplanten Messung zugeordnete Zeitraum.

Das Bewerten des Messwertes kann auf der Basis eines Gütekriteriums erfolgen. Das Gütekriterium kann zumindest ein Element aus der Gruppe umfassen: einen Schwel- lenwert bezüglich eines Erwartungswertes einer dem Messwert zugeordneten statisti- schen Verteilung, eine Zuordnung zu einem Bereich von mehreren für die statische Verteilung des Messwertes vorgegebenen Bereichen und eine Abweichung des Mess- wertes vom Erwartungswert der statistischen Verteilung.

Ein Gütekriterium kann einen Messwert klassifizieren. Die Klassifizierung des Mess- wertes kann binär sein, d.h. ein Messwert erfüllt eine Anforderung oder nicht. Eine binäre Klassifikation eines Messwertes kann auf der Basis eines Schwellenwertes erfol- gen. Die Klassifizierung kann aber auch eine Multiklassen-Zuordnung eines Messwer- tes umfassen, d.h. ein Messwert kann das Gütekriterium beispielsweise sehr gut, gut zufriedenstellend oder nicht erfüllen. Zudem ist es möglich, dass das Gütekriterium einen Güteparameter in Form einer stetigen Funktion definiert. Der Güteparameter kann normiert sein oder kann nicht normiert sein. Es ist eine Zielsetzung eines erfindungsgemäßen Verfahrens, eine Vorhersage über eine relative Wiederholgenauigkeit einer Messung zu ermöglichen.

Das Bewerten des Messwertes kann vor einer geplanten Messung erfolgen, und das erfindungsgemäße Verfahren kann ferner den Schritt aufweisen: Nichtausführen der geplanten Messung des Messwertes, wenn das Gütekriterium in dem der geplanten Messung des Messwertes zugeordneten Zeitraum nicht erfüllt ist.

Es ist ein gewichtiger Vorteil des in dieser Anmeldung beschriebenen Verfahrens, dass bereits vor dem Ausführen einer Messung bestimmt werden kann, ob die Messumge- bung zum geplanten Messzeitpunkt in einem für das Ausführen einer Messung günsti- gen Zustand ist oder nicht. Dadurch wird es möglich, die Messgenauigkeit einer Vor- richtung zu steigern und gleichzeitig den Messaufwand nur geringfügig zu vergrößern, werden doch später zu verwerfende Messwerte erst gar nicht generiert. Das oben definierte Verfahren kann ferner den Schritt aufweisen: Verschieben der ge- planten Messung bis das Gütekriterium in dem der geplanten Messung des Messwertes zugeordneten Zeitraum erfüllt ist. Aus Effizienzgründen ist es günstiger nur verwertbare Messungen auszuführen, anstatt unbrauchbare Messwerte nachträglich zu identifizieren, zu verwerfen und durch eine neue Messung zu ersetzen.

Das Bewerten des Messwertes kann nach dessen Messung erfolgen, und das erfin- dungsgemäße Verfahren kann ferner den Schritt aufweisen: Verwerfen des Messwertes, falls das Gütekriterium in dem der geplanten Messung des Messwertes zugeordneten Zeitraum nicht erfüllt war.

Es ist auch möglich, das in dieser Anmeldung vorgestellte Verfahren so auszuführen, dass zunächst eine Messung ausgeführt wird und danach der aufgenommene Messwert analysiert oder bewertet wird.

Das trainierte oder angelernte Modell maschinellen Lernens kann mit der Messung oder Datenaufnahme einer Messvorrichtung mitlaufen und ständig alle wesentlichen charakterisierenden Parameter überwachen, d.h. messen. Die charakterisierenden Pa- rameter werden dem trainierten Modell maschinellen Lernens als Eingangsdaten be- reitgestellt und das trainierte Modell prädiziert einen Wert oder einen Zahlenwert für das Gütekriterium. Die Aussage des trainierten Modells kann dann benutzt werden, um die Messung eines Messwertes auszulösen oder zu verschieben. Die Ausgabe des Güte- kriteriums durch das Modell maschinellen Lernens kann dazu führen, dass eine Mess- vorrichtung den zuletzt aufgenommenen Messwert verwirft und eine erneute oder eine Wiederholungsmessung ausführt.

Das erfindungsgemäße Verfahren kann ferner den Schritt aufweisen: Erzeugen einer Vertrauensaussage zum Messwert. Die Vertrauensaussage kann zusammen mit dem Messwert der Messvorrichtung übergeben werden.

Die Vertrauensaussage spiegelt wieder, wie verlässig das ML-Modell seine Ausgabeda- ten einschätzt. Beispielsweise würde ein Messwert, der mit einer Vertrauensaussage von 95% als ein Ausreißer bewertet ist, zu einem Verwerfen dieses Messwertes führen. Hingegen würde eine Einschätzung, der Messwert erfülle zu 51% das Gütekriterium, je nach Anwendungsfall behalten oder neu gemessen werden. Ein erfindungsgemäßes Verfahren kann sowohl eine Aussage über das Erfüllen oder Nichterfüllen des Gütekri- teriums als auch eine Vertrauensaussage zum Gütekriterium prädizieren. Es ist aber auch möglich, die Vertrauensaussage nachträglich und extern von dem Modell maschi- nellen Lernens aus dessen Ausgabedaten zu ermitteln. Ein Merkmal des Elements für einen Photolithographieprozess kann ein Pattern-

Element einer Photomaske oder eines Wafers umfassen und/oder eine Ausrichtungs- markierung der Photomaske oder des Wafers.

Die Vertrauensaussage des Messwertes häng beispielsweiset von der Art einer Beleuch- tung des der Messung zugrundeliegenden Merkmals ab. Dies bedeutet, eine Messung eines Pattern-Elements und/oder einer Ausrichtungsmarkierung einer Photomaske in Reflexion (d.h. Auflicht) oder in Transmission (d.h. Durchlicht) beeinflusst die Ver- trauensaussage des gemessenen Pattern-Elements und/oder der gemessenen Ausrich- tungsmarkierung.

Ferner kann die Vertrauensaussage des Messwertes unabhängig von der Beleuchtungs- intensität und/oder einer Messposition auf dem Element für den Photolithogra- phieprozess sein. Zudem kann das erfindungsgemäße Verfahren den Schritt aufweisen: Erzeugen einer Warnung und/oder einer Fehlermeldung durch die Messvorrichtung aufgrund der Ver- trauensaussage eines oder mehrerer Messwerte. Damit kann das ML-Modell anzeigen, dass es die Situation nicht verlässlich einschätzen kann. Ein menschlicher Experte kann aufgrund der ausgegebenen Warnung und/oder Fehlermeldung in den Prozess eingreifen.

Das erfindungsgemäße Verfahren kann den Schritt aufweisen: Stoppen der Messvor- richtung aufgrund der Vertrauensaussage eines oder mehrerer Messwerte. Durch den Abbruch der weiteren Messdatenaufnahme durch die Messvorrichtung kann das Gene- rieren wertloser Messwerte vermieden werden.

Die charakterisierenden Parameter können zwei oder mehr Elemente aus der Gruppe umfassen: Temperatur der Messumgebung, Druck der Messumgebung, Luftfeuchtig- keit der Messumgebung, Brechungsindex der Messumgebung, Fokusposition einer Vorrichtung zum Messen des Messwertes, Wellenlänge eines optischen Systems der Vorrichtung, Belichtungsintensität des optischen Systems der Vorrichtung, Belich- tungseinstellung des optischen Systems der Vorrichtung, Kohärenzgrad des optischen Systems der Vorrichtung, Detektor- Einstellungen der Vorrichtung, Einstellungen eines oder mehrerer Interferometer der Vorrichtung, Einstellungen eines oder mehrerer

Dämpfungssysteme der Vorrichtung, und Einstellungen eines oder mehrerer Antriebe der Vorrichtung.

Die die Messumgebung charakterisierenden Parameter umfassen sowohl die Umge- bungsbedingungen am Messort bzw. in der unmittelbaren Umgebung des Messortes als auch die Einstellungen der Messvorrichtung, die die Messung durchführt.

Die charakterisierenden Parameter können eine zeitliche Entwicklung ihrer Zahlenwer- te umfassen.

Die charakterisierenden Parameter können nicht nur Messwerte oder Zahlenwerte in dem einer Messung zugeordneten Zeitbereich umfassen, sondern können die zurück- liegende Entwicklung ihrer Zahlenwerte in das oben erläuterte Verfahren einbringen. Das Berücksichtigen der zeitlichen Entwicklung der Zahlenwerte der charakterisieren- den Parameter kann zu einem verbesserten Bewerten eines vorhandenen und/oder eines noch zu messenden Messwertes beitragen.

Der Messwert kann mehrere Messaufnahmen umfassen. Die mehreren Messaufnah- men können zumindest einen geänderten charakterisierenden Parameter umfassen.

Ein Messwert kann das mehrmalige Messen, beispielsweise einer Position eines Pat- tern-Elements und/oder einer Kritischen Dimension (CD) an einer bestimmten Stelle einer photolithographischen Maske umfassen. Die Messdaten der sukzessiven Messun- gen oder Messaufnahmen werden dann zu einem Messwert oder Messpunkt kombi- niert. Falls ein Messwert mehrere Messaufnahmen umfasst, ist der mit einer Messung korrelierte oder zugeordnete Zeitbereich typischerweise deutlich größer, verglichen mit dem einem Messwert zugeordneten oder korrelierten Zeitbereich, wenn der Messwert auf einer einzigen Messung basiert. Das mehrmalige Messen kann unter im Wesentlichen identischen Bedingungen erfol- gen, d.h. ohne absichtliches Ändern eines der die Messumgebung charakterisierenden Parameters. Es ist aber auch möglich, dass für die einzelnen Messaufnahmen einer o- der mehrere der charakterisierenden Parameter in definierter Weise geändert werden. Beispielsweise kann die Belichtungseinstellung, eine Fokuseinstellung und/oder ein Kohärenzgrad der Belichtung einer Stelle einer Photomaske für die einzelnen Messauf- nahmen individuell eingestellt werden.

Die mehreren Messaufnahmen können das Messen eines Fokusstapels umfassen. Fer- ner kann die Vertrauensaussage des Messwertes des Fokusstapels unabhängig von ei- ner Anzahl der Aufnahmen des Fokusstapels sein.

Zumindest einer der charakterisierenden Parameter kann zumindest eine Kenngröße seiner statischen Verteilung während der mehreren Messaufnahmen für den Messwert umfassen.

Falls, wie oben beschrieben, das Aufnehmen eines Messwertes das mehrmalige Messen einer Größe umfasst, unterliegen die charakterisierenden Parameter in dem Zeitraum des Ausführens der Messaufnahmen einer statistischen Schwankung. Anstatt in dem Zeitraum der Messaufnahmen die charakterisierenden Parameter nur stichpunktartig zu bestimmen, ist es auch möglich, die charakterisierenden Parameter in dem Zeitin- tervall mehrmalig, beispielsweise periodisch, zu messen und die statische Verteilung der gemessenen Zahlenwerte in dem Zeitintervall zu ermitteln. Dadurch kann die Ge- nauigkeit der charakterisierenden Parameter erhöht werden.

Das Modell maschinellen Lernens kann zumindest ein Element aus der Gruppe umfas- sen: einen Kerndichteschätzer, ein statistisches Modell, einen Entscheidungsbaum, ein lineares Modell, ein zeitvariantes Modell, eine nächste-Nachbar-Klassifikation, und ein k-nächste-Nachbar-Algorithmus (engl.: k-nearest-neighbor algorithm) sowie deren nichtlineare Erweiterungen mit nichtlinearen Merkmalstransformationen.

Ein Kerndichteschätzer (englisch: kernel density estimation, KDE) ermöglicht eine ste- tige Schätzung einer unbekannten Wahrscheinlichkeitsverteilung auf der Basis von Stichproben. Kerndichteschätzer können beispielsweise einen Gauß-Kern, einen Cauchy-Kern, einen Picard- Kern oder einen Epanechnikov-Kern umfassen, wobei die enthaltenen Kernel-Parameter des Modells maschinellen Lernens, wie etwa die Band- breite für alle Eingabeparameter gemeinsam oder individuell belegt oder geschätzt werden können. Allgemein kann jede Ähnlichkeitsfunktion eingesetzt werden, die die vorliegenden Eingabeparameter zu einer validen Kernfunktion führt.

Das statistische Modell kann zumindest eine Mischverteilung umfassen. Eine Misch- verteilung kann ein Element aus der Gruppe umfassen: eine Gaußsche Mischverteilung (GMM, Gaussian mixture model), eine multivariante Normalverteilung und eine kate- gorische Mischverteilung. Die geeignete Anzahl der Mischverteilungen hängt von den vorliegenden Daten ab und kann mit Hilfe eines Validierungsdatensatzes optimiert werden.

Der Entscheidungsbaum (englisch: DT, decision tree) kann zumindest ein Element aus der Gruppe umfassen: einen herkömmlichen Entscheidungsbaum (DT), einen rando- misierten Entscheidungsbaum (RDT) und einen Entscheidungswald (englisch: DF, decision forrest) sowie dessen randomisierte Variante (RDF). Bei RDTs und RDFs kön- nen das Ausmaß oder das„Level“ der Randomisierung variieren. Es können je Knoten alle oder nur eine zufällige Auswahl an möglichen Entscheidungen im Training vorlie- gen. Es können je Blatt eines Entscheidungsbaumes alle oder nur eine Teilmenge der bis dorthin vorliegenden Trainingsbeispiele genutzt werden.

Das lineare Modell kann zumindest ein Element aus der Gruppe umfassen: eine latente Dirichlet-Allokation (englisch: LDA, latent Dirichlet allocation), eine Support Vector Machine (SVM), eine logistische Regression, eine Methode der kleinsten Quadrate (least square estimation), eine Lasso-Regression, eine Ridge-Regression, und ein Perzeptron. Ein vorteilhaftes Anwenden eines linearen Modells erfordert eine Normie- rung der Eingabedaten und der Trainingsdaten. Das Modell maschinellen Lernens kann eine die nichtlineare Erweiterung einer SVM in Form einer Kernel Support Vector Machine umfassen. Ferner kann das Modell maschi- nellen Lernens eine nichtlineare Erweiterung der Gaußschen Mischverteilung in Form einer Gaußschen Prozessregression umfassen. Das Modell maschinellen Lernens kann zudem ein tiefes neuronales Netz (englisch: DNN, deep neural network) umfassen. io

Das zeitvariante Modell kann zumindest ein Element aus der Gruppe umfassen: ein rekurrentes neuronales Netz und ein Hidden Markov Modell. In einem alternativen Ausführungsbeispiel kann ein zeitvariantes Modell durch ein zeitinvariantes Modell nachgebildet werden, indem die Parameter einer früheren Messung dem zeitinvarian- ten Modell als Eingabedaten zur Verfügung gestellt werden.

Zeitvariante oder zeitabhängige Modelle maschinellen Lernens ermöglichen es, den zeitlichen Verlauf der die Messumgebung charakterisierenden Parameter zu berück- sichtigen.

Bei rekurrenten neuronalen Netzen (RNN) gehen die Ausgaben einer Schicht als zu- sätzliche Eingaben zu einem späteren Zeitpunkt in die gleiche Schicht ein. Eine bevor- zugte Ausführungsform von RMMs sind LSTM- (Long Short-Term Memoiy) Netze.

Ferner kann das Modell maschinellen Lernens zwei oder mehr verschiedenen Modell- typen maschinellen Lernens der oben angegebenen Gruppe umfassen. Ein Modell ma- schinellen Lernens, das ein Ensemble oder eine Gruppe mehrerer verschiedener Mo delltypen oder mehrerer Lernalgorithmen nutzt, kann in der Regel bessere Ergebnisse erreichen als ein ML-Modell, das auf einem einzigen Modelltyp oder Lernalgorithmus beruht. Die Berechnung der Ergebnisse der Anzahl der verschiedenen Modelltypen dauert typischerweise länger als die Auswertung eines einzelnen Typs eines ML- Modells. Dafür kann jedoch bereits mit einer geringeren Rechentiefe ein Ergebnis er- reicht werden, das einem ML-Modell mit einem ML-Modelltyp oder einem Lemalgo- rithmus entspricht.

Die Vorhersagen der verschiedenen Bestandteile der Kombination können gleich ge- wichtet zur Vorhersage des Modells maschinellen Lernens beitragen. Die Vorhersagen der verschiedenen ML-Modelltypen können gewichtet zur Vorhersage des Modells ma- schinellen Lernens beitragen.

Ein Modell maschinellen Lernens, das eine Gruppe verschiedener ML-Modelltypen umfasst, kann in der Trainingsphase inkrementell aufgebaut werden, indem jedem neu der Gruppe hinzugefügten Modelltyp insbesondere die Trainingsdaten vorgelegt wer- den, die die bisherigen Modelltypen der Gruppe nicht oder nur schlecht Vorhersagen konnten.

Die Auswahl der zwei oder mehr verschiedenen ML-Modelltypen eines Modells ma- schinellen Lernens kann mit Hilfe von automatisiertem maschinellen Lernen (Automa- ted Machine Learning oder AutoML) erfolgen.

Das Optimieren der Hyperparameter des Modells maschinellen Lernens und/oder der verschiedenen ML-Modelltypen des Modells maschinellen Lernens kann ebenfalls mit Hilfe von automatisiertem maschinellen Lernen erfolgen. Hyperparameter von Model- len maschinellen Lernens sind Modellparameter, die vor Beginn der Trainingsphase für das Modell maschinellen Lernens festgelegt werden.

Ein Trainingsdatensatz zum Trainieren des Modells maschinellen Lernens kann Da- tenpaare umfassen: charakterisierende Parameter eines i-ten Messwertes und das Gü- tekriterium des i-ten Messwertes.

Ein Trainingsdatensatz zum Trainieren des Modells maschinellen Lernens kann Da- tenpaare umfassen: charakterisierende Parameter eines i-ten Messwertes an einer j-ten Position des Elements des Photolithographieprozesses und das Gütekriterium des i-ten Messwertes an der j-ten Position des Elements des Photolithographieprozesses.

Wie bereits oben ausgeführt, kann das Gütekriterium das Erfüllen einer Schwellenbe- dingung für den Messwert, eine Zuordnung des Messwertes zu einem Bereich oder ei- ner Klasse von mehreren Bereichen oder Klassen oder einen Zahlenwert einer stetigen Funktion umfassen.

Das erfindungsgemäße Verfahren kann ferner den Schritt aufweisen: Anpassen des trainierten Modells maschinellen Lernens an eine Modifikation der Messvorrichtung, die die Messung ausführt.

Nach einer Wartung und/oder einem Teiletausch der Messvorrichtung kann das trai- nierte Modell maschinellen Lernens durch einen Re-Learning- Prozess mit einem neuen oder zweiten Trainingsdatensatz an die modifizierte Messvorrichtung angepasst wer- den.

Überdies kann das erfindungsgemäße Verfahren den Schritt aufweisen: Anpassen des trainierten Modells maschinellen Lernens an eine ortsspezifische Aufstellung der Messvorrichtung.

Ein trainiertes Modell kann mit Hilfe eines zweiten Trainingsdatensatzes an eine orts- spezifische Aufstellung einer Messvorrichtung angepasst werden. Der Aufwand für ei- nen Adaptionsprozess bzw. einen Re-Learning-Prozesses hängen von der gewählten Realisierung des Modells maschinellen Lernens ab. Beispielsweise kann es für einen Adaptionsprozess notwendig sein, auch die Trainingsdaten des ersten Trainingsdaten- satzes vorrätig zu haben und dem Re-Learning-Prozess zur Verfügung zu stellen. Fer- ner ist der Aufwand bzw. der Rechenaufwand von der für das Modell maschinellen Lernens gewählten Realisierung abhängig.

Ein Computerprogramm kann Anweisungen umfassen, die, wenn sie von einem Com- putersystem ausgeführt werden, das Computersystem veranlassen, die Verfahrens- schritte eines der oben beschriebenen Verfahren auszuführen.

In einer Ausführungsform weist die Vorrichtung zum Bewerten eines statistisch verteil- ten Messwertes bei einer Untersuchung eines Elements für einen Photolithogra- phieprozess auf: (a) Mittel zum Verwenden mehrerer Parameter in einem trainierten Modell maschinellen Lernens, wobei die Parameter einen Zustand einer Messumge- bung in einem einer Messung des Messwertes zugeordneten Zeitraums charakterisie- ren; und (b) Mittel zum Ausführen des trainierten Modells maschinellen Lernens zum Bewerten des Messwertes.

Die erfindungsgemäße Vorrichtung kann ferner Mittel zum Ausführen der Messung ausweisen.

Das Mittel zum Ausführen der Messung kann umfassen: eine Quelle zum Erzeugen eines Teilchenstrahls und einen Detektor zum Nachweis von von dem Element des Photolithographieprozesses herkommender Teilchen. Der Teilchenstrahl kann zumindest ein Element aus der Gruppe umfassen: einen Pho- tonenstrahl, einen Elektronenstrahl, einen Ionenstrahl, einen Atomstrahl und einen Molekülstrahl, und/oder der Detektor kann zumindest ein Element aus der Gruppe umfassen: einen Photomultiplier, eine Photodiode, eine Avalanche-Photodiode, eine

CCD-Kamera und einen Röntgenstrahl-Detektor.

Die erfindungsgemäße Vorrichtung kann ferner Mittel zum Bestimmen der charakteri- sierenden Parameter und/oder Mittel zum Ändern der charakterisierenden Parameter umfassen.

Zudem kann die erfindungsgemäße Vorrichtung Mittel zum Verschieben der geplanten Messung und/oder Mittel zum Verwerfen eines Messwertes aufweisen. Das Element des Photolithographieprozesses kann zumindest ein Element aus der Gruppe umfassen: eine photolithographische Maske, ein Template für die Nano- imprint-Lithographie und einen Wafer.

4. Beschreibung der Zeichnungen

In der folgenden detaillierten Beschreibung werden derzeit bevorzugte Ausführungs- beispiele der Erfindung unter Bezugnahme auf die Zeichnungen beschrieben, wobei

Fig. l eine beispielhafte statistische Verteilung von Messwerten an einer Position auf einem Element eines Photolithographieprozesses wiedergibt;

Fig. 2 ein Histogramm zur in der Fig. l dargestellten Verteilung der Messwerte präsentiert; Fig. 3 die statistische Verteilung der Fig. 1 nach dem Einführen einer Schwellen- bedingung zum Identifizieren von Ausreißern der Messwerte zeigt;

Fig. 4 ein Histogramm der Fig. 3 nach dem Entfernen der Messausreißer darstellt, die die Schwellenbedingung nicht erfüllen; Fig. 5 einen Satz charakterisierender Parameter zeigt, der zu der in der Fig. l dar- gestellten Verteilung von Messwerten gehört und in dem die in der Fig. 3 identifizierten Messausreißer gekennzeichnet sind;

Fig. 6 schematisch einen Trainingsprozess eines Modells maschinellen Lernens veranschaulicht;

Fig. 7 schematisch das Ausführen eines Modells maschinellen Lernens illustriert;

Fig. 8 schematisch einige Komponenten einer Messvorrichtung präsentiert; und

Fig. 9 ein Flussdiagramm eines Verfahrens zum Bewerten eines statisch verteilten

Messwertes beim Untersuchen eines Elements für einen Photolithogra- phieprozess zeigt.

5. Detaillierte Beschreibung bevorzugter Ausführungsbeispiele

Im Folgenden werden derzeit bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Vorrichtung anhand des Bewertens von Mess- werten einer photolithographischen Maske genauer erläutert. Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung können zum Bewerten von Messwer- ten aller Arten von transmittierenden und reflektierenden Photomasken eingesetzt werden. Darüber hinaus können das erfindungsgemäße Verfahren und die erfindungs- gemäße Vorrichtung auch zum Bewerten von Messwerten eingesetzt werden, die von einem Template für die Nanoimprint-Lithographie und/oder einem Wafer stammen. Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung sind jedoch nicht auf das Anwenden auf Elemente für eines Photolithographieprozesses be- schränkt. Vielmehr können diese generell zum Bewerten der Messwerte von hochpräzi- sen Messvorrichtungen eingesetzt werden, die eine große Menge von Messdaten lie fern, so dass damit ein Modell maschinellen Lernens trainiert werden kann.

Die Fig. 1 zeigt ein Beispiel einer statistischen Verteilung eines Messwertes 100 an einer spezifischen Position einer photolithographischen Maske. Im Detail präsentiert die Fig. 1 1000 Wiederholungen der Messung eines Messpunktes 100 an einer j-ten Stelle der Photomaske, d.h. N=iooo. Über die Photomaske können beispielsweise 200 Messstel- len verteilt werden, d.h. M=200. Die M Messpunkte können in einem regelmäßigen Gitter über die photolithographische Maske verteilt sein. Günstiger ist es jedoch, die M Messpunkte auf Pattern-Elemente und/oder Ausrichtungsmarkierungen der Photo- maske zu verteilen. In dem in der Fig. 1 dargestellten Beispiel werden die M über die Photomaske verteilten Messpunkte nacheinander gemessen. Nachdem alle M Mess- punkte einmal gemessen wurden, wird dieser Vorgang N-mal wiederholt. Die Abszisse der Fig. 1 stellt somit eine zeitliche Entwicklung des Messwertes 100 an einer j-ten Stel- le der photolithographischen Maske während eines Messprozesses dar.

Auf der Ordinate der Fig. 1 sind die Messwerte 100 s j (i) an der j-ten Position als Diffe- renz zum Erwartungswert oder Mittelwert <S j >der statistischen Verteilung dargestellt. In dem in der Fig. 1 dargestellten Beispiel gilt: i<i<N=iooo und i<j<M=200. Zusätz- lieh sind die Messwerte 100 S j (i) normiert auf eine Standardabweichung o=S j (i)-<S j > vom Erwartungswert oder Mittelwert <S j > dargestellt, d.h. S j,N (i) = (s j (i) - < S j > )/s.

Die Fig. 2 zeigt ein aus der statistischen Verteilung des Messwertes 100 s j (i) bzw. S j,N (i) abgeleitetes Histogramm. Aus der Fig. 2 kann ein 3o-Wert, d.h. ein Intervall der stati- sehen Verteilung, in der bei einer Normalverteilung 99,73% aller Messwerte 100 liegen, von 30=3 abgeleitet werden.

Die Fig. 3 zeigt nochmals die Fig. 3, bei der bei einer normierten Abweichung von ±20 eine gestrichelte Linie 380 eingezeichnet ist. Die gestrichelten Linien 380 realisieren eine Schwellenbedingung für einen Messwert 100 s j (i) bzw. Sj,N(i). Messwerte 100 der statistischen Verteilung, die innerhalb ±2o-Intervalls liegen, werden als verwertbare Messwerte 300 betrachtet und Messwerte 100, die außerhalb des ±2o-Intervalls liegen, werden als Ausreißer 350 betrachtet und verworfen. Bei einer Vorgehensweise werden beim Vorliegen einer Normalverteilung 95,45% aller Messwerte 100 als„gut“ klassifi- ziert und die außerhalb der gestrichelten Linien liegenden 4,55% der Messwerte wer- den als„schlecht“ eingestuft. In dem in der Fig. 3 dargestellten Beispiel liegen von 1000 Messwerten 100 49 Messwerte 350 außerhalb des ±2o-Bereichs oder Intervalls. Die Fig. 4 präsentiert ein Histogramm für die innerhalb des Bereichs von ±20 liegen- den Messwerte 300 der statistischen Verteilung der Messwerte 100 s j (i) der Fig. 1. Der maximale Messfehler der Messwerte 300 s j (i) oder Si, N (i) wurde durch das Beseitigen der Ausreißer 350 von 30=3 in der Fig. 1 auf 30=2 in der Fig. 3 reduziert.

Die Figuren 1 bis 4 veranschaulichen, dass es im Nachgang zu einer Messung immer möglich ist, aufgrund einer statistischen Analyse aller Messwerte 100 zu entscheiden, was Ausreißer 350 in der statistischen Verteilung der aufgenommenen Messwerte 100 S j (i) sind und so die Auswertung einer Messung und damit die Genauigkeit einer Mess- vorrichtung zu optimieren. Das in dieser Anmeldung beschriebene Verfahren weist nun den Vorteil auf, bereits vor oder während dem Ausführen einer geplanten Messung die Entscheidung zu ermöglichen, ob eine geplante Messung einen„guten“ Messwert 300, d.h. einen verwertbaren Messwert 300 oder aber einen„schlechten“ Messwert 350, d.h. einen Ausreißer liefern 350 wird. Dadurch kann die Messgenauigkeit einer Messvor- richtung beträchtlich erhöht werden, ohne den Durchsatz der Messvorrichtung nen- nenswert zu beeinträchtigen.

Die Fig. 5 präsentiert einen Satz charakterisierender Parameter P j (i), der zu der in der Fig. 1 dargestellten statistischen Verteilung von Messwerten s j (i) gehört. Die Fig. 5 prä- sentiert ein Beispiel eines möglichen zeitlichen Verlaufs charakterisierender Parameter P j (i). In dem Satz der charakterisierenden Parameter P j (i) sind die Ausreißer 350 der Fig. 5, ähnlich wie in der Fig. 3 durch„Quadrate“ gekennzeichnet.

Wie aus der Fig. 5 zu entnehmen ist, sind alle die während des Messens der Messwerte S j (i) oder S j,N (i) die Messumgebung charakterisierenden Parameter P j (i) mit der Kenn- zeichnung oder Annotation„gut“, nämlich innerhalb des ±2o-Intervall liegend, oder „schlecht“, nämlich außerhalb dieses Bereichs liegend, versehen. Das Gütekriterium, d.h. im Beispiel der Fig. 4 die verwendete Schwellenbedingung zum Separieren von „guten“ und„schlechten“ Messwerten kann so gewählt werden, dass nur sehr wenige Messwerte als Ausreißer zu charakterisieren sind. Dadurch wird die Messgenauigkeit der Messvorrichtung nur geringfügig verbessert; dafür wird die Zeitdauer zum Ausfüh- ren der Messung durch die Vorrichtung nur wenig erhöht. Es ist aber auch möglich, das Gütekriterium so festzulegen, dass die Messgenauigkeit der Messvorrichtung deutlich gesteigert werden kann. Diese Verbesserung erfolgt auf Kosten der Messzeitdauer für die Messung der statistischen Verteilung der Messwerte s j (i).

Das Gütekriterium kann neben einer Schwellenbedingung, d.h. einer binären Klassifi- kation, wie in den Figuren l bis 5 dargestellt, auch eine Multiklassen-Klassifikation umfassen (in der Fig. 3 nicht gezeigt). Ferner kann das Gütekriterium in Form einer stetigen Funktion realisiert werden (in der Fig. 3 nicht dargestellt). Es ist vorteilhaft, sowohl das Modell maschinellen Lernens als auch das Gütekriterium an das zu lösende Problem anzupassen.

Das Diagramm 690 der Fig. 6 zeigt schematisch das Trainieren eines Modells maschi- nellen Lernens 600 oder eines ML-Modells 600. Bevor das ML-Modell 600 die Lage eines Messpunktes 100, 300, 350 innerhalb seiner statistischen Verteilung aus den die Messumgebung charakterisierenden Parametern prädizieren kann, muss das ML- Modell 600 mit einem umfangreichen Datensatz oder Trainingsdatensatz für diese Aufgabe angelernt oder trainiert werden. Zur Erzeugung der Trainingsdaten werden lange, gleichartige Messreihen einer Messvorrichtung durchgeführt. Beispielsweise wird eine Photomaske oder ein Wafer mit einer Messvorrichtung etwa einem Registra- tion-Tool (z.B. PROVE®) n-mal immer wieder gleichartig vermessen, wobei n so groß gewählt werden muss, dass sich die relevanten charakterisierenden Parameter der

Messvorrichtung während des Messprozesses signifikant ändern. Ferner ist es möglich, während der Aufnahme von Trainingsdaten die Messumgebung und damit die charak- terisierenden Parameter systematisch zu variieren, um für Trainingszwecke eine mög- lichst repräsentative Datenbasis zu erzeugen.

Der Trainingsdatensatz umfasst die zum Training verwendeten charakterisierenden Parameter 630 und das zu den zum Training verwendeten charakterisierenden Para- metern 630 zugehörige Gütekriterium 640. Die Trainingsdaten werden dem trainie- renden ML-Modell 600 an einer Eingabeschicht 610 bereitgestellt. Das Gütekriterium 640 gibt eine Klassifizierung der zum Training verwendeten charakterisierenden Pa- rameter 630 an, d.h. gibt im einfachsten Fall an, ob die zum Training verwendeten cha- rakterisierenden Parameter 630 eine Schwellenbedingung 380 erfüllen oder nicht er- füllen. Während der Trainingsphase generiert das trainierende oder lernende ML- Modell 600 aus den trainierenden charakterisierenden Parametern 630 und dem zuge- hörigen Gütekriterium 640 eine Vorhersage 650 für das Gütekriterium 640. Das vor- hergesagte Gütekriterium 650 wird mit dem der Messung zugeordneten Gütekriterium 640 verglichen. Dies ist in der Fig. 6 durch den Doppelpfeil 660 veranschaulicht. Das vorhergesagte Gütekriterium 650 stellt das trainierende ML-Modell 600 an seiner Aus- gabeschicht 620 bereit.

Abhängig vom gewählten ML-Modell 600 existieren verschiedene Verfahren zum An- passen der Parameter des ML-Modells 600 in der Trainingsphase. Beispielsweise hat sich für ein DNN (Deep Neuron Network), das typischerweise eine Vielzahl von Para- metern aufweist, die iterative Technik„Stochastic Gradient Descent“ etabliert. Dabei werden die Trainingsdaten dem lernenden ML-Modell 600 immer wieder„vorgelegt“, d.h. dieses berechnet aus den zum Training verwendeten charakterisierenden Parame- tern 630 mit dem seinem aktuellen Parametersatz eine Vorhersage 650 für das Güte- kriterium 640. Anschließend wird der oben angesprochene Vergleich ausgeführt. Erge- ben sich Abweichungen zwischen der Vorhersage 650 des Gütekriteriums 640 und dem tatsächlichen Wert des Gütekriteriums 640, werden die Parameter des lernenden ML- Modells 600 angepasst. Die Trainingsphase endet, wenn ein lokales Optimum erreicht ist, d.h. die Abweichungen des vorhergesagten Gütekriteriums 650 und des tatsächli- chen Gütekriteriums 640 nicht mehr variieren, oder aber ein vorgegebenes Zeitbudget für den Trainingszyklus des lernenden oder trainierenden ML-Modells 600 aufge- braucht ist.

Für die meisten linearen Modelle maschinellen Lernens existieren geschlossene Be- rechnungsvorschriften für eine optimale Belegung der Modellparameter, d.h. die Be- Stimmung der Modellparameter dieser Modelle beruht nicht auf einer iterativen Nähe- rung. Zum Ermitteln der Modellparameter von Entscheidungsbäumen können unter- schiedliche Split-Kriterien ausgewählt werden, wie beispielsweise den Informationsge- winn. Ferner können die Entscheidungsbäume im Nachhinein noch gestutzt werden, zum Beispiel auf eine maximale Tiefe und/oder auf eine maximale Diversität je Blatt. Für Mischmodelle (engl.: mixture model), etwa Gaußsche Mischmodelle wird meist ein Expectation-Maximization-Verfahren oder Algorithmus verwendet. Für Nearest- Neighbor-Modelle ebenso wie wir Parzen-Density-Estimation und Kernel-Regression sin keine Modellparameter zu schätzen, vielmehr werden die Hyperparameter der Kernfunktion optimiert. Die zum Training verwendeten charakterisierenden Parameter 630 können von einer optischen Messvorrichtung stammen, beispielsweise der im Kontext der Fig. 8 zu dis- kutierenden Messvorrichtung 800. Es ist aber auch möglich, das in dieser Anmeldung beschriebene Verfahren für beliebige Messvorrichtungen einzusetzen, die allgemein einen Teilchenstrahl zum Abbilden eines Elements eines Photolithographieprozesses einsetzen. Insbesondere kann das hier erläuterte Verfahren für ein Rasterelektronen- mikroskop und/oder eine Messvorrichtung eingesetzt werden, die einen Ionenstrahl zum Abbilden einer Photomaske oder eines Wafers einsetzt.

Das Diagramm 790 der Fig. 7 veranschaulicht schematisch das Ausführen eines trai- nierten ML-Modells 700, das charakterisierende Parameter 730, die mit einer Messvor- richtung gemessen wurden und das den charakterisierenden Parameters 730 zugeord- nete Gütekriterium 740 in ein vorausgesagtes Gütekriterium 750 für einen Messwert 100, 300, 350 einer mit der Messvorrichtung geplanten Messung transformiert. Die charakterisierenden Parameter 730 und zugeordneten Werte des Gütekriteriums 740 werden dem trainierten ML-Modell 700 über die Eingabeschicht 710 bereitgestellt. Das trainierte Modell maschinellen Lernens 700 liefert an der Ausgabeschicht 720 eine Vorhersage des Gütekriteriums 750 eines Messwertes 100, 300, 350 einer mit der Messvorrichtung geplanten Messung.

Das ML-Modell 700 kann eines der im dritten Abschnitt beschriebenen Modelle um- fassen. Es ist vorteilhaft, aus einer Vielzahl vorhandener generischer ML-Modelle ein Modell auszuwählen, das dem zu lösenden Problem angepasst ist. Ferner ist es günstig, ein ausgewähltes generisches ML-Modell 700 an das zu lösende Problem und die ge- forderte Vorhersagegenauigkeit des Gütekriteriums 750 anzupassen. Die Anpassung des ML-Modells 700 kann beispielsweise durch eine Anpassung der Komplexität der Kernfunktion eines ML-Modells 700 erfolgen. Bei einer ML-Modell mit einer Encoder- Decoder- Architektur kann dies zum Beispiel auch durch eine entsprechende Wahl der Schichtenanzahl des ML-Modell ausgeführt werden. Für ein ML-Modell 700, das bei- spielsweise in Form einer oben beschriebenen Misch form realisiert ist, kann etwa die Anzahl der Blätter in einem RDT oder die Anzahl der Bäume in einem RDF an das zu lösende Problem angepasst werden. Die Fig. 8 zeigt einen Schnitt durch eine schematische Skizze einer Vorrichtung 800 oder einer Messvorrichtung 800, mit welcher Platzierungsfehler von Struktur- oder Pattern-Elementen einer Photomaske und/oder eines Wafers, die kritische Abmessung von Pattern-Elementen, d.h. deren CD (Critical Dimension) von Masken und/oder Wafern, und/oder Überlagerungsfehler oder Overlay-Fehler beim Ausrichten von Mas- ken eines Maskenstapels gemessen werden können. Eine photolithographische Maske 810 oder allgemeiner ein Element 810 eines Photolithographieprozesses wird von ei- nem hochpräzisen Messtisch 805 oder Stage 805 gehalten. In dem in der Fig. 8 darge- stellten Beispiel ist die Photomaske 810 eine reflektierende Maske, beispielweise eine Maske für den extremen ultravioletten (EUV) Wellenlängenbereich. Die Messvorrich- tung 800 kann jedoch auch transmittierende Photomasken 810 vermessen. Der Mess- tisch 8050 wird aktiv in allen sechs Freiheitsgraden von einer Positioniereinrichtung 815 kontrolliert und ist in dem in der Fig. 8 dargestellten Beispiel der einzig bewegliche Teil der Messvorrichtung 800. Die Position des Messtisches 805 in der Ebene der Pho- tomaske 810, die im Folgenden xy-Ebene genannt wird, erfassen ein oder mehrere In- terferometer 820, beispielsweise ein oder mehrere Laser-Interferometer. Ferner kann ein Interferometer 820 zum Bestimmen der Position des Messtisches 805 in der z- Richtung eingesetzt werden (in der Fig. 8 nicht dargestellt). Als Lichtquelle 825 wird in der Messvorrichtung 800 ein Excimer-Laser eingesetzt, der Licht im DUV- (Deep UltraViolet) Wellenlängenbereich erzeugt, beispielsweise ein ArF (Argon-Fluorid) Laser, der bei einer Wellenlänge von 193 nm emittiert. Das Objektiv 830 weist in dem in der Fig. 8 dargestellten Beispiel eine numerische Apertur (NA) von 0,6 auf. Es kann jedoch in der Messvorrichtung 800 ein Objektiv 830 mit größerer NA verwendet werden, um das Auflösungsvermögen der Messvorrichtung 800 zu steigern. Die Laser-Strahlung der Lichtquelle 825 wird durch Bewegen des Messtisches 805 in vertikaler oder z-Richtung auf die Oberfläche der Maske 810 fokussiert. Die Oberseite der Maske 810, die dem Objektiv 830 zugewandte Seite der Maske 810 ist, weist Pat- tern-Elemente auf, die in der Fig. 8 nicht dargestellt sind.

Ein CCD- (Charge Coupled Device) Sensor 835 bildet einen ortsauflösenden Detektor der Messvorrichtung 800. Der CCD-Sensor 835 misst das Licht, das lokal von der Mas- ke 810 reflektiert wird. Typischerweise umfasst ein CCD-Sensor 835 eine zweidimensi- onale Pixelanordnung oder ein Pixel-Array, beispielsweise 1000· 1000 Pixel. Der CCD- Sensor 835 sendet sein Messsignal an die Signalverarbeitungseinheit 840, die ein Bild aus dem von dem CCD-Sensor 835 detektierten Signal berechnet. Das Belichtungssys- tem 827 mit den wesentlichen Komponenten Lichtquelle 825 und Objektiv 830 sowie der Detektor 835 bilden das optische System 885 der Messvorrichtung 800.

Ein Computersystem 850 kann das Bild anzeigen, das von der Signalverarbeitungsein- heit 840 berechnet wurde und/oder kann die gemessenen Daten als Rohdaten und/oder als Bilddaten in einem nichtflüchtigen Speicher 855 speichern. Das Display des Computersystems 850 ist in der Fig. 8 aus Übersichtlichkeitsgründen nicht darge- stellt. In dem Speicher 855 des Computersystems 850 kann ein Modell maschinellen Lernens 600 und/oder ein trainiertes ML-Modell 700 gespeichert sein. Ferner können in dem Speicher 855 zum Training verwendete charakterisierende Parameter 630 und zugeordnete Werte des Gütekriteriums 640 gespeichert sein. Das Computersystem 850 umfasst einen oder mehrere Prozessoren 860, die das ML-Modell 600 trainieren und/oder das trainierte ML-Modell 700 ausführen. Der bzw. die Prozessoren können beispielsweise in Form eines oder mehrerer leistungsfähiger GPUs (Graphics Proces- sing Units) ausführt sein.

Eine Optimierungseinheit 860 des Computersystem 850 veranlasst die Signalverarbei- tungseinheit 840 eine geplante Messung eines Messwertes 100, 300, 350 durch das optische System 885 der Messvorrichtung 800 auszuführen oder zu verschieben.

Schließlich kann eine Analyseeinheit 865 die Messwerte der Messvorrichtung 800 ana- lysieren und die Kenngrößen einer statistischen Verteilung der Messwerte bestimmen. Ferner kann die Analyseeinheit 865 des Computersystems 850 geplante und bereits gemessene Messwerte klassifizieren.

Das Computersystem 850 kann, wie in dem Beispiel der Fig. 8 dargestellt, als separate Einheit ausgeführt sein. Es ist aber auch möglich, das Computersystem 850 und/oder die Signalverarbeitungseinheit 840 in die Messvorrichtung 800 zu integrieren (in der Fig. 8 nicht gezeigt).

Das Computersystem 850 kann die Positioniereinheit 815 des Messtisches 805, das bzw. die Interferometer 820, die Lichtquelle 825, das Objektiv 830, den CCD-Sensor 835, die Signalverarbeitungseinheit 840, die Analyseeinheit 865 und die Optimie- rungseinheit 860 kontrollieren und/oder steuern.

Die Oberfläche der photolithographischen Maske 810 kann leicht verkippt sein. Zudem führt eine geringe Krümmung der Maske 810 aufgrund ihres eigenen Gewichts zu einer Variation der besten Fokusbedingung. Die Messvorrichtung 800 weist deshalb ein Au- tofokus (AF)-System 870 basierend auf einem schrägen Gitter auf (in der Fig. 8 nicht dargestellt). Die gekippten Spiegel 875 und die teildurchlässigen Spiegel 880 richten den Laser-Strahl auf das Objektiv 830. Ferner umfasst die beispielhafte Messvorrich- tung 800 der Fig. 8 ein optisches Hilfssystem 890 zur groben Ausrichtung des Objek- tivs 830 auf die Pattern-Elemente der Photomaske 810.

Falls die Maske 810 eine transparente Maske ist, wird die Lichtquelle 825 mit einem zweiten Objektiv von unten auf die Photomaske 810 gerichtet und das Objektiv 830 sammelt die die Oberfläche der Photomaske 810 verlassende Laser-Strahlung (in der Fig. 8 nicht gezeigt).

Ferner weist die Messvorrichtung 800 Sensoren auf, die beispielsweise einen Druck, eine Temperatur und/oder eine Luftfeuchtigkeit in der Messumgebung 880 messen (in der Fig. 8 nicht dargestellt).

Schließlich gibt die Fig. 9 ein Flussdiagramm 900 eines Verfahrens zum Bewerten eines statistisch verteilten Messwertes 100, 300, 350 beim Untersuchen eines Elements 810 für einen Photolithographieprozess wieder. Das Verfahren beginnt bei Schritt 910. Im ersten Schritt 920 werden in einem trainierten Modell maschinellen Lernens 700 meh- rere Parameter 730 verwendet, die einen Zustand einer Messumgebung 880 in einem einer Messung des Messwertes 100, 300, 350 zugeordneten Zeitraum charakterisieren. Sodann wird im zweiten Schritt 930 das trainiertes Modell maschinellen Lernens 700 zum Bewerten des Messwertes 100, 300, 350 ausgeführt. Das Verfahren endet schließ- lieh bei Schritt 940.