Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CLASSIFYING PHYSICAL, CHEMICAL AND/OR PHYSIOLOGICAL PROPERTIES OF MOLECULES
Document Type and Number:
WIPO Patent Application WO/2024/013285
Kind Code:
A1
Abstract:
The invention relates to a method for selecting molecules with a sought-after physical, chemical and/or physiological property from a group of molecules, wherein a classification according to a chemical, physical and/or physiological property of a molecule is undertaken with the aid of a mathematical model. As a result, molecules with the sought-after property can be selected from the group of molecules. Subsequently, an experimental confirmation as to whether the molecules actually have the sought-after physical, chemical and/or physiological property is undertaken for this selection of molecules. The invention also relates to the use of the method according to the invention for selecting at least one molecule with a sought-after chemical, physical and/or physiological property from a group of molecules and for identifying the influence of structure patterns in molecules on at least one chemical, physical and/or physiological property of molecules.

Inventors:
BAUER THILO (DE)
SCHICKER DORIS (DE)
Application Number:
PCT/EP2023/069455
Publication Date:
January 18, 2024
Filing Date:
July 13, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRAUNHOFER GES ZUR FOERDERUNG DER ANGWANDTEN FORSCHUNG E V (DE)
International Classes:
G16C20/30
Foreign References:
US10665330B22020-05-26
Other References:
PHILIPPE GANTZER ET AL: "Inverse-QSPR for de novo Design: A Review", MOLECULAR INFORMATICS, vol. 39, no. 4, 4 November 2019 (2019-11-04), Hoboken, USA, pages 1900087, XP055731761, ISSN: 1868-1743, DOI: 10.1002/minf.201900087
L. G. FINEC. E. RIERA, FRONTIERS IN PHYSIOLOGY, vol. 10, 2019, pages 1151
P. MORQUECHO-CAMPOSK. DE GRAAFS. BOESVELDT, FOOD QUALITY AND PREFERENCE, vol. 85, 2020, pages 103959
J. E. TAYLORH. LAUB. SEYMOURA. NAKAEH. SUMIOKAM. KAWATOA. KOIZUMI, FRONTIERS IN NEUROSCIENCE, vol. 14, 2020, pages 255
N. B. TRAND. R. KEPPLES. A. SHUVAEVA. A. KOULAKOV, INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 2019, pages 6305
A. KELLERR. C. GERKINY. GUANA. DHURANDHARG. TURUB. SZALAIJ. D. MAINLANDY. IHARAC. W. YUR. WOLFINGER, SCIENCE, vol. 355, 2017, pages 820
H. LIB. PANWARG. S. OMENNY. GUAN, GIGASCIENCE, vol. 7, 2018
K. SNITZA. YABLONKAT. WEISSI. FRUMINR. M. KHANN. SOBEL, PLOS COMPUTATIONAL BIOLOGY, vol. 9, 2013, pages e1003184
L. SHANGC. LIUY. TOMIURAK. HAYASHI, ANALYTICAL CHEMISTRY, vol. 89, 2017, pages 11999
C. S. SELL, ANGEWANDTE CHEMIE INTERNATIONAL EDITION, vol. 45, 2006, pages 6254
M. GENVAT. KENNE KEMENEM. DELEUL. LINSM.-L. FAUCONNIER, INTERNATIONAL JOURNAL OF MOLECULAR SCIENCES, vol. 20, 2019, pages 3018
K. J. ROSSITER, CHEMICAL REVIEWS, vol. 96, 1996, pages 3201
K. KAEPPLERF. MUELLER, CHEMICAL SENSES, vol. 38, 2013, pages 189
R. KUMARR. KAURB. AUFFARTHA. P. BHONDEKAR, PLOS ONE, vol. 10, 2015, pages e0141263
R. M. KHANC.-H. LUKA. FLINKERA. AGGARWALH. LAPIDR. HADDADN. SOBEL, JOURNAL OF NEUROSCIENCE, vol. 27, 2007, pages 10015
M. ZARZO, JOURNAL OF SENSORY STUDIES, vol. 23, 2008, pages 354
A. KOULAKOVB. E. KOLTERMANA. ENIKOLOPOVD. RINBERG, FRONTIERS IN SYSTEMS NEUROSCIENCE, vol. 5, 2011, pages 65
M. B. KURSAW. R. RUDNICKI, J STAT SOFTW, vol. 36, 2010, pages 1
A. KELLER, E-NEUROFORUM, vol. 9, 2003, pages 121
M. B. KURSAA. JANKOWSKIW. R. RUDNICKI, FUNDAMENTA INFORMATICAE, vol. 101, 2010, pages 271
G. E. HINTONR. R. SALAKHUTDINOV, SCIENCE, vol. 313, 2006, pages 504
D. WEININGER, JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES, vol. 28, 1988, pages 31
CHRIS MANNINGHINRICH SCHÜTZE: "Foundations of Statistical Natural Language Processing", May 1999, MIT PRESS
HEINER STRICKENSCHMIDT: "Ontologien: Konzepte, Technologien und Anwendungen", 2009, SPRINGER VERLAG
Attorney, Agent or Firm:
MAIKOWSKI & NINNEMANN PATENTANWÄLTE PARTNERSCHAFT MBB (DE)
Download PDF:
Claims:
Ansprüche

1. Verfahren zur Selektion von Molekülen mit einer gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen aufweisend die Schritte

• Bereitstellen einer Gruppe von Ok Molekülen durch einen Nutzer, wobei k e N;

• Bereitstellen einer Klassifizierung nach einer chemischen, physikalischen und/oder physiologischen Eigenschaft eines Moleküls, aufweisend C, Klassen, wobei i e N;

• Bereitstellen eines mathematischen Modells für die Klassifizierung, wobei das mathematische Modell Beziehungen G,j zwischen einem Strukturmuster und einer Klasse beschreibt, insbesondere durch Wahrscheinlichkeiten, dass ein Strukturmuster Fj eines Moleküls einer Klasse C, angehört oder ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist;

• Auswahl einer Wichtungsfunktion a,j für das mathematische Modell durch einen Nutzer;

• Zuordnung aller Ok Moleküle in die C, Klassen der Klassifizierung durch das mathematische Modell, wobei das mathematische Modell die Schritte aufweist: a) Bestimmen und Speichern von Fj Strukturmustern der chemischen Struktur jedes der Ok Moleküle zugeordnet zu dem jeweiligen Molekül, wobei j e N; b) Zuordnung der Wahrscheinlichkeit Gij zu jedem Strukturmuster Fj eines Moleküls für jede Klasse C, und berechnen des Einflusses /,j gemäß der Formel für jedes Strukturmuster Fj eines Moleküls für jede Klasse C,; c) Berechnung eines Punktewertes Piik für jedes Molekül Ok, mittels für jede Klasse C,, wobei die Einflüsse ,j aller Strukturmuster Fj die in einem Molekül Ok enthalten sind für jede Klasse C, aufsummiert wird; d) Zuordnung jedes Moleküls zu der Klasse C, mit dem höchsten Punktewert Piik für das jeweilige Molekül; • Anzeige und/oder Ausgabe der Moleküle zugeordnet zu den Klassen der Klassifizierung und optional der zugehörigen Punktewerte Piik, der zugehörigen Einflüsse /,7und der Strukturmuster Ff,

• Selektion der Moleküle die der Klasse mit gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft zugeordnet wurden;

• Experimentelle Bestätigung der physikalischen, chemischen und/oder physiologischen Eigenschaft zumindest eines Teils der selektierten Moleküle durch einen Nutzer; und/oder Überprüfung und/oder Identifizierung des Zusammenhanges zwischen mindestens einem Strukturmuster Fj und einer Klasse C, durch einen Nutzer. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anzeige und/oder Ausgabe zumindest eines Teils der Moleküle derart erfolgt, dass die Moleküle in absteigender Reihenfolge nach deren Punktewert Piik in einer Klasse C, angeordnet sind, beginnend mit dem Molekül mit dem größten Punktewert Piik. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das mathematische Modell durch einen Trainingsdatensatz für die ausgewählte Klassifizierung angelernt wird, wobei ein Trainingsdatensatz aufweisend 0/ Moleküle bekannter Klasse C, vorgegeben wird, wobei I, i e N, aufweisend die Schritte i. Bestimmen und Speichern von Fj Strukturmustern der chemischen Struktur jedes Moleküls zugeordnet zu dem jeweiligen Molekül, j e N ; ii. Berechnung der Wahrscheinlichkeit Gy, dass ein Strukturmuster Fj einer Klasse C, angehört, wobei

Berechnung der Wahrscheinlichkeit G , dass ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist, wobei Gtj = Pr(c F7) = Verfahren nach Ansprüche 3, dadurch gekennzeichnet, dass die in Schritt i) bestimmten Fj Strukturmustern durch einen Algorithmus, eine idf-Wichtung oder einer tf-idf-Wichtung selektiert werden. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Klassifizierung ausgewählt ist aus der Gruppe strukturbasierender Eigenschaften von Molekülen, insbesondere aus der Gruppe enthaltend Geruch, Geschmack, Farbe, Wasserlöslichkeit, Toxizität und erlaubte und nicht erlaubte Chemikalien in der Kosmetik und Körperpflege. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Wichtungsfunktion a,j ausgewählt ist aus der Gruppe statistischer Maße, wie tf-idf- Funktionen, Normalisierungsfunktion, gleichgewichtete Funktion. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass alle Moleküle experimentell untersucht werden, deren Punktewert Piik höchstens 50%, bevorzugt höchstens 30%, besonders bevorzugt höchstens 10% vom höchsten Punktewert Piik in dieser Klasse abweicht. Verwendung des Verfahrens gemäß einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass das Verfahren zur Selektion von mindestens einem Molekül mit einer gesuchten chemischen, physikalischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen verwendet wird. Verwendung des Verfahrens gemäß einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass das Verfahren zur Identifizierung des Einflusses von Strukturmustern in Molekülen auf mindesten eine chemische, physikalische und/oder physiologische Eigenschaft von Molekülen verwendet wird.

Description:
Verfahren zur Klassifizierung physikalischer, chemischer und/oder physiologischer Eigenschaften von Molekülen

Die Erfindung betrifft ein Verfahren zur Selektion von Molekülen mit einer gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen, wobei eine Klassifizierung nach einer chemischen, physikalischen und/oder physiologischen Eigenschaft eines Moleküls mit Hilfe eines mathematischen Modells vorgenommen wird. Hierdurch können Moleküle mit der gesuchten Eigenschaft aus der Gruppe von Molekülen selektiert werden. Für diese Auswahl an Molekülen wird anschließend eine experimentelle Bestätigung durchgeführt, ob die Moleküle die gesuchte physikalische, chemische und/oder physiologische Eigenschaft tatsächlich aufweisen. Weiterhin ist die Verwendung des erfindungsgemäßen Verfahrens zur Selektion von mindestens einem Molekül mit einer gesuchten chemischen, physikalischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen sowie zur Identifizierung des Einflusses von Strukturmustern in Molekülen auf mindesten eine chemische, physikalische und/oder physiologische Eigenschaft von Molekülen beschrieben.

Moleküle weisen chemische, physikalische und physiologische Eigenschaften auf. Während physikalische Eigenschaften durch die Messung zugrundeliegender physikalischer Größen quantifiziert werden können, sind chemische Eigenschaften durch Messungen einer zugrundeliegenden chemischen Größe bei der Reaktion eines Moleküls mit einem anderen Stoff quantifizierbar. Zu den physikalischen Eigenschaften eines Moleküls zählt zum Beispiel die Farbe des Moleküls. Die Wasserlöslichkeit wird hingegen zu den chemischen Eigenschaften eines Moleküls gezählt. Weiterhin weisen Moleküle physiologische Eigenschaften auf. Hierunter werden physikalische und chemische Stoffeigenschaften unter dem Aspekt der Wahrnehmbarkeit oder der Auswirkung auf die Umgebung gezählt. Beispiele hierfür sind der Geruch und der Geschmack eines Moleküls.

Chemische, physikalische und physiologische Eigenschaften sind für vielfältige Anwendungen von großem Interesse. Physiologische Eigenschaften beschreiben Eigenschaften von Molekülen, die Auswirkungen auf den Organismus von Lebewesen haben. Hierunter fallen erfindungsgemäß Eigenschaften wie Geschmack oder Geruch von Molekülen. Weiterhin wird erfindungsgemäß hierunter auch die Eingruppierung von Molekülen in erlaubte und nicht erlaubte Chemikalien in der Kosmetik und Körperpflege verstanden. Dies wird durch die Anwendungserlaubnis gemäß Articles Regulation, Annex II - Restricted Substances the Annex II der European Chemicals Agency (ECHA) geregelt. Der Geschmack von Molekülen spricht unmittelbar den Geschmackssinn des Menschen an und beeinflusst damit entscheidend das Essverhalten des Menschen und insbesondere welche Nahrungsmittel als angenehm oder auch als unangenehm empfunden werden. Der Geschmack, der von Molekülen hervorgerufen wird, ist daher insbesondere in der Lebensmittelindustrie von großer Bedeutung.

Geruchssinn ist einer der fünf Sinne des Menschen und spielt im täglichen Leben eine wichtige Rolle. Der Geruch von Speisen beeinflusst beispielsweise unser Essverhalten [1] und Gerüche in bedrohlichen Situationen beeinflussen das menschliche Erinnerungsvermögen an ebensolche Situationen [2], Neben der Bedeutung von Gerüchen für den Menschen spielen sie auch in der Wirtschaft eine wichtige Rolle, insbesondere in der Lebensmittel- und Kosmetikindustrie, wo die Entwicklung neuer Aromen und die Identifizierung geruchsaktiver Moleküle von wesentlicher Bedeutung sind. Bei der Entwicklung neuer Geruchsstoffe ist ein prädiktiver Ansatz während des Moleküldesigns erforderlich, um den Raum der in Frage kommenden Moleküle von praktisch allen auf eine vielversprechende Reihe von Strukturen zu reduzieren.

Obwohl in den letzten Jahren viele Fortschritte bei der Geruchsvorhersage erzielt wurden [3, 4, 5, 6], ist leider immer noch wenig über die Beziehung zwischen der Struktur eines Moleküls und seinem Geruch bekannt, so dass Chemikern kein „Werkzeugkasten“ an die Hand geben werden kann, um Molekülstrukturen mit einem bestimmten Geruch im Hinterkopf zu entwerfen [7, 8], Darüber hinaus besteht Uneinigkeit über die Dimensionalität des Geruchsraums [9, 10], Um die eher vage Eigenschaft des Geruchs aus objektiv messbaren oder berechenbaren molekularen Eigenschaften abzuleiten, kann eine Beziehung zwischen physikochemischen Parametern und Geruch verwendet werden. Mithilfe dieses Ansatzes und der Hauptkomponentenanalyse (PCA) sagen Khan et al. die Gefälligkeit („pleasantness“) des Geruchs von Molekülen voraus und identifizierten sie als eine der Dimensionen der menschlichen Geruchswahrnehmung [11] in Übereinstimmung mit anderen Studien [12],

Um einen bestimmten Geruch vorherzusagen, haben Keller et al. die Leistung von 22 verschiedenen maschinellen Lernmodellen hinsichtlich der Vorhersage von 19 Geruchsdeskriptoren untersucht. Sie verwendeten physiochemischen Eigenschaften wie den Typ der Atome, funktionelle Gruppen oder topologische und geometrische Informationen. Die Modelle haben acht der 19 betrachteten Deskriptoren erfolgreich vorausgesagt. Die Autoren suchten dabei nach Korrelationen zwischen Merkmalen und Deskriptoren und fanden signifikante Korrelationen zwischen schwefelhaltigen Molekülen und den Deskriptoren "Knoblauch" und "verbrannt". Aufgrund der guten Leistung der linearen Modelle schlossen die Autoren, dass ein linearer, summativer Effekt der Merkmale auf die Geruchswahrnehmung besteht [13], [14],

Shang et al. untersuchten verschiedene Kombinationen von Modellen zur Merkmalsgenerierung und Algorithmen für maschinelles Lernen, um den Geruch von Molekülen aus zehn möglichen Deskriptoren vorherzusagen. Sie wandten die Modelle in GC/O (Gaschromatographie-Analyse mit olfaktometrischer Detektion) an. Mit einer Genauigkeit von 97,08 % erzielte die Support Vector Machine (SVM) die besten Ergebnisse bei der vorherigen Merkmalsauswahl mit Boruta [15], Wurden jedoch Aromamoleküle vorhergesagt, die nicht in die Modellerstellung einbezogen wurden, sank die Genauigkeit auf 70 % [6], Für die Modelle wurden Merkmale verwendet, die mit der Chemoinformatik-Software Dragon für Geruchsvorhersagen berechnet wurden. Diese Merkmale werden auch von Snitz et al. zur Vorhersage des Geruchs von Geruchsstoffmischungen verwendet [5], Das Training eines „deep autoencoder“ [16] ermöglichte auch die Extraktion von Merkmalen die alternativ zur Verwendung von Merkmalen, die von Dragon generiert wurden, verwendet werden können. Tran et al. entwickelten den Autoencoder DeepNose, um molekulare Merkmale zu extrahieren. DeepNose-Merkmale erzielten im Vergleich zu Dragon-Merkmalen gleich gute Ergebnisse bei der Vorhersage von Geruchswahrnehmungen [3],

Die verwendeten Modelle sind zwar vielversprechend und für sich genommen nützlich, verwenden aber eine Vielzahl unterschiedlicher Merkmale, die keinen tiefen Einblick in den Mechanismus der Vorhersage gewähren. Aufgrund ihrer undurchsichtigen Natur fungieren die Modelle aus dem Stand der Technik eher als „Blackbox“, wodurch noch immer das Wissen über die Struktur-Geruchs-Beziehungen fehlt.

Dies führt dazu, dass in der Wirtschaft sowie Wissenschaft sensorisch trainierte Experten an Molekülen riechen müssen, um deren Geruch zu bestimmen. Aufgrund weitgehend unbekannter Struktur-Geruchsbeziehungen herrscht bei der Entwicklung von Aromastoffen oder der Identifizierung geruchsaktiver Moleküle das Prinzip Trial-and-Error vor. Dies ist sehr zeitaufwendig, personalaufwendig und daher unwirtschaftlich.

Genauso wünschenswert ist es andere physikalische, chemische oder physiologische Eigenschaften eines Moleküls aus dessen Struktur ableiten zu können.

Ausgehend vom Stand der Technik ist es daher die Aufgabe der Erfindung ein Verfahren zur Verfügung zu stellen, mit dem Moleküle mit einer gewünschten physikalischen, chemischen oder physiologischen Eigenschaft aus einer vorgegebenen Menge von Molekülen selektiert werden können, ohne alle Moleküle hinsichtlich der gewünschten Eigenschaft mit experimentellen Methoden untersuchen zu müssen.

Hierfür stellt die Erfindung ein Verfahren zur Selektion von Molekülen mit einer gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen zur Verfügung, aufweisend die Schritte

• Bereitstellen einer Gruppe von Ok Molekülen durch einen Nutzer, wobei k e N;

• Bereitstellen einer Klassifizierung nach einer chemischen, physikalischen und/oder physiologischen Eigenschaft eines Moleküls, aufweisend C, Klassen, wobei i e N;

• Bereitstellen eines mathematischen Modells für die Klassifizierung, wobei das mathematische Modell Beziehungen G,j zwischen einem Strukturmuster und einer Klasse beschreibt, insbesondere durch Wahrscheinlichkeiten, dass ein Strukturmuster Fj eines Moleküls einer Klasse C, angehört oder ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist;

• Auswahl einer Wichtungsfunktion a,j für das mathematische Modell durch einen Nutzer;

• Zuordnung aller Ok Moleküle in die C, Klassen der Klassifizierung durch das mathematische Modell, wobei das mathematische Modell die Schritte aufweist: a) Bestimmen und Speichern von Fj Strukturmustern der chemischen Struktur jedes der Ok Moleküle zugeordnet zu dem jeweiligen Molekül, wobei j e N; b) Zuordnung der Wahrscheinlichkeit Gy zu jedem Strukturmuster Fj eines Moleküls für jede Klasse C, und berechnen des Einflusses ,j gemäß der Formel für jedes Strukturmuster Fj eines Moleküls für jede Klasse C,; c) Berechnung eines Punktewertes P iik für jedes Molekül Ok, mittels für jede Klasse C,, wobei die Einflüsse /y aller Strukturmuster Fj die in einem Molekül Ok enthalten sind für jede Klasse C, aufsummiert wird; d) Zuordnung jedes Moleküls zu der Klasse C, mit dem höchsten Punktewert B.k für das jeweilige Molekül;

• Anzeige und/oder Ausgabe der Moleküle zugeordnet zu den Klassen der Klassifizierung und optional der zugehörigen Punktewerte P iik , der zugehörigen Einflüsse /y und der Strukturmuster p;

• Selektion der Moleküle die der Klasse mit gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft zugeordnet wurden;

• Experimentelle Bestätigung der physikalischen, chemischen und/oder physiologischen Eigenschaft zumindest eines Teils der selektierten Moleküle durch einen Nutzer; und/oder Überprüfung und/oder Identifizierung des Zusammenhanges zwischen mindestens einem Strukturmuster Fj und einer Klasse C, durch einen Nutzer.

Weiterhin wird die Verwendung des erfindungsgemäßen Verfahrens zur Selektion von mindestens einem Molekül mit einer gesuchten chemischen, physikalischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen sowie zur Identifizierung des Einflusses von Strukturmustern in Molekülen auf mindestens eine chemische, physikalische und/oder physiologische Eigenschaft von Molekülen beschrieben.

Detaillierte Beschreibung

Gemäß der vorliegenden Erfindung wird eine Gruppe von O k Molekülen durch einen Nutzer bereitgestellt, wobei k e N. In einer Ausführungsform der vorliegenden Erfindung werden zwischen 20 und 1000 Molekülen bereitgestellt, bevorzugt werden zwischen 20 und 800 Molekülen bereitgestellt, besonders bevorzugt werden zwischen 20 und 300 Molekülen bereitgestellt. Bereitgestellt bedeutet in diesem Fall zunächst, dass die Strukturformeln der Moleküle vorliegen und damit bereitgestellt werden. Dies ist beispielweise über die Bereitstellung der Moleküle im Strukturcode SMILES möglich, die Strukturmuster als SMARTS codiert [17, 18, 19], Darüber hinaus besteht jedoch die Möglichkeit jedes der Moleküle als Substanz zu einem späteren Zeitpunkt für experimentelle Bestätigungen vorliegen zu haben.

Erfindungsgemäß wird weiterhin eine Klassifizierung nach einer chemischen, physikalischen und/oder physiologischen Eigenschaft eines Moleküls, aufweisend C, Klassen, wobei i e N bereitgestellt.

In einer Ausführungsform der Erfindung ist die Klassifizierung ausgewählt aus strukturbasierenden Eigenschaften von Molekülen, insbesondere aus der Gruppe enthaltend Geruch, Geschmack, Farbe, Toxizität, Wasserlöslichkeit und erlaubte und nicht erlaubte Chemikalien in Kosmetik und Körperpflege. In einer besonders bevorzugten Ausführungsform ist die Klassifizierung eine Klassifizierung nach dem Geruch der Moleküle.

Eine Klassifizierung umfasst mehre Klassen beispielsweise umfasst die Klassifizierung Wasserlöslichkeit die Klassen hydrophil und hydrophob. Die Klassifizierung Toxizität umfasst die Klassen toxisch und nicht toxisch. Die Klassifizierung Farbe kann als Klassen verschiedene Farben beispielsweise Blau, Rot, Gelb, Grün umfassen. Die Klassifizierung Geschmack entsprechend verschiedene Geschmacksrichtungen, wie bitter, sauer, süß, salzig und umami. Die Klassifizierung Geruch umfasst bevorzugt Geruchsrichtungen wie .holzig, harzig', .blumig', .fruchtig, nicht zitronig', .medizinisch', .parfümiert', .leicht', .schwer', ,süß‘, .aromatisch', .wohlriechend', .widerlich' als Klassen. Besonders bevorzugt umfasst die Klassifizierung Geruch die Geruchsrichtungen .holzig, harzig', .blumig', .fruchtig, nicht zitronig', .medizinisch', .parfümiert' als Klassen.

Weiterhin wird ein mathematisches Modell für die bereitgestellte Klassifizierung durch einen Nutzer bereitgestellt. Erfindungsgemäß weist das mathematische Modell Wahrscheinlichkeiten Gy auf, dass ein Strukturmuster Fj eines Moleküls einer Klasse C, angehört oder ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist. Das mathematische Modell wurde zuvor durch einen Trainingsdatensatz für die ausgewählte Klassifizierung angelernt. Ein Trainingsdatensatz weist dabei 0/ Moleküle auf, bei denen bekannt ist, welcher Klasse C, der Klassifizierung sie zuzuordnen sind, wobei 1, 1 G N. In einer weiteren Ausführungsform kann ein Molekül mehreren Klassen C, zugeordnet sein. Die Erstellung des mathematischen Modells wird an späterer Stelle in der Beschreibung erläutert.

Erfindungsgemäß wird eine Wichtungsfunktion an für das mathematische Modell durch einen Nutzer ausgewählt. Eine geeignete Wichtungsfunktion a,j ist ausgewählt aus der Gruppe statistischer Maße, wie tf-idf-Funktionen, Normalisierungsfunktion, gleichgewichtete Funktion, tf und idf Werte werden anhand des Trainingsdatensatzes und der dem Fachmann allgemein bekannten Formeln errechnet [26],

Anschließend werden alle Ok Moleküle den C, Klassen der Klassifizierung durch das mathematische Modell zugeordnet. Dabei weist das mathematische Modell die folgenden Schritte: a) Bestimmen und Speichern von Fj Strukturmustern der chemischen Struktur jedes der Ok Moleküle zugeordnet zu dem jeweiligen Molekül, wobei j e N; b) Zuordnung der Wahrscheinlichkeit Gij zu jedem Strukturmuster Fj eines Moleküls für jede Klasse C, und berechnen des Einflusses /y gemäß der Formel für jedes Strukturmuster F, eines Moleküls für jede Klasse C,; c) Berechnung eines Punktewertes P iik für jedes Molekül Ok , mittels für jede Klasse C,, wobei die Einflüsse /y aller Strukturmuster Fj die in einem Molekül Ok enthalten sind für jede Klasse C, aufsummiert wird; d) Zuordnung jedes Moleküls zu der Klasse C, mit dem höchsten Punktewert P iik für das jeweilige Molekül;

Im Schritt a) werden Strukturmuster Fj der chemischen Struktur jedes der Ok Moleküle bestimmt. Diese werden zugeordnet zu dem jeweiligen Molekül gespeichert. Dabei werden sämtliche Strukturmuster der Ok Moleküle bestimmt. Strukturmuster, die im Trainingsdatensatz nicht vorkommen, bekommen einen Einflüsse /y von Null zugeordnet und werden damit im Verfahren nicht berücksichtigt. Gemäß dem erfindungsgemäßen Verfahren wird jedem Strukturmuster Fj eines Moleküls für jede Klasse C, eine Wahrscheinlichkeit Gij zugeordnet. Die jeweilige Wahrscheinlichkeit Gij ist aus dem mathematischen Modell für jedes Strukturmuster Fj für eine vorgegebene Klassifizierung bekannt. Der Einfluss /,j wird gemäß der Formel h,j — a i,j ' j,j (1) für jede Klasse C, berechnet. a if j entspricht dabei der zuvor ausgewählten Wichtungsfunktion. Durch die Wichtungsfunktion können zusätzliche Informationen über den Zusammenhang zwischen Strukturmuster und Klasse berücksichtigt werden, wie beispielsweise die Selektivität und Spezifität mittels tf-idf-Funktion. Anschließend wird ein Punktewert P iik für jedes Molekül O k gemäß der Formel

Pi,k = ^iFjEO k h,j (?) für jede Klasse C, berechnet. Gemäß der Formel werden die Einflüsse ,j aller Strukturmuster Fj die in einem Molekül O k enthalten sind, für jede Klasse C, aufsummiert. Erfindungsgemäß wird damit für jede Klasse C, der Klassifizierung ein Punktewert P iik für ein Molekül errechnet. Das Molekül wird dann der Klasse C, der Klassifizierung zugeordnet, die den höchsten Punktewert P iik für das jeweilige Molekül aufweist. Erfindungsgemäß wird daher das Molekül mindestens einer Klasse C, zugeordnet. In einer Ausführungsform der Erfindung wird das Molekül mehreren Klassen zugeordnet. Dies geschieht wenn der höchste Punktwert P iik für mehrere Klassen gleich ist. Die Zuordnung erfolgt dann in die Klassen C, für die jeweils der gleiche höchste Punktwert P iik ermittelt wurde.

In einer weiteren Ausführungsform der vorliegenden Erfindung ist vorgesehen, dass wenn die Punktewerte eines Moleküls für alle Klassen C, gleich sind, dieses Molekül als nicht vorhersagbar gekennzeichnet wird. Dieser Fall kann beispielsweise eintreten, wenn ein Molekül vollständig aus Strukturmustern besteht, die im Trainingsdatensatz nicht vorkommen und denen daher jeweils ein Einfluss / von Null zugeordnet wurde.

Durch das mathematische Modell ist daher eine Zuordnung der Moleküle in die Klassen C, der Klassifizierung möglich. Das mathematische Modell basiert dabei auf der Annahme, dass jedes Strukturmuster einen bestimmten Einfluss auf eine Klasse hat und eine Strukturmuster-Klassen-Beziehung besteht. Die vorliegende Erfindung ermöglicht damit eine Sortierung der O k Moleküle in die Klassen der Klassifizierung. Durch die Anwendung des mathematischen Modells wird demzufolge eine Vorauswahl an Molekülen getroffen, die in der bereitgestellten Gruppe von Molekülen enthalten sind und die gesuchte physikalische, chemische oder physiologische Eigenschaft aufweisen.

Hierdurch wird es einem Nutzer ermöglicht, gezielt eine kleinere Auswahl von Molekülen der Ok Moleküle weiteren experimentellen Untersuchungen zu unterziehen, um Moleküle mit gesuchten physikalischen, chemischen oder physiologischen Eigenschaften zu finden. Vorteilhafterweise ist es nicht wie bisher notwendig alle Ok Moleküle experimentellen Untersuchungen zu unterziehen, stattdessen können bevorzugt die Moleküle mit den höchsten Punktewerten in einer bestimmten Klasse der Klassifizierung und damit mit einer gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft einer experimentellen Bestätigung unterzogen werden. Experimentell bestätigt wird dabei ob ein Molekül tatsächlich die physikalischen, chemischen und/oder physiologischen Eigenschaft aufweist, die es laut Klassifizierung haben sollte.

Sollen zum Beispiel insbesondere Moleküle aus einer Gruppe herausgefiltert werden, die den Geruch .blumig' aufweisen, so wird das mathematische Modell für die Klassifikation Geruch angewendet und die Moleküle, die der Klasse .blumig' zugeordnet werden, werden anschließend einer experimentellen Bestätigung unterzogen. Vorteilhafterweise wird dabei mit dem Molekül begonnen, das den höchsten Punktewert P iik in dieser Klasse hat. Anschließend können weitere Moleküle in dieser Klasse experimentell untersucht werden, wobei diese vorteilhafterweise in einer Reihenfolge angeordnet nach absteigenden Punktewerten P iik experimentell untersucht werden. In einer Ausführungsform wird nur das Molekül mit dem höchsten Punktewert einer Klasse experimentell untersucht. In einer weiteren Ausführungsform der vorliegenden Erfindung werden alle Moleküle experimentell untersucht, deren Punktewert P iik höchstens 50%, bevorzugt höchstens 30%, besonders bevorzugt höchstens 10% vom höchsten Punktewert P iik in dieser Klasse abweicht. In einer weiteren Ausführungsform der vorliegenden Erfindung werden alle Moleküle einer Klasse der Klassifizierung experimentell untersucht.

Erfindungsgemäß werden daher die Moleküle Ok zugeordnet zu den Klassen der Klassifizierung angezeigt und/oder ausgegeben. In einer Ausführungsform erfolgt die Anzeige und/oder Ausgabe der Moleküle derart, dass die Moleküle in absteigender Reihenfolge nach deren Punktewert P iik in einer Klasse C, angeordnet sind, beginnend mit dem Molekül mit dem größten Punktewert P iik . In einer Ausführungsform wird der zugehörige Punktewerte P iik und/oder der zugehörigen Einflüsse ,j und/oder das zugehörige Strukturmuster Fj angezeigt und/oder ausgegeben. Anschließend werden die Moleküle, die der Klasse mit gesuchten physikalischen, chemischen und/oder physiologischen Eigenschaft zugeordnet wurden, selektiert.

Wie bereits beschrieben, schließt sich eine experimentelle Bestätigung der physikalischen, chemischen und/oder physiologischen Eigenschaft zumindest eines Teils der selektierten Moleküle durch einen Nutzer an. Durch die experimentelle Überprüfung wird gleichzeitig die Klassifizierung des Moleküls durch einen Nutzer überprüft. Die Art der experimentellen Bestätigung hängt dabei von der Klassifizierung ab, die vorgenommen wurde. Die folgende Tabelle bietet einen nicht vollständigen Überblick über gängige experimentelle Methoden, mit denen physikalische, chemische und physiologische Eigenschaften von Molekülen überprüft werden können. Alle weiteren gängigen und dem Fachmann bekannten experimentellen Methoden sind genauso anwendbar.

In einer Ausführungsform der vorliegenden Erfindung findet weiterhin eine Überprüfung und/oder Identifizierung des Zusammenhanges zwischen mindestens einem Strukturmuster Fj und einer Klasse C, durch einen Nutzer statt. Hierdurch wird es vorteilhafterweise ermöglicht Einblick in die Strukturmuster-Klassen-Beziehung zu erlangen. Physikalische, chemische und/oder physiologische Eigenschaften von Molekülen können dadurch auf bestimmte Strukturmuster der Moleküle zurückgeführt werden.

Die vorliegende Erfindung ermöglicht damit eine signifikante Einsparung von Personalaufwand und technischem Aufwand, da nicht länger alle Moleküle Ok einer zur Verfügung gestellten Gruppe experimentell untersucht werden müssen, um zumindest ein Molekül einer bestimmten Klasse und damit mit einer bestimmten physikalischen, chemischen oder physiologischen Eigenschaft zu selektieren. Durch die Anwendung des mathematischen Modells wird eine Auswahl von Molekülen getroffen und die darauffolgende experimentelle Bestätigung kann gezielt mit dieser Auswahl von Molekülen durchgeführt werden. Hierdurch werden im Vergleich zu den Methoden aus dem Stand der Technik Zeit und Kosten gespart. Zudem ist es nicht nötig alle Moleküle als Substanz für experimentelle Untersuchungen vorliegen zu haben, was zusätzliche Kosten einspart.

Erfindungsgemäß wird ein mathematisches Modell genutzt, welches die Wahrscheinlichkeit G,j für definierte Strukturmuster für definierte Klassen C, einer Klassifizierung umfasst oder ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist.

Das mathematische Modell wird hierfür erfindungsgemäß durch einen Trainingsdatensatz für eine ausgewählte Klassifizierung angelernt, wobei ein Trainingsdatensatz aufweisend 0/ Moleküle bekannter Klasse C, vorgegeben wird, wobei I, i e N. Anlernen bedeutet in diesem Zusammenhang nichts anderes, als das die Wahrscheinlichkeiten G t j = für definierte Strukturmuster für definierte Klassen C, anhand eines vorgegebenen Datensatzes berechnet werden oder das die Wahrscheinlichkeiten G t j = Pr( |F 7 ) berechnet werden, dass ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist . Dabei sind für den Datensatz die Strukturmuster der Moleküle bekannt und in welche Klasse einer Klassifizierung die jeweiligen Moleküle einzuordnen sind. In einer Ausführungsform der vorliegenden Erfindung kann ein Molekül auch mehreren Klassen zugeordnet sein.

Das Verfahren zum Anlernen des mathematischen Modells weist die folgenden Schritte auf: i. Bestimmen und Speichern von Fj Strukturmustern der chemischen Struktur jedes Moleküls zugeordnet zu dem jeweiligen Molekül, j e N ; ii. Berechnung der Wahrscheinlichkeit Gy, dass ein Strukturmuster Fj einer

Klasse C, angehört, wobei G t j = Pr(F 7 0C | er

Berechnung der Wahrscheinlichkeit G , dass ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist, wobei G t j = Pr(c F 7 ) =

Im Schritt i. werden die Strukturmuster Fj jedes Moleküls bestimmt. Ein Strukturmuster ist dabei ein Teilfragment der chemischen Struktur des Moleküls. Hierbei müssen nicht zwingend alle Strukturbestandteile der Moleküle verwendet werden, sondern es kann eine vorhergehende Feature Selektion mittels eines Algorithmus oder statistischer Werte durchgeführt werden.

Beispielsweise kann die Bestimmung der Strukturmuster Fj eines Moleküls mittels sogenannter Fingerprint-Algorithmen umgesetzt werden. Als Fingerprint-Algorithmus ist aus dem Stand der Technik beispielsweise der RDKit-Topologiefingerprint [20, 21] bekannt. Weiterhin sind die Dragon Software [22] und Graph Convolutional Neural Networks [23] bekannt, um Molekülstrukturen zu bestimmen. Eine neue Methode betrachtet Moleküle als Graphen und überführt Knoten und Kanten der Graphen in einen Vektor, wodurch Moleküle rein strukturbasiert repräsentiert werden können [24],

In einer Ausführungsform der vorliegenden Erfindung werden nicht alle Strukturmuster, die in einer Gruppe von Molekülen vorkommen, in dem erfindungsgemäßen Verfahren genutzt. In diesem Fall stellen die Fj Strukturmuster die im Verfahrensschritt a) des erfindungsgemäßen Verfahrens bestimmt und gespeichert werden eine Selektion aus einer größeren Anzahl an Strukturmustern dar. Die Selektion kann beispielsweise durch einen Algorithmus, eine idf-Wichtung oder einer tf-idf-Wichtung vorgenommen, werden. Ein Algorithmus kann dabei beispielsweise eine Selektion nach der Mindestanzahl an Molekülen, die ein Strukturmuster aufweisen selektieren oder nach Korrelationen zwischen verschiedenen Strukturmustern.

Zu jedem Strukturmuster Fj wird anschließend eine Wahrscheinlichkeit G,j berechnet, dass ein Strukturmuster einer Klasse C, angehört. Die Wahrscheinlichkeit G,j wird dabei mittels der Formel berechnet.

Alternativ wird zu jedem Strukturmuster Fj anschließend eine Wahrscheinlichkeit G,j berechnet, dass ein Molekül einer Klasse C, ein Strukturmuster Fj aufweist. Die Wahrscheinlichkeit Gy wird dabei mittels der Formel berechnet.

Die vorliegende Erfindung kann zur Selektion von Molekülen mit einer gesuchten chemischen, physikalischen und/oder physiologischen Eigenschaft aus einer Gruppe von Molekülen verwendet werden. Weiterhin kann die vorliegende Erfindung zur Identifizierung des Einflusses von Strukturmustern in Molekülen auf mindestens eine chemische, physikalische und/oder physiologische Eigenschaft von Molekülen verwendet werden.

In einer besonders bevorzugten Ausführungsform wird das erfindungsgemäße Verfahren verwendet, um den Geruch eines Moleküls zu bestimmen, bzw. um aus einer Gruppe von Molekülen, die Moleküle zu selektieren, die einen bestimmten Geruch aufweisen. In diesem Fall ist die Klassifizierung der Geruch und die Klassen sind einzelne Gerüche, wie beispielsweise .blumig' und .medizinisch'.

Vorteilhafterweise bietet das erfindungsgemäße Verfahren damit auch einen Einblick in die Strukturmuster-Geruchs-Beziehung. Da das Verfahren für jedes Strukturmuster eine Einfluss j in Form eines quantitativen Wertes für jedes Klasse und damit für jeden Geruch berechnet, können durch Vergleich dieser Einflüsse Strukturmuster identifiziert werden, welche sich stark hinsichtlich eines bestimmten Geruchs auszuwirken scheinen. Die Strukturmuster können daher auch nach ihrem Einfluss auf einen bestimmten Geruch angeordnet werden.

Die Erfindung wird im Folgenden anhand von 2 Figuren und 3 Ausführungsbeispielen näher erläutert.

Figur 1 stellt einen Ablauf des erfindungsgemäßen Verfahrens dar;

Figur 2 stellt Ergebnisse des erfindungsgemäßen Verfahrens dar.

Figur 1 stellt einen Ablauf des erfindungsgemäßen Verfahrens dar, der im Ausführungsbeispiel 2 näher beschrieben ist.

Figur 2 stellt Ergebnisse des erfindungsgemäßen Verfahrens dar, bei dem ein mathematisches Modell mit unterschiedlichen Wichtungsfunktionen a,j und mit und ohne Selektion der Strukturmuster durchgeführt wurde.

Ausführungsbeispiel 1 - Geruchsbestimmung

Ein mathematisches Modell wurde beispielhaft anhand einer Gruppe von 5 Molekülen für die Klassifizierung Geruch mit den zwei Klassen .blumig' und .medizinisch' trainiert. Das heißt es wurden für alle Moleküle Strukturmuster F, bestimmt. Für jedes der 5 Moleküle war dessen Klassenzugehörigkeit/en bekannt. Mit diesen Informationen wurden die Wahrscheinlichkeiten Gij für jedes Strukturmuster Fj berechnet. In Figur 1 sind für den Trainingsdatensatz die 5 Moleküle aufgelistet. Die Moleküle sind dabei im Strukturcode SMILES dargestellt, die Strukturmuster sind als SMARTS codiert. Der Übersicht halber wurden beispielhaft die 3 Strukturmuster [CX4H3], [CX4], dccccd dargestellt. Zu jedem der 5 Moleküle war dessen Klassifizierung .blumig' oder .medizinal' bekannt. Strukturmuster mit dem Wert 1 .0 in der Tabelle kommen in dem jeweiligen Molekül vor und Strukturmuster mit dem Wert 0.0 kommen nicht in dem jeweiligen Molekül vor.

Aus dem Trainingsdatensatz wurden mit Hilfe der Formel (3) die Wahrscheinlichkeiten Gij für jedes der 3 Strukturmuster jeweils für die Klasse .blumig' und für die Klasse .medizinal' berechnet.

Es sollte nun aus einer Gruppe von 10 Molekülen diejenigen herausgefiltert werden, die einen .blumigen' Geruch aufweisen. Das erfindungsgemäße Vorgehen hierfür wird im Folgenden beispielhaft anhand eines der 10 Moleküle näher erläutert. Es wurde für das Molekül CCOCOCC bestimmt, welche der Strukturmuster des Trainingsdatensatzes in diesem vorkommen. Weiterhin wurde als Wichtungsfunktion a,j eine Gleichwichtung festgelegt, so dass alle Wichtungsfaktoren 1 waren. Nach Formel (1) wurden dann die Einflüsse Z^ berechnet, für alle Strukturmuster berechnet. Die Ergebnisse für beide Klassen für alle 3 Strukturmuster sind in der Figur 1 dargestellt. Das Molekül CCOCOCC weist nur die Strukturmuster [CX4H3], [CX4] auf, so dass die Einflüsse dieser Strukturmuster in beiden Klassen gemäß der Formel (2) aufsummiert wurden. Die ergab einen Punktewert von P, <=1 ,67 für die Klasse .blumig' und einen Punktewert von P,/<=1 ,50 für die Klasse .medizinal'. Das Molekül wurde daraufhin der Klasse .blumig' zugeordnet. Alle weiteren 9 Moleküle wurden nach dem gleichen Prinzip klassifiziert. Dabei konnten 3 Moleküle der Klasse .blumig' zugeordnet werden und 7 Moleküle der Klasse .medizinisch'. Diese 3 Moleküle wurden im Folgenden selektiert.

Von den 3 Molekülen der Klasse .blumig' hatte das Molekül CCOCOCC den höchsten Punktewert. Aufgrund der überschaubaren Menge an Molekülen, die der Klasse .blumig' zugeordnet wurden, wurden alle drei Moleküle im Folgenden experimentell untersucht. Substanzen, bestehend jeweils aus den 3 Molekülen, wurden durch eine in der Wahrnehmung von Gerüchen trainierten Person untersucht und es konnte festgestellt werden, dass alle drei Moleküle auch in der experimentellen Bestätigung der Klasse .blumig' zugeordnet werden konnten.

Ausführungsbeispiel 2 - Validierung mathematisches Modell Das erfindungsgemäße Verfahren wurde anhand einer Gruppe von 64 Molekülen durchgeführt. Die 64 Moleküle wurden der Klassifizierung Geruch mit den Klassen , blumig', .medizinisch', .holzig, harzig', .widerlich', .fruchtig, nicht zitronig' und .parfümiert' zugeordnet. Für das T raining des Modells wurden 63 Moleküle der 64 Moleküle verwendet, wobei deren Klassenzugehörigkeit jeweils bekannt war. Es wurde ein mathematisches Modell für die Klassifizierung Geruch erstellt. Anschließend wurde die Klasse des übrig gebliebenen Moleküls mit Hilfe des mathematischen Modells berechnet. Hierfür wurden verschieden Wichtungsfunktionen a,j und/oder verschiedene Selektionen von Strukturmustern genutzt. Die folgende Tabelle in Figur 2 stellt die Ergebnisse dar. Die Genauigkeit wenn der Geruch eines Moleküls geschätzt wird liegt bei 21 ,35 %. Das bedeutet, dass das erfindungsgemäße Verfahren den Geruch von Molekülen mit mindestens der doppelten Genauigkeit Klassifizieren kann, als wenn lediglich geschätzt wird. Am genauesten waren die Ergebnisse der Klassifizierung über das mathematische Modell wenn a,j eine tf-idf-Wichtung war. Die Genauigkeit lag hier bei über 65%. Bei der Berechnung der Genauigkeit wurden alle Moleküle, die nicht klassifiziert werden konnten als .falsch' gewertet.

Für zwei der Moleküle konnte keine Klassifizierung berechnet werden. Einmal für Hexanol, da dies nur Strukturmuster aufwies, die in allen Klassen vorkommen. Und für Thiophen, welches wiederum nur Strukturmuster aufweist, die von den 64 Molekülen ausschließlich in diesem Molekül vorkommen, das mathematische Modell konnte daher für diese Strukturmuster keine Wahrscheinlichkeiten zur Verfügung stellen.

Ausführungsbeispiel 3 - Anwendungserlaubnis von Chemikalien in der Kosmetikindustrie und Körperpflege

Das erfindungsgemäße Verfahren wurde zur Vorhersage der Anwendungserlaubnis von Chemikalien in der Kosmetik und Pflege verwendet. Hierfür wurde ein Datensatz bestehend aus 800 Molekülen (400 davon mit und 400 ohne Anwendungserlaubnis) und 500.047 Strukturfragmenten zum Trainieren des mathematischen Modells verwendet. Das mathematische Modell mit der tf-idf-gewichteten bedingten Wahrscheinlichkeit Pr(Cj|Fj) konnte mit einer Genauigkeit von über 85% replizieren, ob Moleküle des Trainingsdatensatzes eine Anwendungserlaubnis haben. Für 200 weitere Moleküle (100 mit, 100 ohne Anwendungserlaubnis) wurde mithilfe des mathematischen Modells die Anwendungsvorhersage prognostiziert. Die Ergebnisse wurden mit FCM and Articles Regulation, Annex 11 - Restricted Substances the Annex 11 der European Chemicals Agency (ECHA) verglichen. Nur 11 Moleküle wurden fälschlicherweise als erlaubt klassifiziert. Insgesamt lag die Genauigkeit bei 81%. Somit können durch das erfindungsgemäße Verfahren bei der Synthese von Chemikalien für Kosmetik und Körperpflege signifikant Arbeits- und Personalkosten eingespart werden, indem sich verstärkt auf prognostizierte erlaubte Substanzen konzentriert wird.

Literatur

[1] a) L. G. Fine, C. E. Riera, Frontiers in physiology 2019, 10, 1151 ; b) P.

Morquecho-Campos, K. de Graaf, S. Boesveldt, Food quality and preference 2020, 85, 103959.

[2] J. E. Taylor, H. Lau, B. Seymour, A. Nakae, H. Sumioka, M. Kawato, A. Koizumi, Frontiers in Neuroscience 2020, 14, 255.

[3] N. B. Tran, D. R. Kepple, S. A. Shuvaev, A. A. Koulakov, International Conference on Machine Learning 2019, 6305.

[4] a) A. Keller, R. C. Gerkin, Y. Guan, A. Dhurandhar, G. Turu, B. Szalai, J. D. Mainland, Y. Ihara, C. W. Yu, R. Wolfinger, Science 2017, 355, 820; b) H. Li, B. Panwar, G. S. Omenn, Y. Guan, Gigascience 2018, 7, gix127.

[5] K. Snitz, A. Yablonka, T. Weiss, I. Frumin, R. M. Khan, N. Sobel, PLoS computational biology 2013, 9, e1003184.

[6] L. Shang, C. Liu, Y. Tomiura, K. Hayashi, Analytical chemistry 2017 , 89, 11999.

[7] a) C. S. Sell, Angewandte Chemie International Edition 2006, 45, 6254; b) M. Genva, T. Kenne Kemene, M. Deleu, L. Lins, M.-L. Fauconnier, International journal of molecular sciences 2019, 20, 3018.

[8] K. J. Rossiter, Chemical reviews 1996, 96, 3201.

[9] K. Kaeppler, F. Mueller, Chemical senses 2013, 38, 189.

[10] R. Kumar, R. Kaur, B. Auffarth, A. P. Bhondekar, PloS one 2015, 10, e0141263.

[11] R. M. Khan, C.-H. Luk, A. Flinker, A. Aggarwal, H. Lapid, R. Haddad, N. Sobel, Journal of Neuroscience 2007, 27, 10015.

[12] a) M. Zarzo, Journal of Sensory Studies 2008, 23, 354; b) A. Koulakov, B. E. Kolterman, A. Enikolopov, D. Rinberg, Frontiers in systems neuroscience 2011 , 5, 65.

[13] M. B. Kursa, W. R. Rudnicki, J Stat Softw 2010, 36, 1.

[14] A. Keller, e-Neuroforum 2003, 9, 121.

[15] M. B. Kursa, A. Jankowski, W. R. Rudnicki, Fundamenta Informaticae 2010, 101, 271.

[16] G. E. Hinton, R. R. Salakhutdinov, Science 2006, 313, 504.

[17] D. Weininger, Journal of chemical information and computer sciences 1988, 28, 31.

[18] Daylight Chemical Information Systems, Inc., "3. SMILES - A Simplified Chemical Language", can be found under https://www.daylight.com/dayhtml/doc/theory/theory.smiles.ht ml, 2019,

[19] Daylight Chemical Information Systems, Inc., "4. SMARTS - A Language for Describing Molecular Patterns", can be found under https://www.daylight.com/dayhtml/doc/theory/theory.smarts.ht ml, 2019. [20] https://doi.Org/10.1186/S13321 -020-00445-4

[21] https://www.rdkit.org/UGM/2012/Landrum_RDKit_UGM.Fingerprint s.Final.pptx.pdf

[22] http://www.talete.mi.it/products/dragon_molecular_descriptor _list.pdf

[23] https://ai.googleblog.com/2019/10/learning-to-smell-using-de ep-learning.html [24] arXiv:1910.10685v2

[25] Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999

[26] Heiner Strickenschmidt, Ontotogien: Konzepte, Technologien und Anwendungen, Springer Verlag, 2009