Hyun Kim     Hyejin Kang
RWTH Aachen University     RWTH Aachen University
Hyun.kim@rwth-aachen.de     Hyejin.kang@rwth-aachen.de


Abstract

In letzter Zeit hat das Graph Neural Network (GNN) in verschiedenen Bereichen, einschließlich des sozialen Netzwerks, des Knowledge-Graphs und der Naturwissenschaften, immer mehr Aufmerksamkeit erhalten. GNN ist ein Zweig von Machine Learning, der sich mit dem effektivsten Aufbau neuronaler Netze für Graphdaten befasst. Es bietet beeindruckende Leistung und hohe Interpretierbarkeit, insbesondere in dem Bereich, in dem Beziehung und Interaktion von Daten eine wichtige Rolle spielen. In diesem Artikel stellen wir zunächst biologische Netzwerke und dann die Prinzipien und zugrunde liegenden Algorithmen von GNNs vor. Darüber hinaus werden wir die Anwendungsaufgaben von GNN in der Biologie diskutieren.

Keywords

biologische Netzwerke; Graph convolutional Netzwerke; Machine Learning



Inhaltsverzeichnis

  1. Einleitung
  2. Arten von biologischen Netzwerke
  3. Kernidee von Graph Neural Network (GNN)
  4. Anwendung
  5. Zusammenfassung/Ausblick
  6. Referenzen


Einleitung

Um viele biologische Prozesse zu verstehen, muss man nicht nur die biologische Entität selbst kennen, sondern auch die Beziehungen zwischen ihnen. Daher werden biologische Systeme häufig als Netzwerke dargestellt, bei denen es sich um komplexe Mengen binärer Interaktionen oder Beziehungen zwischen verschiedenen Entitäten handelt. Einige der allgemeinen Arten von biologischen Beispielen sind Protein-Protein Interaction Network, Metabolic Network und Gene Regulatory Network usw. Heutzutage wird die Tendenz biologischer Forschung von fragmentarischer Forschung zur komplexen und umfassenden Forschung geändert. Außerdem ist die Entwicklung der Technologie eine der Ursachen für die explosive Zunahme der Menge an Forschungsdaten für die Datenanalyse. Für eine effektive Analyse von großen Mengen an Daten erhalten Deep Learning, das eine Analysemethode in Kombination mit der Computertechnologie ist, immer mehr Aufmerksamkeit . Wir beginnen dieses Kapitel mit der Einführung biologischer Netzwerke und dann erklären über das Prinzip von GNN (Graph Neural Network), was eine Deep Learning Methode zur Analyse von Netzwerken ist. Abschließend werden wir darüber diskutieren, bei welchen biologischen Studien GNN verwenden und zu welchen Ergebnis GNN im Vergleichen zur bestehenden Analysemethode führt.


Arten von biologischen Netzwerke

Biologisches Netzwerk verwendet die Graphentheorie, die aus einer Reihe von Knoten und einer Reihe von Kanten besteht, um komplexe biologische Systeme darzustellen und zu analysieren. Knoten repräsentieren verschiedene Einheiten(z.B. Gene oder Proteine) und Kanten vermitteln Informationen darüber, wie die Knoten verbunden sind. Netzwerke bieten eine einfache und intuitive Darstellung heterogener und komplexer biologischer Prozesse. Darüber hinaus erleichtert es die Modellierung und das Verständnis komplizierter biologischer Mechanismen mithilfe von Graphentheorie. Im folgenden Abschnitt stellen wir zunächst vertretbare Arten von biologischen Netzwerken vor, nämlich PPIN (Protein-Protein Interaktion Netwrok), Metabolic Network und Gene Regulatory Network.

Protein Protein Interaction Network (PPIN)

Protein-Protein Interactions (PPIs) sind für fast jeden Prozess in einer Zelle wesentlich. Das Verständnis von PPI ist daher für biologische Studien von entscheidender Bedeutung. Protein-Protein Interaction Networks (PPIN) sind mathematische Darstellungen der physikalischen Kontakte zwischen Proteinen in der Zelle. Beispielsweise wird Krebs in der PPIN als bösartige Zelle dargestellt, und seine anschließende Analyse kann einen Einblick in das Verhalten von Krebszellen geben. Im folgenden Graph(PPIN) werden Proteine als Knoten dargestellt, die durch ungerichtete Kanten verbunden sind.
Abbildung 1 Abbildung 1. PPI Network

Metabolic Network

Metabolic Networks werden verwendet, um den Metabolismus(Stoffwechsel) darzustellen, die eine Reihe aller chemischen Reaktionen, die es einem Organismus ermöglichen, zu wachsen, sich zu vermehren, auf die Umwelt zu reagieren und seine Struktur beizubehalten. Im folgenden Metabolic Network werden Metaboliten und Enzyme auf Knoten und Aktionen von Enzymen auf die Richtungskanten abgebildet. Kanten können die Richtung des Stoffwechselflusses oder die regulatorischen Auswirkungen einer bestimmten Reaktion darstellen.
Abbildung 2 Abbildung 2. Metabolic Network

Gene Regulatory Network

Gene Regulatory Network(GRN) stellt einen komplexen Mechanismus zur Steuerung der Genexpression dar, eine Reihe von Prozessen, die zur Produktion von Proteinen in der DNA-Sequenz führen. Gene und Expressionselemente werden durch Knoten dargestellt, und eine Kante, die zwischen zwei Genen verbunden ist, bedeutet, dass ein Gen die Expression des anderen Gens direkt steuert, ohne das andere zu stören. Regulatorische RNA und andere Mechanismen können ebenfalls Teil dieser Art von Netzwerk sein.
Abbildung 3 Abbildung 3. Gene Regulatory Network


Kernidee von Graph Neural Network (GNN)

Graphen sind im Gegensatz zu Bildern und Text schwierig, Theorien von Deep Learning, das eine Methode des Machine Learning ist, unmittelbar anzuwenden, weil Graphen keine genau definierte Struktur haben, wie Text und Bildern. Der Knoten eines Graphen hat möglicherweise keine oder viele Verbindungen, von denen eine gerichtet oder ungerichtet sein könnte. Jeder Graph kann unterschiedliche Anzahl von Knoten und Kanten haben und kann nicht ordnungsgemäß in der Größe angepasst werden. Sie können entweder azyklisch, zyklisch, zusammenhängend oder nicht-zusammenhängend sein. Diese machen schwer, über die Methoden von Deep Learning einen Graph zu analysieren. Deep-Learning-Methoden behandeln Vektordaten, und da Graphen nicht direkt in einen Vektor konvertiert werden können, sind spezielle Methoden erforderlich. Hierbei schauen wir zwei wichtigen Untermenge von GNN, Graph Embedding und Graph Convolution Network(GCN), mit denen Graphen auf Deep Learning angepasst werden kann(Wu et al., 2020).

Graph Embedding

Graph Embedding dient zum Konvertieren eines Graphen in einen Vektor oder eine Reihe von Vektoren. Mit anderen Worten, es wird versucht, eine niedrigdimensionale Vektordarstellung eines Graphen oder von Elementen eines Graphen, wie z.B. seinen eigenen Knoten, zu lernen. Das Ziel dieses Prozesses ist, eine bestimmte Funktion zu suchen, z.B. F(G) im folgenden Bilder, um den erforderlichen repräsentativen Wert aus dem Diagramm zu finden. Das Embedding wird normalerweise für die Anwendung in Knoten- oder Diagrammklassifizierung bzw. Link Prediction, wo Verbindung zwischen zwei Entitäten vorhergesagt werden, verwendet.
Abbildung 4 Abbildung 4. Graph Embedding

Recurrent Neural Network(RNN)
RNN ist eine typische Architektur für die Graph Embedding. Wir können anhand des folgenden Beispiels verstehen, wie die RNN auf das Diagramm angewendet wird.
a. Ziel
Vorhersage des Einflusses von SNS Benutzern, wenn ihre Netzwerkbeziehungen grafisch dargestellt werden.
b.Prozess
1_ Embedding jedes Knotens - Verwendet jeden Knoten als RNN-Einheit
Jeder Knoten des Graphs enthält die Merkmale von Alter, Geschlecht, Aktivitätszeitraum und über Embedding stellt es als ein Vektor dar.
2_ Definiere ein Neural Network nach Kantentyp - In dem Graph gibt es verschiedene Kantentypen / Konfiguriere Netzwerke für verschiedene Typen unterschiedlich.
Für die Freunde- und die Follow-Beziehungen verwenden unterschiedliche Kantengewichte.
3_ Betrachte benachbarte Knoten als zum Zeitpunkt (t-1) und verwende die Recurrent Unit, um ein neues Hidden1 zu erstellen.
Im folgenden Graph kann eine neue Darstellung (durch blaue Blöcke gekennzeichnet) erstellt werden, indem der mittlere Knoten mit den nächsten Knoten durch Informationen von NN1 kombiniert werden.
Abbildung 5-1 Abbildung 5-1. Prozess von RNN
4_ Für alle benachbarten Knoten wenden wir RNN-Algorithmus an und bekommen 4 Hidden. Die Summe von dieser Hiddens erzeugen eine neue Darstellung des Zielknotens, der alle Infos der benachbarten Knoten enthält.
5_ Durch gleiches Durchführen einer Informationskopplung mit einem RNN für alle Knoten werden alle Knoten nun zu Präsentationen mit Informationen von ihren jeweiligen benachbarten Knoten.
6_ Die letzte Embedding kann durch die Summe der Präsentation jedes Knotens erzeugt werden. (Ignoriere die Reihenfolge).
Abbildung 5-2 Abbildung 5-2. Prozess von RNN



Graph Convolution Network (GCN)

Graph Convolution Networks(GCNs) sind eine Untermenge von GNN (Graph Neural Network), die die sehr erfolgreiche Architektur von Deep Learning CNN(Convolutional Neural Network) anpassen, um an Daten mit grafischer Struktur zu arbeiten.
Abbildung 6 Abbildung 6. Prozess von CNN


Das Ziel von GCN besteht darin, die wichtigsten Informationen für die Ausführung von Aufgaben aus Graphen zu extrahieren. Während CNNs können für in einem Bild erfassten räumlichen Informationen und Beziehungen nutzen, da eine Reihe von Bildern auf bestimmten regulären Raster definiert werden kann, ist die Reihenfolge der Adjazenzmatrix eines Graphen beliebig und kann daher nicht direkt in das CNN-Framework übersetzt werden. Daher sammelt GCN Informationen von wichtigen Knoten und Kanten innerhalb des Graphs, indem die über dem Filter nehmende Informationen vom Graph übergeben werden (Ryu et al., 2018).
Abbildung 7 Abbildung 7. Funktion für die Aktualisierung von Hidden-Zustand
• H2(l+1): Reflektiert die Wertauswirkung benachbarter Knoten
• 𝛔: Aktivierungsfunktion
• W: Gewicht
• H: Hidden Zustand (Feature-Matrix von Knoten)
Abbildung 8 Abbildung 8. Visuelle Darstellung eines k-Schnitt -GCN

Visuelle Darstellung eines k-Schicht - GCN
Die Eingabe ist die Adjazenzmatrix A ∈ Rn×n eines Graphs und die Knotenattributmatrix X ∈ Rn×d. Jede Schicht des GCN wird über die Nachbarschaft jedes Knotens akkumuliert, wobei die Knotendarstellungen der vorherigen Schicht im Netzwerk verwendet werden. Die Ansammlung in jeder Schicht wird durchgelaufen und dann eine Aktivierungsfunktion geführt, bevor sie zur nächsten Schicht übergehen. Dieses Netzwerk kann verwendet werden, um verschiedene Ausgaben zu erzeugen: zum Vorhersagen neuer Kanten im Eingangsnetzwerk (Verbindungsvorhersage), zum Klassifizieren einzelner Knoten im Eingabediagramm (Knotenklassifizierung) oder zum Klassifizieren des gesamten Eingabediagramms (Diagrammklassifizierung). Um eine Graph-Klassifizierung durchzuführen, ist ein zusätzlicher Ausleseschritt (hier die Summe über alle Knoten) erforderlich, um die Ausgabe von Rn×c auf Rc abzubilden. Die Farbe repräsentiert die vorhergesagten Klassen für die jeweilige Entität in der Ausgabe (Giulia Muzio, 2020).

Anwendung

Lassen Sie uns nun einige praktische Anwendungsfälle von GNN in der Biologie vorstellen. Zuerst beginnen wir mit der Proteomik. Da die Proteomik es ermöglicht, Zielproteine ​​zu finden, die in direktem Zusammenhang mit Krankheiten stehen. Sie liefern daher detaillierte Informationen über die Ursache und den Prozess vieler Krankheiten wie Krebs. Es kann auch direkt zur Entwicklung neuer Medikamente und zur Prognose und Diagnose von Krankheiten eingesetzt werden. In diesem Zusammenhang wird auch die Verwendung von GNN im Bereich der Entwicklung neuer Arzneimittel und der Vorhersage von Krankheiten untersucht.

Proteomik

Proteine ​​spielen bei vielen biologischen Prozessen eine zentrale Rolle. Ein besseres Verständnis deren Rollen und Wechselwirkungen ist daher der grundlegendste und wichtigste Teil der Beantwortung einer Vielzahl biologischer Fragen.

Prognose der Protein-Protein-Interaction (PPI)
Unter vielen Proteomik ist die Analyse der Protein-Interaktion bei weitem die effektivste Methode zur Genfunktionsanalyse zur Entdeckung von Zielproteinen. Daher wird eine umfassende Maps, die allgemein alle Proteinwechselwirkungen bezeichnet werden, die Entdeckung krankheitsbedingter Zielproteine ​​und die Entwicklung neuer Medikamente beschleunigen und ist vor allem auch das grundlegendste Forschungsfeld. Anhand eines Proteindiagramms mit Kanten, die Proteininteraktionen darstellen, können Sie vorhersagen, ob andere Proteinpaare wahrscheinlich interagieren. Es ist ein ‘link prediction’ Problem aus Sicht der Graphentheorie. (Giulia Muzio, 2020) Traditionell wird die Primärstruktur der Aminosäuresequenz verwendet, um Proteine ​​zu vektorisieren und zu klassifizieren. Neuere die Diagrammstruktur verwendende Methoden zeigen jedoch eine stärkere Leistung als die vorherigen Methoden, die einfach Sequenzinformationen verwenden. Von einem reinen sequenzbasierten Vektoransatz wird die Vorhersage der Proteininteraktion verbessert, zu einem, der auch Netzwerkinformationen unter Verwendung eines GCN enthält. Sie schlagen vor, die Expression jedes Knotens zu lernen, unter Verwendung des universalen GCN-Frameworks in PPI, das die primäre Struktursequenz des Proteins codiert. (Giulia Muzio, 2020)
Außerdem wurde Deep Learning zur Vektorzusammenfassung von Proteinsequenzen verwendet, um die Verbindung vorherzusagen. Die Repräsentation jedes Proteinpaars wird als Eingabe in ein tiefes neuronales Netzwerk (Deep neural Network) verwendet, um vorherzusagen, ob das Paar interagiert oder nicht. Deep PPI übertrifft vorhandene Methoden wie SVM und Random in verschiedenen Metriken wie Genauigkeit, Präzision und Rückruf. (Giulia Muzio, 2020)
Abbildung 9 Abbildung 9. PPI Netzwerk mit 1.253 gewichteten Interaktionen zwischen 232 Proteinen

Prognose der Proteinfunktion und -struktur
Darüber hinaus wird die Funktion von Proteinen durch Knotenklassifizierung (Node Classification) und Graph Klassifizierung (Graph Classification) vorhergesagt. Der ‘Node Classification’ klassifiziert die Funktionen von Proteinen, die nur für einige Proteine ​​bekannt sind und nicht als PPI bekannt sind. Es bietet mehrere PPIs, erleichtert die Integration aller Informationen und liefert letztendlich niedrigdimensionale Vektoren für die Klassifizierung von Proteinfunktionen. Der Graph Classification erstellt einen Graphen der sekundären Strukturelemente eines Proteins und klassifiziert ihn in funktionelle Gruppen.(Giulia Muzio, 2020)
Kürzlich hat eine Methode Aufmerksamkeit weckt, die eine Prognose die 3D-Struktur eines Proteins aus dieser Nukleotidsequenz stellt. Die Darstellung einer dreidimensionalen Struktur bedeutet, dass mehr Informationen erfasst und verwendet werden können und sich gut für die Biologie eignen. Wenn Sie die 3D-Struktur eines Proteins kennen, erfahren Sie auch, welche Funktion es hat. In 3D-GCN verarbeitet GCN räumliche Informationen der molekularen Topologie durch Integration mit dem Lernen für Vektoren. Im Vergleich zu anderen Deep-Learning-Modellen zeigt es bei verschiedenen Aufgaben eine viel höhere Leistung und kann auf Zielfunktionen verallgemeinert werden. Die Grundlage für die Prognose der 3D-Struktur beginnt mit der Sequenz der Aminosäuren. Diese Eingabe wird mit anderen Merkmalsinformationen kombiniert, die aus der Proteindatenbank gesammelt wurden, und sagt mit der CNN die diskrete Wahrscheinlichkeitsverteilung über den Abstand zwischen allen Aminosäurepaaren und die Wahrscheinlichkeitsverteilung der Verdrehungswinkel voraus. Wenn die Entfernung und der entsprechenden Verteilung vorausgesagt werden, kann zu aussagekräftigeren und genaueren Ergebnissen führen als frühere Ansätze zur Vorhersage, ob zwei verbunden sind. (Senior et al., 2020)

Arzneimittelentwicklung

Unter anderem gewinnt GNN in der Pharma- und Biotechnologiebranche immer mehr an Aufmerksamkeit, aufgrund seiner Fähigkeit, biomolekulare Strukturen und funktionelle Beziehungen zwischen ihnen zu modellieren und mehrere ‘omic’ Datensätze zu integrieren. Um neue Medikamente zu entwickeln, werden Tausende chemischer Verbindungen gescreent (Drug-Target-prediction), um chemische Verbindungen zu finden, die auf zuvor identifizierte therapeutische Ziele reagieren, und die Eigenschaften von Kandidatensubstanzen werden untersucht (Prediction of drug properties). Darüber hinaus wird die Aufmerksamkeit darauf gerichtet, zu bestätigen, ob ein Kombinationspräparat bei der Behandlung einer Krankheit wirksam sein kann, die mit einem einzigen Medikament schwer zu behandeln ist. Eines der Hauptmerkmale von biomedizinischen Daten, die im neuen Arzneimittelentwicklungsprozess generiert und verwendet werden, ist, dass sie miteinander verbunden sind. Natürlich können diese Datenstrukturen als Graph dargestellt werden. (Thomas Gaudelet, 2012)

Prognose der Eigenschaften von Arzneinittel
Die Untersuchung der Beziehung zwischen molekularer Struktur und biochemischer Funktion spielt eine wesentliche Rolle bei der Entwicklung neuer Medikamente. (Hyeoncheol Cho, 2018) Medikamente können in molekularer Struktur und molekulare Struktur in grafischer Form ausgedrückt werden. Bei der Entwicklung neuer Arzneimittel ist es wichtig, eine neue Molekülstruktur mit den gewünschten Eigenschaften zu entwerfen. Dies ist schwierig, da es viele sehr komplexe Regeln gibt. GNN wird immer wichtiger bei der Entwicklung neuer Medikamente, bei denen eine neue Molekülstruktur mithilfe von Graph entworfen oder erstellt werden muss, wobei diese komplexen, aber grundlegenden Regeln beibehalten werden. In (You et al., 2019) wird durch die Graph convolutional Network und das Bestärkendes Lernen (Policy Gradient) ein Graph dem Zweck entsprechend erstellt. Die erstellt das Molekular Graph durch Verbinden neuer Substrukturen oder Atome mit vorhandenen molekularen Graphen oder durch Verbinden von Atomen bestehender molekularer Graphen. Es wird gesagt, dass die Optimierungsleistung die chemischen Eigenschaften (chemical property) um 61% und die eingeschränkten Eigenschaften (constrained property) um 184% im Vergleich zum state-of-the-art erhöhte. In (Hyeoncheol Cho, 2018) Studie schlagen Autors einen 3D-Graphen (Convolutional Network 3DGCN) vor, der basierend mit dem 3D-Molekulargraphen die molekularen Eigenschaften und biochemische Aktivität vorhersagt. Wenn die Parameter aufgrund 3D-Eingaben und -Filtern exponentiell ansteigen, benötigen voxelbasierte Modelle viel Speicher und eine große Menge an Trainingsdaten. Daher wurde GCN eingeführt. In diesem Artikel schlagen sie einen neuen Algorithmus vor, die Dreidimensionalität von Molekülen mit GCN zu kombinieren und Vorhersagen in Bezug auf die dreidimensionale molekulare Topologie zu machen. Insbesondere die Richtungsdiskriminierung bei der Vorhersage der Protein-Ligand-Bindungsaffinität hat einen großen Einfluss auf die Entwicklung neuer Medikamente. Zudem wird 3DGCN voraussichtlich die Entwicklung von Deep-Learning-Algorithmen für nächsten Generation leiten.

Prognose von Drug-Target Interaction (DTI)
Um ein neues Medikament zu entwickeln, ist es notwendig, die Struktur des Medikaments zu kennen, aber vor allem zuerst muss das Target des Medikaments genau vorhergesagt werden. Daher spielt die Vorhersage von Drug-Target-Interaktionen (DTIs) eine wichtige Rolle. Hier bezieht sich Drug auf chemische Verbindungen und Target auf Proteine. Laut (Gao et al., 2018) umfassen Methoden zur Vorhersage bestehender DTIs 1. Molecular Docking 2. Machine Machine. Die erste Methode sagt DTIs voraus, indem durch 3D-Simulation ein stabiler komplexer Zustand gefunden wird, was viel Zeit und Kosten kostet. Die zweite Methode sagt DTIs voraus, indem eine Learning Maschine auf Wissensgebiet basierende angewendet wird, um geeignete Merkmale zu finden, aber erfordert ein hohes Maß an Domänen-Wissen. Um dieses Problem zu lösen, wird Deep Learning, darunter GNN, verwendet. Um das Drug als Modell zu eingeben, muss es nur als Adjazenz Matrix ausgedrückt werden. Daher hat es den Vorteil, dass es einfacher verwendet werden kann als die Extended-Connectivity Finger Prints (ECFPs), die weit verbreitet ist. Das Graph von Arzneimitteln können durch GCN als dichte Vektoren ausgedrückt und unter Verwendung dieser auf Klassifizierungsprobleme angewendet werden.
Abbildung 10 Abbildung 10. 3D der Drug-Target Interaction

Prognose der Drug-Drug-Interaction (DDI)
Wie oben erwähnt, werden bei komplexen Krankheiten mehrere Arzneimittel zusammen verabreicht. Zu diesem Zeitpunkt kann die Drug-Drug-Interaction die Wirkung des Kombinationsarzneimittels erhöhen oder verringern und kann auch für den menschlichen Körper schädlich sein, wie z. B. Nebenwirkungen. Deswegen ist es wichtig im Voraus zu wissen, ob unerwünschte Nebenwirkungen wegen der DDI verursacht werden. Um schwerwiegende unerwünschte Arzneimittelwirkungen zu verhindern, wurden mehrere Datenbanken wie DrugBank und Drugs.com erstellt. Das manuelle Sammeln von DDI-Informationen ist jedoch zeitaufwändig, teuer und fast unmöglich. In der biomedizinischen Literatur ist daher die Entwicklung eines automatischen DDI-Systems im Hinblick auf die Effizienz besonders wichtiger geworden. Bestehende Methode der DDI-Extraktion konzentrieren sich hauptsächlich auf strukturelle Informationen im Kontext oder in Sätzen trotz ihrer komplementären Rolle. Da wie diese Studien nicht das gesamte Wissen des Eingabesatzes nutzen, können wichtige Hinweise verloren gehen. In (Park et al., 2020) wird ein Attention-based Graph Convolutional Networks (AGCN) vorgeschlagen, um dieses Problem zu lösen. Im Gegensatz zu bestehenden DDI-Extraktionsmethoden ist AGCN so erstellt, dass Kontext- und Strukturwissen zusammen genutzt werden, und wobei GCN mit Encoder verwendet wird, die auf sich wiederholenden Netzwerken basieren. Außerdem wird eine neue attention-based Pruning angewendet, um syntaktische Informationen optimal zu nutzen und irrelevante Informationen zu ignorieren. Daher kann AGCN den Kontext und die Struktur der Eingabe so effizient wie möglich nutzen.

Prognose und Diagnose von Krankheiten

Nicht nur bei der Behandlung von Krankheiten, sondern auch bei der Prognose und Diagnose hat GNN in kürzerer Zeit großen Nutzen gefunden. (Giulia Muzio, 2020) stellt eine Studie vor,die die GCN und das Beziehungsnetzwerk (relation network-RN) integriert und ausgewählt das mit Genexpressionsdaten erweiterte PPI-Netzwerk. Durch das GCN können lokale Diagramminformationen gelernt werden und kann mit dem RN komplexe Muster zwischen den Mengen der Knoten erfasst werden. Dies ist eine Methode, Ergebnis der Klassifizierung zu erhalten, indem der Ausgaben von GCN und RN kombinieren. Diese Studie zeigt, dass das Erlernen von PPI-Netzwerkfunktionen über GCN eine große Hilfe bei der Erfassung von Mustern in Genexpressionsdaten sein kann. Außerdem wurde kürzlich ein Algorithmus veröffentlicht, der das Auftreten einer Sepsis bis zu 12 Stunden vorher vorhersagt. (Lee et al., 2020) Dier Autor verwendet die GCN-Technologie, damit Auslassungen von medizinischen Daten, die häufig schwer zu messen sind, kompensiert werden. So wird die Genauigkeit der Sepsis-Vorhersage verbessern, indem die Korrelation zwischen verschiedenen Variablen überprüft wird und die fehlenden Daten mit hoher Genauigkeit vorhergesagt werden. Als Ergebnis des Machine Learning, die EHR-Daten von mehr als 60.000 Intensivpatienten mit dem GCN-Algorithmus aufgeführt, erhöhten sich AUROC (Area Under the Receiver Operating Characteristic) und AUPRC (Fläche unter der Präzisionsrückrufkurve) auf 3% bzw. 18% in NEWS (National Early Warning Score) und SOFA (Sequential Organ Failure Assessment). Sowohl AUROC als auch AUPRC sind Indikatoren für die Leistung von Algorithmen für künstliche Intelligenz. NEWS und SOFA sind Indizes zum Screening von Sepsis-Patienten, die auf tatsächlichen Intensivstationen behandelt werden müssen.


Zusammenfassung

In diesem Artikel haben wir ein Zweig von Machine Learning GNN erklärt, die in der Biologie, insbesondere bei der Struktur biologischer Netzwerke, eingesetzt werden kann. Die Gründe, warum GNN in der Biologieforschung besonders beliebt ist, sind folgende. Erstens können durch das Erlernen und Verarbeiten großer Datenmengen durch Computer in kurzer Zeit und zu geringen Kosten genaue Analysen und Vorhersagen durchgeführt werden. Zweitens, während das konventionelle Machine Learning für Bilder oder für Texte optimiert ist, ist GNN jedoch so angepasst, dass es auf die in der Biologie häufig verwendete “Graph-Struktur“ angewendet. Wie wir in den Anwendungsfällen von GNN in “die Analyse der Protein-Interaktion”, “Arzneimittelentwicklung” und “Prognose und Diagnose von Krankheiten” sehen können, spielt dies eine große Rolle bei der Verbesserung der Effizienz und Genauigkeit der Forschung in Biologie. Mit zunehmendem Interesse an Gesundheit und Krankheit werden heute Investitionen und Forschung auf dem Gebiet der Biologie aktiv durchgeführt. Mit dem Fortschritt der Informatik und Technologie entwickelt sich Machine Learning zu einer zukünftigen Technologie, die die Effizienz und Leistung in verschiedenen Bereichen verbessert. Daher ist die Verwendung von GNN auf dem in diesem Artikel diskutierten Gebiet der Biologie ein interessantes Forschungsgebiet und wird sich voraussichtlich weiterentwickeln.


Referenzen

  1. https://www.ebi.ac.uk/training-beta/online/courses/network-analysis-of-protein-interaction-data-an-introduction/network-analysis-in-biology/
  2. Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., & Philip, S. Y. (2020). A comprehensive survey on graph neural networks. IEEE Transactions on Neural Networks and Learning Systems.
  3. https://littlefoxdiary.tistory.com/16
  4. Ryu, S., Lim, J., Hong, S. H., & Kim, W. Y. (2018). Deeply learning molecular structure-property relationships using attention-and gate-augmented graph convolutional network. ArXiv Preprint ArXiv:1805.10988.
  5. Giulia Muzio, K. B., Leslie O’Bray. (2020). Biological network analysis with deep learning. Briefings in Bioinformatics, 1–17.
  6. https://www.visual-computing.org/2016/01/18/group-structures-graphs/diss_cv01/
  7. Senior, A. W., Evans, R., Jumper, J., Kirkpatrick, J., Sifre, L., Green, T., Qin, C., Žı́dek Augustin, Nelson, A. W. R., Bridgland, A., & others. (2020). Improved protein structure prediction using potentials from deep learning. Nature, 577(7792), 706–710.
  8. Thomas Gaudelet, et al, Ben Daym Arian R. (2012). Utilising Graph Machine Learning within Drug Discovery and Development. https://arxiv.org/abs/2012.05716
  9. Hyeoncheol Cho, I. S. C. (2018). Three-Dimensionally Embedded Graph Convolutional Network (3DGCN) for Molecule Interpretation. https://arxiv.org/abs/1806.02473
  10. You, J., Liu, B., Ying, R., Pande, V., & Leskovec, J. (2019). Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation.
  11. Gao, K. Y., Fokoue, A., Luo, H., Iyengar, A., Dey, S., & Zhang, P. (2018). Interpretable Drug Target Prediction Using Deep Neural Representation. Proceedings of the 27th International Joint Conference on Artificial Intelligence, 3371–3377.
  12. Park, C., Park, J., & Park, S. (2020). AGCN: Attention-based graph convolutional networks for drug-drug interaction extraction. Expert Systems with Applications, 159, 113538.
  13. Lee, B. T., Kwon, O.-Y., Park, H., Cho, K.-J., Kwon, J.-M., & Lee, Y. (2020). Graph Convolutional Networks-Based Noisy Data Imputation in Electronic Health Record. Critical Care Medicine, 48(11), e1106—e1111. https://doi.org/10.1097/ccm.0000000000004583

  1. Hidden: In Neural Network befindet sich eine Hidden-Schicht zwischen der Eingabe und der Ausgabe des Algorithmus, in der die Funktion die Eingaben gewichtet und durch eine Aktivierungsfunktion als Ausgabe leitet. (Quelle: deepai.org)