1.Auflage

  • Vorwort
  • Abkürzungen
    • DMID In der heutigen Zeit gewinnen soziale Netzwerke immer mehr an Bedeutung, weshalb es zunehmend wichtiger wird, bestimmte Gruppierungen in diesen ermitteln zu können. Daher wollen wir in dieser Publikation einen Algorithmus zur Ermittlung solcher Gruppierungen vorstellen. Der Algorithmus operiert in zwei Phasen auf einer disassortativen Matrix, die das Netzwerk repräsentiert. In der ersten Phase untersucht man den Grad jedes Knotens und vergleicht ihn mit den Graden in seiner Umgebung, dabei ergeben sich die Anführer des Netzwerks. In der zweiten Phase wird anschließend berechnet, wie stark die Anführer die anderen Knoten im Netzwerk beeinflussen und ob diese ihre Eigenschaften übernehmen. Dadurch ergibt sich eine präzise Darstellung der Gruppierungen in realitätsnahen Netzwerken, welche in einer, im Vergleich mit anderen Algorithmen, guten Laufzeit erreicht wurde und somit auch auf sehr großen Netzwerken anwendbar ist. So macht den vorgestellten Algorithmus die Aufdeckung von hierarchischen Strukturen und die Berechnung der Beeinflussung der Knoten untereinander konkurrenzfähig gegenüber anderen „Overlapping Community Detection“-Algorithmen.
    • Link Communities Um Systeme von interagierenden Objekten wie zum Beispiel den biologischen Organismus, menschliches Sozialleben oder auch das soziale Netzwerk von Handybenutzern besser verstehen zu können, ist das Bilden von Netzwerken einer der wichtigsten Ansätze geworden. Dabei wird versucht Communities in einem Netzwerk zu identifizieren, welche nicht direkt voneinander abgegrenzt sein müssen. Ein Knoten eines Netzwerkes kann sich gleichzeitig in verschiedenen Untergruppen befinden. Des Weiteren sind Communities oftmals hierarchisch aufgebaut, wodurch ihre Struktur ebenso hierarchisch aufgebaut wird. Die Verbindung der Untergruppen und der hierarchischen Struktur lässt uns die Bildung von übergreifenden Gruppen nur sehr schwer oder meist auch gar nicht ermöglichen. Daher werden in diesem Ansatz die Verbindungen der Communities und nicht die Knoten an sich betrachtet. Es wird gezeigt, dass die entgegengesetzten Strukturen der Hierarchie und überschneidenden Communities vereint werden können. Dazu werden Link Communities anhand von einigen Beispielen betrachtet und Algorithmen vorgestellt, die die Qualität der zugehörigen Cluster bewerten. Es wird gezeigt, dass überschneidende und hierarchische Organisation in Netzwerken zwei Aspekte desselben Phänomens sind.
    • SLPA Personenspezifisches Marketing wird in Zeiten des Internets immer wichtiger, weshalb das erkennen von Communitys, also von Personengruppen mit vielen gleichen Interessen, auch immer wichtiger wird. Dabei befinden sich Personen meist in meherern Communitys gleichzeitig, wodurch diese sich überlappen. Deshalb benötigen wir eine Möglichkeit, so effizient und präzise wie möglich, überlappende Communitys in einem sozialen Netzwerk zu finden. Der hier vorgestellte Algorithmus ermöglicht genau dies, indem er verbundene Knoten Labels austauschen lässt, wobei sich die Knoten in der Rolle des Zuhörers, der die Labels seiner Nachbarn abfragt, abwecheln. Am Enden bilden dann die Knoten mit gleichen Labels eine Community. Der Algorithmus hat eine lineare Laufzeit und erbringt ein besseres Ergebnis, als viele andere Algorithmen welchem zum suchen von überlappenden Communitys genutzt werden. Mit Hilfe dieses Algorithmus wird also nicht nur effizient und effektiv nach überlappenden Communitys in Netzwerken gesucht, sondern es ist ebenfalls möglich die Kriterien und Informationen, die der Zuhörer abfragt, zu verändern und anzupassen, wodurch ein großes Potential für die Nutzung in anderen Forschungen gegeben ist.
    • SSK Wir analysieren den von Stanoev, Smilkov und Kocarev entwickelten Algorithmus zur Entdeckung von überlappenden Communities und ordnen ihn zu den in diesem Buch vorgestellten Algorithmen ein. Der Algorithmus wurde für soziale Netzwerke entwickelt, lässt sich aber auf beliebige Netzwerke, die sich durch gegenseitige Beeinflussung der Teilnehmer verdichten, anwenden. Einen allgemeingültigen Algorithmus hielten die Autoren für unzureichend, da ein guter Algorithmus sich nicht nur an der Topologie, sondern auch an den dynamischen Prozessen in einem Netzwerk orientieren sollte. Der Algorithmus erlaubt die Entdeckung von Anführern der einzelnen Communities und die Einordnung in Communities als hierarchische Einflussstrukturen. Die Modularitätsfunktion wird nicht verwendet, da diese bekanntermaßen Schwächen bei der Ermittlung verschieden starker Zugehörigkeiten, überlappender Communities, sowie kleiner Communities in großen Netzwerken aufweist. Stattdessen wird eine Einflussmatrix zur Ermittlung und ein stochastischer Zugehörigkeitsvektor zu Ermittlung wie Darstellung der Communities genutzt. Die lokale Vorgehensweise erlaubt eine verteilte Ausführung und erfordert bei Hinzufügen bzw. Entfernen von Knoten bzw. Kanten nur in deren Nachbarschaft Neuberechnungen, er ist also gut für sich wandelnde Netzwerke geeignet. Der Algorithmus zeigte sich tauglich für Repräsentanten verschiedenster Kategorien von Netzwerken.
    • MONC Im heutigen Zeitalter der sozialen Netzwerke, gewinnen Algorithmen, die diese sinnvoll analysieren und Communitys erkennen können immer mehr an Wichtigkeit. Die strukturierte Analyse und interpretation riesiger Datensätze spielen nicht mehr nur für große Firmen eine Rolle. Einen dieser Algorithmen wollen wir in dieser Arbeit vorstellen, nämlich MONC. Dieser ist ein lokaler, parameterfreier Algorithmus, zur Findung von sich überlappenden Communities in gewichteten Graphen. Von einem Startbereich ausgehend wird mithilfe einer lokalen Funktion Stück für Stück der gesamte Graph erfasst. Hier wählt man den Startbereich explizit aus, was bedeutet das ausgehend von einer Clique, der am stärksten bindende Untergraph als Startbereich übernommen wird. Dieser Vorgang wird sich im Laufe der Arbeit als sehr positiv herrausstellen. Aufbauend auf einigen weiteren Algorithmen wird die Struktur und die herangehensweise des MONC-Algorithmus heraus kristalisiert werden. Die Besonderheit von MONC ist, dass dieser im Gegensatz zu vergleichbaren Algorithmen LFM und GCE- analytisch, statt numerisch vorgeht. Dies, so wird sich zeigen, hat den Vorteil, schneller und genauer zu sein. Im Laufe dieser Arbeit wird der Algorithmus an verschieden Datensätzen ausprobiert und mit anderen verglichen und analysiert, sodass man sich ein gutes Bild über wichtige Aspekte, Vor- und Nachteile, machen kann.
    • CLIZZ Wir stellen mit CLiZZ einen Algorithmus vor, der Communities insbesondere in sozialen Netzwerken erkennt. Im Gegensatz zu vielen gängigen Ansätzen, arbeitet CLiZZ nur mit lokalen Informationen und muss den Gesamtzustand des Netzwerks nicht kennen. CLiZZ ist kein universelles Verfahren sondern fokussiert sich auf die lokalen Verknüpfungen von Knoten, wobei Interaktionen auf verschiedenen Ebenen erkannt werden können. Ein Novum des Algorithmus ist es, die topologische Entropie zu optimieren und einen Vektor für alle Knoten zu errechnen, der die jeweilige Beteiligung an allen Communities beschreibt. Es wird sich zeigen, dass CLiZZ das mit einfachen Berechnungen und folglich niedriger Komplexität schafft. Naturgemäß kann CLiZZ auch sich überschneidende Communities entdecken, da die Zugehörigkeit eines jeden Knotens zu jeder Community klar definiert ist. Durch sein hohes Maß an Genauigkeit und Effizienz ist der Algorithmus prädestiniert, um Communities in echten sozialen Netzwerken zu erkennen.
    • Visualisierung Auf dieser Seite werden die verschieden OCD Algorithmen anhand verschiedener Gütekriterien und auf verschieden Graphen miteinander verglichen. Gütekriterien: -Laufzeit der Algorithmen (auf [0, 1] normalisiert) -Omega Index: Kriterium für die Übereinstimmung der durch den Algorithmus gefunden Communities mit den tatsächlich vorhanden. -Extended Normalized Mutual Information (ENMI): Auch ein Kriterium für die Übereinstimmung. Ein Wert von 0 ist schlecht und 1 ist der bestmöglichste Wert. Die Graphen wurden entweder mit dem Newman oder dem LFR Verfahren erstellt.

    2.Auflage

    • Vorwort
    • Abkürzungen
      • Random Walks Bei der Erforschung von sozialen Netzwerken spielt das Entdecken von Communities eine große Rolle. Mein Kapitel beschäftigt sich in dem Zusammenhang mit Random Walks, einer stochastischen Methode um in mathematischen Räumen Zusammenhänge zu erkennen und zu analysieren. Ein bekanntes Anwendungsbeispiel des Random Walks, wäre der Page-Rank Algorithmus, der Websites bei Suchanfragen nach ihrer Popularität sortiert. Ich analysiere dabei schon bekannte Implementierungen von Random Walks, unter anderem Time-Rank, ein Algorithmus der sich mit der dynamischen zeitlichen Entwicklung von Communities beschäftigt. Außerdem untersuche ich eine verfeinerte Version des Info-Map Community Algorithmus, welcher über gewichtete Metadaten, in Abstimmung mit der Struktur der zu untersuchenden Communities, zusammenhängende Netzwerke erkennt. Ich betrachte weiterhin einen auf dem Markov-Modell basierten Ansatz, welcher überlappende Communities in komplexeren Netzwerken findet und diese entwirrt bzw. strukturiert darstellt. In Summe gebe ich einen prägnanten Überblick über die wichtigsten Forschungsergebnisse auf diesem Gebiet.
      • Modulary Optimization Soziale Medien gewannen in den letzten Jahren immer mehr an Bedeutung, damit auch ihre Communities sowie das Erkennen bzw. Betrachten dieser. Aber auch andere Felder, die große Mengen an verknüpften Datenpunken verwenden, wie zum Beispiel die Biologie und Physik profitieren davon untere Netzwerke schnell und verlässlich zu finden. Die hier vorgestellte Methode Modularity Optimization, ist das Maximieren der Modularität im Netzwerk, was bedeutet, die Gruppen so zu wählen, dass die Punkte möglichst eng vernetzt sind. Der Algorithmus verwendet Modularity Optimization, indem er die Punkte in andere Gruppen verschiebt und prüft, ob eine Verbesserung der Modularität stattgefunden hat. Dabei werden viele Umstände berücksichtigt, die die Laufzeit verbessern, um selbst bei größeren Netzwerken noch schnell Lösungen zu finden. Bei der Modularity Optimization ist eine hohe Auflösung eine häufig vernachlässigte Eigenschaft, da diese die Laufzeit deutlich erhöht. Wir berücksichtigen dies und können unseren Algorithmus leicht modifizieren, um deutlich höhere Auflösungen zu erziehlen, gegen genannte Nachteile.
      • Flow Based Algorithms Inn der Forschung, der freien Wirtschaft und der Politik werden jene (Meta-) Daten, die wir aus sozialen Netzwerken generieren können, immer interessanter und dementsprechend auch die Algorithmen, die diese aus den sozialen Netzwerken extrahieren. Und obwohl eben diese immer mehr an Wichtigkeit gewinnen, gibt es kaum deutsche Quellen mit deren Hilfe man sich darüber informieren kann. In diesem Kapitel des Online-Buches werden die wichtigsten Informationen rund um Flow-based-Alogrithms (Fluss-basierte-Algorithmen) (FBA) zusammengefasst. Dazu sollen verschiedene Vertreter ihrer Art, wie zum Beispiel RelaxMap, InfoMap und OCDID, untereinander verglichen werden, zudem stellen wir einen selbstgeschriebenen FBA zur Veranschaulichung vor. Als Quelle unserer Untersuchungen dienen die Ergebnisse verschiedener internationaler Forschungsteams, welche sich intensiv mit der Implementierung von FBAs beschäftigt haben. Ziel der Arbeit ist eine Grundlage deutscher Literatur zu bilden.
      • Deep Learning Die Bedeutung von Netzwerken sowohl im Kontext der steigenden Popularität von sozialen Netzwerken als auch im Kontext der Bio-Informatik nimmt immer weiter zu. Von besonderer Bedeutung ist dabei die Identifizierung von einander überlappenden Gruppierungen, welche in sozialen Netzen zum Beispiel für Empfehlungssysteme auf Basis von Gemeinsamkeiten in solchen Gruppen oder in der Bio-Informatik zur Analyse von Molekülen verwendet werden. In diesem Kapitel des Online-Buches fokussieren wir uns auf die Gruppenidentifizierung mit Hilfe von Deep Learning-Algorithmen, also einem Ansatz des maschinellen Lernens. Dazu unterscheiden wir in unserer Arbeit verschiedene Graph-Neural-Network-Algorithmen (GNN), vergleichen ihre Ansätze untereinander, stellen Gemeinsamkeiten und Unterschiede heraus. Anschließend lassen wir die Implementierung eines Line Graph Neural Network (LGNN) auf Datensätzen laufen und analysieren daraufhin verschiedene Kriterien. Abschließend visualisieren wir die Resultate. Ziel der Arbeit ist es also, Deep Learning Algorithmen zur Community Detection und im Speziellen das LGNN Modell zu verstehen und anhand des Experimentes Vor- und Nachteile herauszustellen.
      • Subspace Clustering Mit der rasanten Entwicklung sozialer Netzwerke werden jede Minute und Sekunde massive soziale Daten generiert, und fast jeder hat täglich eine große Menge an Daten, die in sozialen Netzwerken generiert und ausgetauscht werden. Dies bietet uns dann eine sehr große Datenquelle, um soziale Netzwerke eingehend zu untersuchen. Wenn wir jedoch alle Inhalte miteinander mischen, erhalten wir oft chaotische und ungenaue Ergebnisse. Durch Subspace-Clustering können wir den Inhalt in mehrere Dimensionen unterteilen und mehrere Subspaces separat untersuchen, um genauere und überzeugendere Ergebnisse zu erzielen. Das Subspace-Clustering ist eine Erweiterung des herkömmlichen Clustering, bei dem versucht wird, die Clusters in verschiedenen Subspaces innerhalb eines Datasets zu finden. In hochdimensionalen Daten sind viele Dimensionen häufig irrelevant und können vorhandene Clusters in verrauschten Daten verdecken. Durch die entsprechende Funktion werden irrelevante Dimensionen entfernt, indem der gesamte Datensatz analysiert wird. Die Subspace-Clustering-Algorithmen lokalisieren die Suche nach relevanten Dimensionen, sodass sie die Clusters finden können, die in mehreren, möglicherweise überlappenden Unterräumen vorhanden sind.
      • Ant Colony In einer sich digitalisierenden Welt nimmt die Zahl generierter Daten in sozialen Netzwerken stark zu. Zur Untersuchung der Communities und der Überlappungen zwischen diesen Gruppen, bietet der so bezeichnete Ameisenalgorithmus eine Möglichkeit diese zu erkennen und besser zu interpretieren. Basierend auf dem Verhalten von Ameisen bei der Futtersuche, bilden dabei verschiedene Wege (=Kanten) zum Problem eine Möglichkeit eine effiziente Lösung zu finden. So werden zu Beginn zufällig verschiedene Wege gewählt, um eine Lösung zu erreichen. Je effizienter, also kürzer der Weg ist, desto höher wird dieser bewertet. Die folgenden Durchläufe der Problemlösung orientieren sich dabei an den Bewertungen der Wege und nehmen mit größerer Wahrscheinlichkeit höher bewertete Wege. Beispielsweise scheiden Ameisen entlang ihres Weges einen Duftstoff aus. Wobei Ameisen auf dem kürzeren Weg schneller von der Futterstelle zurückkehren, so dass mit der Zeit auf dem kürzesten Pfad eine höhere Duftstoffkonzentration als auf den Anderen vorherrscht. Resultierend daraus wird dieser Weg von nachkommenden Ameisen bevorzugt. Durch dieses Verfahren lassen sich aus einem Graphen die kürzesten Wege zwischen Knoten erkennen und somit auch Overlapping Communities darstellen.
      • Spectral Clustering Seit einiger Zeit existiert das Interesse, Datensätze in kleinere Gruppen zu unterteilen, sie zu Clustern, um die Datensätze leichter auszuwerten oder zu verarbeiten. Die Anforderung an die für diesen Zweck eingesetzten Cluster-Alogrithmen sind Schnelligkeit, Zuverlässlichkeit und Konstanz. Mit steigender Größe und Komplexität der Datensätze, wird es zunehmend schwerer den Anforderungen gerecht zu werden und komplexe Strukturen aus den Datensätzen zu erkennen. Wir haben untersucht, wie Spectral Clustering funktioniert und sich in den benannten Belangen schlägt. Spectral Clustering kann aufgrund seiner Vielseitigkeit die meisten Datensätze erfolgreich clustern, jedoch benötigt es einiges an Erfahrung, um die besste Art des Spectral Clustering oder der benötigten Parameter auszuwählen, da noch keine bewiesenen allgemeingültigen Vorgehensweisen existieren, sondern nur ungefähre Vorgehensweisen. Es benötigt Forschung, um diese Beweise zu finden.

      3.Auflage

      • Vorwort
      • Abkürzungen
        • Identifikation von Experten  Zahlreiche Online-Gemeinschaften, vor allem Frage- und Antwort-Foren basieren auf dem Informationsaustausch zwischen Wissenssuchenden und Experten. Deshalb ist die korrekte Identifikation und Verifikation von Experten entscheidend für den Erfolg solcher Communities. Für diesen Artikel betrachteten wir die derzeit am häufigsten verwendeten Algorithmen zur Expertenfindung und Link Analysis - PageRank, Hyperlink-Induced Topic Search (HITS) - mit dem Fazit dass diese noch bestimmte Einschränkungen haben, weil sie zum Teil Probleme aufweisen wie das Ignorieren des Ausmaßes der Interaktion zwischen Nutzern (PageRank, HITS, InDegree), oder der Schwierigkeit festzulegen, wie viele Nutzer als Experten eingestuft werden sollen (PageRank, HITS). Zur Lösung dieser Schwächen werden Overlapping Community Detection (OCD) Algorithmen in Betracht gezogen. Diese füllen erfolgreich Lücken in der Aussagekraft der Link Analysis Algorithmen und sorgen deshalb insgesamt für verbesserte Expertenerkennung. Die OCD Algorithmen teilen die Nutzer nach Gemeinsamkeiten in Communities ein. Dadurch wird es leichter Experten für einzelne Themenfelder zu identifizieren. Die Interaktionen innerhalb der jeweiligen Community können also als relevanter angesehen werden. Dass Nutzer sich in mehreren Communities befinden können, kann durch einen Faktor berücksichtigt werden. Das Finden von Experten wird also durch die Kombination der Algorithmen zur Expertenfindung mit OCD Algorithmen viel genauer und zuverlässiger.
        • Soziale Netzwerke-Maximierung von Einfluss  Der durch die rasante Entwicklung der digitalen Medien entstandene Effekt von sozialen Netzwerken auf unsere Wahrnehmung von Informationen ist nicht zu bestreiten. Dieser Effekt wird unteranderem von heutigen Marketern dazu genutzt, um durch den Einsatz sozialer Medien die Aufmerksamkeit potenzieller Kunden auf ihre Produkte zu lenken. Hierfür sind insbesondere Mundpropaganda und digitale Medien als das Mittel zur beschleunigten Verbreitung von Trends von besonderem Interesse für Werbestrategien. Dazu sind die optische Aufmachung sowie die, durch die Beiträge hervorgerufenen, Emotionen Eigenschaften, die die Weiterleitungschance dieser Inhalte und damit die Chance, sich gegen andere bereits virale und bekannte Konkurrenten durchzusetzen, erhöhen. Ziel dieses Kapitels ist die Vorstellung der Korrelation zwischen folgenden zwei effektiven Faktoren, die in vielen Bereichen zur Maximierung von Einflüssen eingesetzt werden. Zum einen algorithmische Bausteine der sozialen Netzwerke als effektiver Faktor und zum anderen psychologisch geforschte Auswirkung emotionaler und in Medien enthaltener Reize auf die Weiterleitungstendenz der Benutzer. Schließlich betrachten wir das Konzept von Influencern als Marketingstrategie, welches durch einen kombinierten Einsatz der algorithmischen und psychologischen Ansätze zum Erreichen größerer Mengen von Adressaten und Maximierung von Einflüssen in den sozialen Medien entstanden ist.
        • Politische und Ökonomische Netzwerke  In den letzten Jahren wurden viele Algorithmen für die Entdeckung von Gruppen in sozialen Netzwerken an Hand von generierten Datensätzen entwickelt. Unter diesen Gruppen finden sich auch politische und ökonomische Subnetzwerke, aus denen man interessante und wertvolle Informationen über die Interaktionen zwischen den Mitglieder*Innen dieser Netzwerke gewinnen kann. Je früher man an solche Informationen kommt, desto besser kann man sein Handeln anpassen. Wir betrachten in unserer Arbeit das Anwenden von Overlapping Community Detection Algorithms, kurz OCDAs auf deutsche Politiker*Innen und ihr Auftreten auf twitter.com. Hierbei untersuchen wir anhand der Interaktion “Folgen” die Verknüpfungen zwischen einzelnen Parteien und deren Mitglieder*Innen mit Hilfe von dem Louvain Modularity Algorithm (Blondel et al., 2008). Zum Schluss vergleichen wir, ob solche Algorithmen auf dieses Beispiel effektiv angewendet werden können und ein nutzbares Ergebnis liefern.
        • Geo-soziale Netzwerke  Für Unternehmen ist das Lokalisieren und anschließende Erreichen der besten Zielgruppen für ihr Produkt, eine der wichtigsten und schwierigsten Fragen zugleich. Um Communities zu finden, welche bestimmte Interessen (z.B. Fashion, Tech oder Sport etc.) haben kann man Beitragsanalysen auf Sozialen Netzwerken wie Instagram durchführen. Uns interessiert hierbei vor allem der Standort dieser Gruppen und wie die Verteilung von Präferenzen über verschiedene Länder bzw. Städte aussieht. Zu diesem Zweck benutzen wir Standortdaten von der Plattform Instagram. Jeder User wird durch einen Knoten auf einer Weltkarte dargestellt, wobei die jeweilige Farbe eines Knotens für ein bestimmtes Interesse steht. Die Idee ist hierdurch visuelle Ballungen zu schaffen, welche das Entdecken solcher Interessengruppen vereinfachen. Tragen wir dies auf eine Weltkarte ein, können wir „Interessen-Communities“ entdecken. Ballungen dieser Art zu finden, kann helfen Marketingentscheidungen zu treffen, Trends zu entdecken und zu erkennen, wo es sich lohnt für bestimmte Produkte Werbung zu machen (z.B. Sportaccessoires, neueste Tech-Gadgets etc.). Für unsere Analyse schauen wir uns „Fashion“, „Tech“ und „Fitness“ assoziierte Hashtags auf Instagram an. Dabei beschränken wir uns jeweils auf die neusten Beiträge. Ziel ist es einen „Instagram-Bot“ zu bauen, welcher uns für einen Interessen-Hashtag (bspw. „fashion“) die letzten 1000 – 5000 Postings zurückgibt. Wir schreiben den Bot in Python, mithilfe der open-source Bibliothek „instaloader“. Die anschließende Darstellung auf Karten wird mithilfe von geopandas und geoplot umgesetzt.
        • Wort-Netzwerke in Texten  Twitter ist eine weltweit beliebte, von allen Altersgruppen und sozialen Schichten genutzte Online-Social-Media-Plattform, welche vornehmlich zur Verbreitung kurzer Textnachrichten und zur Kommunikation zwischen Mitgliedern genutzt wird. Nutzer mit beispielsweise ähnlichen Interessen oder Ansichten bilden dabei oft eine eigene Gemeinschaft. Inwiefern Sprache Hinweise auf den sozialen Hintergrund einer Community geben kann, soll in diesem Kapitel analysiert werden. Dazu wird eine Methode zur Analyse des Wortgebrauchs der Nutzer einer Gemeinschaft vorgestellt und angewandt, sowie eine Möglichkeit aufgezeigt, auf deren Basis Unterschiede zwischen verschiedenen Communities zu bestimmen. Dabei wird insbesondere deutlich, dass solche Gemeinschaften anhand von Wortstrukturen und -verwendung charakterisiert werden können. Umgekehrt ist es in einem gewissen Maße möglich, Nutzer durch diese Analyse einer Gemeinschaft zuzuordnen.
        • Graph Neural Network in Biologie In letzter Zeit hat das Graph Neural Network (GNN) in verschiedenen Bereichen, einschließlich des sozialen Netzwerks, des Knowledge-Graphs und der Naturwissenschaften, immer mehr Aufmerksamkeit erhalten. GNN ist ein Zweig von Machine Learning, der sich mit dem effektivsten Aufbau neuronaler Netze für Graphdaten befasst. Es bietet beeindruckende Leistung und hohe Interpretierbarkeit, insbesondere in dem Bereich, in dem Beziehung und Interaktion von Daten eine wichtige Rolle spielen. In diesem Artikel stellen wir zunächst biologische Netzwerke und dann die Prinzipien und zugrunde liegenden Algorithmen von GNNs vor. Darüber hinaus werden wir die Anwendungsaufgaben von GNN in der Biologie diskutieren.
        • Internet of Things  Im Zuge des allgemeinen technischen Fortschritts werden Konzepte wie Smart Buildings oder sogar Smart Cities rasch zur Realität. Doch schon heute ist es ein großes Problem, die gigantische Datenmenge, die sich zu jedem Zeitpunkt im Internet of Things - dem zentralen Umschlagplatz für den Datenaustausch zwischen Geräten und Sensoren - befindet, zu analysieren. Eine Möglichkeit um mit dieser enormen Informationsmenge gezielt arbeiten zu können, ist die Anwendung von Algorithmen für die Entdeckung von Communities. Im folgenden Kapitel werden wir uns mit verschiedenen Ansätzen zur Bewältigung dieser Aufgabe beschäftigen. Im Feld der Algorithmen zur Entdeckung von nicht-überlappenden Communities werden wir uns drei unterschiedlichen Ansätzen widmen, einen der auf globalen Attributen und einen der auf lokalen Attributen basiert sowie einen der beide Ansätze kombiniert. Zusätzlich zu den Erläuterungen der Funktionsweisen werden wir insbesondere auf mögliche Anwendungsszenarien im Bereich des Internet of Things eingehen. Dabei werden wir feststellen, dass die klar abgegrenzten Communities eine Struktur in die Unordnung des Internet of Things bringen und somit bei der Datenverarbeitung einen klaren Vorteil einbringen.
        • Angriffe auf soziale Netzwerke Es ist kein Wunder, dass die Funktionalität von sozialen Netzwerken auf jeden Fall die Privatdaten von Benutzern erfordert. Genau das gibt den sozialen Netzwerken die Eigenschafften, die bei allen beliebt sind, und gleichzeitig steigert die Sorgen von Benutzern um ihre Privatsphäre. Es ist nicht grundlos, Netzwerke sind auch mangelhaft und können von Angreifern stark verletzt werden, wobei die Privatdaten anfällig werden. Aus diesem Grund ist das Thema von Robustheit der sozialen Netzwerke besonders zu beachten. In diesem Kapitel erläutern wir die Funktionsweise von einigen Algorithmen, die uns helfen werden erfolgreich die Effizienz von OCDAs zu erniedrigen um Gemeinschaften vor möglichen Angreifern zu schützen. Anschließend gehen wir auf die Verstärkung der Robustheit von Netzwerken ein."

        4.Auflage

        • Vorwort
        • Abkürzungen
          • Erweiterung bekannter OCD Algorithmen auf vorzeichenbehaftete Netzwerke (1)  Mit der zunehmenden Nutzung sozialer Medien während der Koronakrise und ihrem Einfluss auf das politische Spektrum ist das Auffinden sozialer Gemeinschaften wichtiger geworden. Auch das Einbringen von Medien und Werbung in die richtigen Communities, ohne die Nutzer in Gruppen zu entfremden, ist für soziale Netzwerke unabdingbar, um ihren Kunden ein angenehmes Erlebnis zu bieten und gleichzeitig ihren Umsatz zu steigern. Aufgrund der zunehmenden Komplexität von vorzeichenbehafteten Netzwerken und insbesonderer ihrer größe sind effiziente Algorithmen vorteilhaft. In diesem Kapitel gehen wir auf erweiterte Overlaping Community Detection (OCD) Algorithmen für vorzeichenbehaftete Netzwerke ein und erklären die vorteile der Änderungen im Vergleich zu den initiellen Algorithmen. Desweiteren veranschaulichen wir die unterschiedlichen OCD Algorthimen.
          • Erweiterung bekannter OCD Algorithmen auf vorzeichenbehaftete Netzwerke (2)  Soziale Netzwerke haben in den letzten Jahren stets an Bedeutung gewonnen. Viele dieser Netzwerke verfügten anfangs ausschließlich über positive Verbindungen zwischen Personen, beispielsweise indem sie befreundet sind. Doch auch negative Verbindungen sind mit der Zeit immer relevanter geworden, wie Blockierungen, Sperrungen oder andere Anzeichen von Feindschaft beziehungsweise Misstrauen. Bisherige Overlapping Community Detection Algorithmen (OCDA) haben nur positive Verbindungen berücksichtigt. In dieser Ausarbeitung werden wir bekannte OCDA sozialer Netzwerke auf vorzeichenbehaftete Netzwerke erweitern und dabei näher untersuchen. Insbesondere der Attractor-Algorithm weist im Vergleich zu anderen OCDA auf vorzeichenbehafteten Netzwerken eine sehr gute Modularität auf.
          • Erweiterung bekannter OCD Algorithmen auf vorzeichenbehaftete Netzwerke (3)  In der modernen Gesellschaft sind soziale Netzwerke mittlerweile unabdingbar. Vor allem während einer globalen Pandemie hat sich das Kennenlernen zwischen mehreren Personen und Personengruppen zu großen Teilen in das Internet ausgelagert. Das gibt Wissenschaftler\*Innen die Möglichkeit auf wesentlich mehr Daten zurückzugreifen, sodass es ihnen besser gelingt soziale Communities zu entdecken. Definiert ist eine Community als eine Gruppe von Personen welche gleichen Interessen teilen und sich daher miteinander assoziieren. Dies hilft den Wissenschaftler\*Innen besser zu verstehen wie sich Communities bilden und vorhersagen, wie diese sich in näherer Zukunft verändern und entwickeln. Analysiert werden hierbei synthetische oder aus realen Daten generierte soziale Netze, in denen einzelne Nodes im Gegensatz zu vergangen Ansätzen mehreren Communities angehören können. Dies wird durch Overlapping Community Detection Algorithms (OCDA) realisiert, die aktuell oft auf Netze mit ausschließlich positiv gewichteten Links angewendet werden. Dies ist jedoch nicht der effizienteste Ansatz. Im Folgenden wird erläutert wie die Erweiterung von Verbindungen durch eine negative Gewichtung vorteilhaft für die Effizienz von OCDAs und der Evaluation von Links in sozialen Netzwerken sind. Dieser Ansatz verspricht in praktischen Anwendungen bisher bestehende Algorithmen in Geschwindigkeit und Genauigkeit zu übertreffen.
          • Random Walks auf vorzeichenbehafteten Netzwerken   Vor allem in der Politik und Wirtschaft spielen soziale Netzwerke eine immer größere Rolle im Bezug auf Ideenaustausch und Meinungsmache. Durch das hohe Interesse und durch die Aussagekraft sozialer Netzwerke über die Gesellschaft nimmt die Relevanz von Algorithmen zur Analyse solcher Netzwerke weiter zu. Außerdem besteht das Interesse daran Inhalte bzw. Werbeanzeigen gezielt gewünschten Communities nahe zu bringen. Auf Grund der Größe von echten vorzeichenbehafteten Netzwerken ist die Erkennung von Communities in diesen Netzwerken sehr rechenaufwendig. In diesem Kapitel gehen wir darauf ein wie ein solcher Algorithmus bei dem Prozess zu Findung von Communities effizienter entwickelt werden kann. Anschließend werden wir mit Hilfe von konkreten Beispielen den Unterschied zwischen der Erweiterung und den Vorgängermodellen veranschaulichen sowie die Vorteile des Sigend Random Walk with Restart im Vergleich mit ähnlichen Algorithmen hervorheben.
          • Neue OCDA für vorzeichenbehaftete Netzwerke Aufgrund der zunehmenden Datenmenge von sozialen und politischen Netzwerken im Internet, gewinnt die Analyse dieser Daten durch Overlapping Community Detection Algorithmn (OCDA) stetig an Bedeutung. Da Beziehungen auf solchen sozialen Netzwerken als positiv ("Freund", "Sympathie") und negativ ("Feind", "Abneigung") klassifiziert werden können, lassen sich diese als vorzeichenbehaftete Netzwerke abstrahieren. Durch neue OCDAs für solche Netzwerke können beispielsweise überlappende gesellschaftliche Gruppierungen und politische Meinungsfelder besser identifiziert, analysiert und beschrieben werden. Ziel dieser Arbeit ist es einige für vorzeichenbehaftete Netzwerke neu entwickelte OCDA Algorithmen in deutscher Sprache vorzustellen, deren Funktionsweise zu erläutern und sie in Hinblick auf Ergebnisse und Laufzeit zu vergleichen. "
          • Berechnung der strukturellen Ausgeglichenheit in vorzeichenbehafteten Netzwerken   Durch die Digitalisierung und das Internet hat die Vernetzung von Nutzern eine hohe Bedeutung gewonnen. Denn eine gute Vernetzung von Nutzern oder Mitgliedern bedeutet für viele Unternehmen oder Organisationen langfristige Vorteile. Beispielsweise in Form einer höheren Bindung der Nutzer an das Unternehmen oder der Mitglieder an die Organisation. Allerdings stellt die Bewertung solcher Netzwerke hinsichtlich der Harmonie von Beziehungen eine Herausforderung dar. Erstens, weil es zu bewerten gilt, ob unterschiedliche Beziehungen zwischen zwei oder mehr Personen harmonisch oder unausgeglichen sind. Und zweitens, weil die Entdeckung von Gemeinschaften in großen Netzwerken selbst mit geeigneten Algorithmen eine Herausforderung darstellt. Die Untersuchung der Zyklen stellt dabei einen vielversprechenden Ansatz dar, um Rückschlüsse über die Balance eines Netzwerkes zu erhalten. Die Ausgeglichenheit wird dabei berechnet, indem einzelne Zyklen entdeckt und auf ihre Balance geprüft werden, sodass Aussagen über das Maß der Balance eines gesamten Netzwerkes getroffen werden können. Durch geeignete Anwendungsbeispiele wird ersichtlich, dass eine Anwendung dieser Methode auf kleine bis große Netzwerke möglich und zielführend ist. Dementsprechend können mithilfe dieses Ansatzes effiziente Analysen von vorzeichenbehafteten Netzwerken durchgeführt werden, die es Unternehmen und Organisationen ermöglicht, eine kostengünstige und detaillierte Auskunft über die Ausgeglichenheit der Beziehungen ihrer Kunden oder Mitglieder zu erhalten.
          • Vorhersage des sozialen Status von Knoten in vorzeichenbehafteten Netzwerken (1) Gemeinschaften haben lange Zeit Menschen mit gemeinsamer Interessen, Verwandts- und Geschäftsbindungen zusammenvereint. Die Menschheit kann nach verschiedenen Kriterien immer noch in viele verschiedene Gruppen, Gemeinschaften und Gesellschaften unterteilt werden. Dieses Konzept liegt jedem fortschrittlichen und erfolgreichen Unternehmen, Projekt oder Start-up zugrunde. Viele Wissenschaftler, Soziologen und Psychologen haben ein erstaunliches Phänomen untersucht, das auf den ersten Blick absurd erscheint. Es wird verschiedene Namen und Beschreibungen dazu gegeben, aber die meisten kennen es als “Sechs Grade der Trennung” oder “Kleine-Welt-Phänomen”. Man kann mit Sicherheit sagen, dass es keinen Menschen auf der Welt gibt, der irgendwie mit keinem verbunden ist. Außerdem ist es nicht notwendig, eine Person persönlich zu kennen, um sich ihrer Hobbys oder Vorlieben bewusst zu machen. Eine hinreichend genaue Analyse der Persönlichkeit kann durchgeführt werden, indem man sich genau auf die Zusammenhänge und Gesellschaften stützt, in denen das Forschungsobjekt aufgenommen wurde. Darüber hinaus kann man verschiedene Annahmen treffen und sogar Erreignisse vorhersagen. Im Zeitalter der Netzwerktechnologien sind Informationen zur gefährlichsten Waffe der Welt geworden. Durch die Vorhersage des Status von Knoten in Netzwerken kann man bestimmte Weltereignisse zum Wohle der Menschheit entscheiden oder verhindern. Ist es nicht bewundernswert?
          • Vorhersage des sozialen Status von Knoten in vorzeichenbehafteten Netzwerken (2)   Ein großer Teil, der heutigen Gesellschaft wird durch soziale Medien definiert. Denn vor allem die Jugend ist durch Soziale Medien vernetzt und verbindet sich über gemeinsamen Interessen. Diese Verbindungen zwischen unterschiedlichen Personen lassen sich durch soziale Netzwerke darstellen, dazu bewertet man Verbindungen unter Kriterien wie Vertrauenswürdigkeit und Freundschaft. Diese Verbindungen werden in Communities mit gleichen Präferenzen sortiert. Diese Communities überlappen sich da eine Person häufig mehreren Communities zugehört. Mit diesen Communities kann man Vorhersagen in Bezug auf Wahlen, Kaufverhalten und Verhalten in Freundschaftsgruppen machen. Diese überlappenden Communities erkennt man mit Hilfe von einem OCDA “overlapping community detection algorithim”. Um diese sozialen Netzwerke besser bewerten zu können, werden Personen als Knotenpunkte gesehen. In dem von uns genutztem Verfahren erhalten die einflussreichsten Knoten die Rolle eines “Anführers”. Anschließend kann man den Rest der Knoten als “Mitglieder” dieser “Anführer” betrachten und somit einfacher die überlappenden Communities entdecken kann. Diese Prinzipien von überlappenden Communities und derer Bewertung werden wir in Bezug auf das soziale Netzwerk YouTube erläutern und untersuchen wie sich YouTube solche sozialen Netzwerke zu Hilfe macht um ihren Service zu verbessern.
          • Anwendung des Borgia Clustering für die Analyse vorzeichenbehafteter Netzwerke am Beispiel des EU-Parlaments In dieser Arbeit wird ein Überblick über das Borgia Clustering, einem neuen Algorithmus zur Gemeinschaftserkennung auf Netzwerken, gegeben. Dem Algorithmus liegen einzigartige Ideen zugrunde. Dazu zählt das Prinzip der Gravitation, welches ursprünglich aus dem Fachgebiet der Physik stammt. Diese neue Grundlage des Algorithmus ist dafür verantwortlich, dass andere Probleme auftauchen, als bei anderen Algorithmen. Der Algorithmus kann beispielsweise die speziellen Eigenschaften eines vorzeichenbehafteten Netzwerks nicht berücksichtigen. Es wird anhand kürzlich erfassten Abstimmungsergebnisse des Europäischen Parlaments mit Hilfe eines geeigneten Algorithmus gezeigt, dass diese Eigenschaften ausschlaggebend für eine sinnvolle Analyse sind. Daraus wird geschlossen, dass vorzeichenbehaftete Netzwerke kein Anwendungsfeld des Borgia Clusterings - in seiner momentanen Form - darstellen.

          5.Auflage

          • Vorwort
          • Abkürzungen
            • Datenformate und -speicherung   Dieser Kapitel behandelt Datenformate und -speicherung.
            • Synthetische Datensätze  Analyse von mit Hilfe des LFR Benchmarks erstellten synthetischen Datensätzen
            • Datensätze für soziale Netzwerke   Wenn es etwas gibt was die heutige Gesellschaft identifiziert, dann sind das soziale Netzwerke. Fast jeder einzelne ist Teil eines solchen Netzwerks und interagiert mit anderen Menschen überall auf der Welt. Innerhalb eines solchen sozialen Netzwerkes lassen sich stets Gemeinschaften, sogenannte Communities finden, in denen sich Benutzer, dargestellt als Knoten, mit gleichen Freunden, Interessen oder anderen Ähnlichkeiten miteinander, befinden. Diese Communities sind manchmal einfach und manchmal nicht so trivial zu erkennen. Visualisiert werden diese Netzwerke in Graphen, wobei Knoten Personen und Kanten die Interaktion zwischen Personen repräsentieren. Um aussagekräftige Thesen über die Gesellschaft aufzustellen ist es also sinnvoll, Datensätze sozialer Netzwerke zu betrachten. Es gibt mehrere Publikationen, die sich mit dem Thema befassen. Im Folgenden wollen wir aber einen andere Art von Analyse durchführen indem wir Datensätze aus verschiedenen sozialen Netzwerken betrachten und dabei analysieren, einerseits wie gut sich die Algorithmen auf die Datensätze verhalten. Insbesondere soll aber der Fokus auf dem Unterschied dieser Datensätze zwischen verschiedenen Netzwerken legen. Dieser Vergleich basiert hauptsächlich auf die Ergebnisse verschiedener OCD-Algorithmen die wir auf solchen Datensätzen mit Hilfe des WebOCD-Clients laufen lassen.
            • Datensätze für signierte soziale Netzwerke   Bei der Modellierung von sozialen Netzwerken werden oft nur positive Beziehungen zwischen Individuen betrachtet. Um die Komplexität eines sozialen Netzwerkes besser darzustellen kann es jedoch sinnvoll sein auch negative Beziehungen zu betrachten. Dies ermöglichen vorzeichenbehaftete soziale Netzwerke, die zwischen positiven und negativen Beziehungen unterscheiden. Wir wollen uns im folgenden mit Datensätzen für vorzeichenbehaftete soziale Netzwerke beschäftigen. Dafür werden wir einige Datensätze sowie Datenformate vorstellen und deren Kompabilität mit dem WebOCD-Tool sowie einigen OCD-Algorithmen prüfen. Es ist einfach Datensätze für vorzeichenbehaftete Netzwerke zu finden. In der Realität wird man fast überall wo man positive Beziehungen zwischen Menschen beobachten kann, auch negative Beziehungen beobachten können. So können insbesondere auch gängige soziale Medien wie Facebook, Twitter, etc als Datensätze benutzt werden. Es ist jedoch schwierig aus den Datensätzen ein vorzeichenbehaftetes Netzwerk zu modellieren, da wenige Soziale Medien explizit negative Interaktions-Features besitzen.
            • Ground Truth-Datensätze  Dieser Kapitel behandelt Ground-Truth-Datensätze und die Anwendung von verschiedenen OCD-Algorithmen darauf.
            • BigData  Dieser Artikel behandelt das Thema BigData. Wir beschäftigen uns mit den besonderen Herausforderung an Algorithmen und Rechenleistung, beim Anwenden von OSD-Algorithmen auf besonder großen Datensätzen (hier: besonders große soziale Netzwerke).
            • Datensätze für Multilayer-Netzwerke  Dieses Kapitel behandelt Datensätze in mehrschichtigen Netzwerken. In dieser Arbeit beschäftigen wir uns mit den speziellen Herausforderungen von Multilayer Graphen, also Graphen, welche auf mehreren miteinander korrelierten Ebenen Kanten besitzen. Uns interessieren die Unterschieden im Umgang mit ihnen hinsichtlich etablierter OCD-Techniken aus eindimensionalen Graphen, und auch die Gebiete, auf denen neue Herangehensweisen benötigt werden um die individuellen Anforderungen von Overlapping Community Detection in Multilayer Graphen zu bewerkstelligen.

            6.Auflage