ELITE NETZWERK BAYERN

English  Sprachen Icon  |  Gebärdensprache  |  Leichte Sprache  |  Kontakt


Forschungsarbeit

Visualization of Big Social Data

Von Johannes Sänger (13.05.2014)

TweetVis ist eine Analyse-Software, mit deren Hilfe Twitter-Daten in Echtzeit visualisiert und ausgewertet werden können. Ein Benutzer kann dabei mit Visualisierungen von Nachrichten, Ort und Zeit interagieren, um Informationen aus den Daten zu gewinnen.

Allein im Jahr 2012 wurden täglich 2,5 Exabyte neue Daten erzeugt und gespeichert. Das entspricht 2,5 Milliarden Gigabyte oder 2,5*1018 Bytes. Informationsflut ist ein bekanntes Phänomen im heutigen Informationszeitalter. Billige Datenspeicher, Kommunikation über das Internet, Social Networks oder neue Sensortechniken führten zu einer Datenexplosion. Der Begriff, der sinnbildlich für diese Unmengen an Daten steht lautet „Big Data“.

Eine aktuelle Herausforderung von Big Data ist, dass unsere Möglichkeit Daten zu speichern schneller wächst, als unsere Fähigkeit diese auszuwerten. Einen vielversprechenden Lösungsansatz bietet die Visual Analytics. Visual Analytics kombiniert die Stärken der automatischen Datenanalyse mit den visuell-kognitiven Fähigkeiten des Menschen, um die Wissensgenese anzutreiben. Der Mensch soll mit einer visuellen Repräsentation der Daten interagieren, um auf diese Weise Schlüsse ziehen und vorher verborgene Zusammenhänge entdecken zu können.

Eine Visualisierung kann insbesondere bei abstrakten Daten, wie „Big Social Data“ hilfreich sein. Big Social Data bezeichnet Datenbestand, der im Rahmen von Social Media generiert wurde. Beispiele für Social Media sind der Microblogging Service Twitter, die Social Networking Site Facebook, die Content Community YouTube sowie virtuelle Welten, wie World-of-Warcraft oder Second Life.

Der in dieser Arbeit betrachtete Social Networking Service Twitter erlaubt seinen Benutzern durch Verfassen sogenannter Tweets (Kurznachrichten mit max. 140 Zeichen) mit der Weltöffentlichkeit in Kontakt zu treten. Die Informationen, welche ein Tweet enthält, zeichnen sich durch die drei Dimensionen Nachricht, Ort und Zeit aus. Die Nachrichten weisen sowohl Eigenschaften eines Texts als auch eines Netzwerks auf. Um diese Informationen ausreichend abzubilden wurde das „gewichtete TagNetwork“ als Kombination einer klassischen TagCloud und einem gewichteten Knoten-Kanten-Diagramm entwickelt.

Pacha: Abb. 1[Bildunterschrift / Subline]: Abbildung 1: Gewichtetes TagNetwork zur Visualisierung von Inhalt und semantischen Zusammenhängen

In der TagCloud, dem prominentesten Beispiel zur Visualisierung von Texten variiert die Schriftgröße wichtige Schlagwörter mit der Häufigkeit der Verwendung. Dadurch soll möglichst schnell ein Überblick über die Inhalte einer oder mehrerer Texte gegeben werden. In einem gewichteten TagNetwork variiert der Radius eines Knotens ebenfalls mit der Häufigkeit der Verwendung. Zusätzlich werden Beziehungen (Kanten) zwischen den Tags abgebildet. Eine Beziehung entsteht genau dann, wenn zwei Tags gemeinsam in einem Text verwenden werden. Die Kantenbreite variiert mit der absoluten Häufigkeit einer Assoziation, die Einfärbung gibt Aufschluss über die relative Häufigkeit.
Als weitere Visualisierungen für Ort und Zeit wurden eine GeoTag-Karte und ein ThemeRiver ausgewählt und mit geeigneten Interaktionstechniken in der prototypischen Anwendung „TweetVis“ implementiert. Abbildung 2 zeigt eine beispielhafte Echtzeit-Analyse.

[Bildunterschrift / Subline]: Abbildung 2: TweetVis - Echtzeitanalyse des Suchbegriffs Bayern am 02.06.2013.
[Bildunterschrift / Subline]: Abbildung 3: TweetVis- Echtzeitanalyse des Begriffs „nobelprize“ am 10.10.2013, dem Tag der Bekanntgabe der Preisträgerin des Literatur Nobelpreises

Wissenschaftlicher Werdegang
  • 2008-2011
  • Bachelorstudium der Wirtschaftsinformatik mit „Honors“-Modul
  • 2011-2013
  • Masterstudium der Wirtschaftsinformatik mit „Honors“ – Wirtschaftswissenschaften

Veröffentlichung
  • * Obergrusberger, F. Baloglu, B. Sänger, J. Senk, C.: Biometric Identity Trust: Toward Secure Biometric Enrollment in Web Environments. 3rd International Conference on Cloud Computing, Wien, Austria, September 24–26, 2012. (accepted)