HNI Logo
Algorithmen für Datenströme

Ziele

Durch die stark verbesserte Übertragunskapazität moderner Kommunikationsnetzwerke sehen wir uns immer häufiger mir sehr großen Datenmengen konfrontiert, die in der Form von Datenströmen auftreten. Typische Beispiele für Datenströme sind Netzwerkverkehr, Sensordaten oder Webcrawls. So galt z.B. vor wenigen Jahren die Gesamtanzahl an Kreditkartentransaktionen pro Monat als eine sehr große Datenmenge. Diese Menge ist vergleichbar mit der Anzahl von Datenpaketen, die ein einzelner Router über eine einzelne Schnittstelle in einer Stunde verschickt. Heutzutage möchte man aber den Datenverkehr für ein Netzwerk von vielen Routern mit vielen Schnittstellen analysieren.

Die dabei anfallenden Daten können mit klassischen Algorithmen in den seltensten Fällen effizient bearbeitet werden, da man sie wegen ihrer Größe kaum oder gar nicht speichern kann und ein freier Zugriff auf die abgespeicherten Daten sowieso viel zu zeitintensiv wäre. Man benötigt daher Algorithmen, die die Eingabe in einem oder in wenigen Durchläufen über den Datensatz verarbeiten können und die weniger Speicherplatz benötigen, als der Datensatz selbst. Solche Algorithmen werden auch als Datenstromalgorithmen bezeichnet.

Ziel dieses Projektes ist die Entwicklung von Algorithmen zur Analyse von Datenströmen. Dabei teilt sich unser Projekt in drei Teilbereiche auf:

  • Clustering und Facility Location in Datenströmen
  • Analyse großer Graphen (Webcrawls, etc.)
  • Algorithmen für geometrische Datenströme

Unter Clustering versteht man die Partitionierung einer Datenmenge in Mengen (sogenannte Cluster), so dass alle Datensätze eines Clusters ähnlich sind, Datensätze in unterschiedlichen Clustern sich aber deutlich unterscheiden. Eine solche Partitionierung gibt die Struktur der Datenmenge wieder und kann so zur Reduzierung des Datenvolumens dienen (z.B. könnte man jeden Cluster durch einen Datensatz des Clusters darstellen). Damit ist Clustering ein wichtiges Werkzeug bei der Analyse von Datenströmen.

Bei der Analyse großer Graphen möchten wir Kennzahlen wie den sogenannten Clustering Coefficient bestimmen, der eng mit der Anzahl der Dreiecke in einem Graphen zusammenhängt. Wir interessieren uns außerdem für die Struktur von Co-Citation Graphen. Ein Co-Citation Graph für einen gerichteten Graph G enthält genau dann eine Kante zwischen Knoten u und v, wenn es in G einen Knoten w gibt mit gerichteten Kanten nach u und v. Wir gehen dabei davon aus, dass wir den gerichteten Graph als Datenstrom bekommen.

Im dritten Teilbereich wollen wir uns mit den bekannten offenen Fragen im Bereich der dynamischen geometrischen Datenströme (Matching, bichromatic Matching, etc.) beschäftigen. Außerdem interessieren wir uns für eine weiter vertiefte Untersuchung des Datenstrommodells mit Sortierungsoperator im Hinblick auf geometrische Probleme.

 

Das Projekt begann mit Christian Sohler in Paderborn und wird von ihm derzeit an der Universität Dortmund fortgeführt.

Personen

Publikationen zu diesem Projekt


2007
Lammersen, Christiane; Sohler, Christian: StrSort Algorithms for Geometric Problems. In: Proceedings of the 23rd European Workshop on Computational Geometry (EWCG), S. 69-72, Jan. 2007 (Details)

Czumaj, Artur; Sohler, Christian: Small Space Representations for Metric Min-Sum k-Clustering and their Applications. In: Proceedings of the 24th International Symposium on Theoretical Aspects of Computer Science (STACS'07), S. 536-548, Jan. 2007 (Details)

Feldman, Dan; Monemizahdeh, Morteza; Sohler, Christian: A PTAS for k-means clustering based on weak coresets. In: Proceedings of the 23rd annual symposium on computational geometry (SoCG'07), S. 11-18, Jan. 2007 (Details)


2006
Buriol, Luciana; Frahling, Gereon; Leonardi, Stefano; Marchetti-Spaccamela, Alberto; Sohler, Christian: Counting Triangles in Data Streams. In: Proceedings of the 25th ACM Symposium on Principles of Database Systems (PODS), Jan. 2006 (Details)

Buriol, Luciana; Frahling, Gereon; Leonardi, Stefano; Marchetti-Spaccamela, Alberto; Sohler, Christian: Computing Clustering Coefficients in Data Streams. In: Proceedings of the European Conference on Complex Systems (ECCS'06), Jan. 2006 (Details)

Gehweiler, Joachim; Lammersen, Christiane; Sohler, Christian: A Distributed O(1)-Approximation Algorithm for the Uniform Facility Location Problem. In: Proceeedings of 18th ACM Symposium on Parallelism in Algorithms and Architectures (SPAA), S. 237-243, 2006 (Details)


2005
Lammersen, Christiane: Algorithmen für geometrische Probleme im Datenstrom-Modell erweitert um ein Sortierungsprimitiv. (Details)



Nach oben