Weltrekord: Terabyte-"Schallgrenze" im Datensortieren gefallen

Erstmals sortierte ein Computersystem mehr als 1000 Gigabyte an Daten innerhalb einer Minute. Auch der Rekord für die schnellste Datensortierungs-Rate verbesserte sich: Zwei Teams ordneten je eine Billion Datensätze in rund 172 Minuten

Die Rückseite eines Hochleistungsrechnersystems, im Aufbau

San Diego (USA) - Ein Terabyte an Daten in nur einer Minute in die richtige Reihenfolge gebracht - das entspricht dem Inhalt von 1422 CDs oder einer Millionen Megabyte: Diesen neuen Weltrekord erreichten kalifornische Forscher mit ihrem Computersystem beim "Sort Benchmark"-Wettbewerb 2010, dem so genannten Weltcup des Datenordnens. Das Rekordsystem bestand aus 52 Hochleistungsservern und einem auf den Wettbewerb optimierten Rechen-Algorithmus. Einen zweiten Weltrekord in einer zweiten Kategorie teilten sich die Forscher mit einem anderen Team: den Sieg für das schnellste Sortieren einer Billion von Datensätzen. Innerhalb von 172 Minuten war dies vollbracht - allerdings benötigten die Kalifornier nur ein Viertel der Rechner-Ressourcen und der Energie der anderen Gruppe. Ziel des "Sort Benchmark"-Wettbewerbs ist es, angesichts weltweit steigender Datenmengen die Leistungsfähigkeit von Rechnern fürs Sortieren und Ordnen zu verbessern.

"Es sind die Firmen, die die Grenze vorantreiben, wie viele Daten sich sortieren lassen und wie schnell", erklärt Amin Vahdat, Leiter des Projekts und Chef des Center for Networked Systems (CNS) an der University of California, San Diego. "Wenn eine große Firma eine Abfrage über alle ihre verkauften Produkte laufen lassen will, kann dies ein Sortieren eines Datenblocks von mehreren Petabytes (Millionen Terabyte) erfordern, und dieser wächst jeden Tag um viele Gigabyte". In Rechenzentren sei das Sortieren oft die schlimmste Engstelle. Dabei fallen in Zeiten des Internets, Online-Handels und immer besserer Sensorsysteme auch immer größere Mengen von Rohdaten an - von Smog-Werten über Geldmarkt-Bewegungen bis zu Informationen innerhalb von Google oder Facebook. Sie zu sortieren und zu analysieren benötigt steigende Rechenkraft und immer effektivere Algorithmen. Das neue Ziel der Rekordhalter ist nun, ihr auf die Wettbewerbsparameter ausgerichtetes System so zu verändern, dass es sich auch auf alltägliche Sortierprobleme anwenden lässt, die in der realen Geschäfts- und Online-Welt anfallen. Ein Terabyte an Daten entspricht in etwa dem Inhalt von 1422 handelsüblichen CDs oder 210 einfachen DVDs.

Vahdat und Kollegen waren in der so genannten Indy-Klasse gestartet, in der die Rechnersysteme um die spezifischen Parameter des Wettbewerbes entwickelt werden. Parallel treten Teams in der Daytona-Klasse an, in der die Rechner nicht auf den Wettbewerb optimiert sind, sondern auch andere Datenarten in ähnlicher Geschwindigkeit sortieren können müssen. Neben "Gray" und "Indy" gibt es jeweils auch Kategorien wie den "Penny Sort", bei dem die Rechner möglichst kostengünstig aus handelsüblichen Einzelteilen konstruiert werden, und den "Joule Sort", bei dem es um Energie-Effizienz geht.

Quelle: Sort Benchmark, UC San Diego

Weltrekord: Terabyte-"Schallgrenze" im Datensortieren gefallen

Im Bilde

Magazin

Im Ernst

Im Druck

Cartoon