Weltrekord: Terabyte-"Schallgrenze" im Datensortieren gefallen
"Es sind die Firmen, die die Grenze vorantreiben, wie viele Daten sich sortieren lassen und wie schnell", erklärt Amin Vahdat, Leiter des Projekts und Chef des Center for Networked Systems (CNS) an der University of California, San Diego. "Wenn eine große Firma eine Abfrage über alle ihre verkauften Produkte laufen lassen will, kann dies ein Sortieren eines Datenblocks von mehreren Petabytes (Millionen Terabyte) erfordern, und dieser wächst jeden Tag um viele Gigabyte". In Rechenzentren sei das Sortieren oft die schlimmste Engstelle. Dabei fallen in Zeiten des Internets, Online-Handels und immer besserer Sensorsysteme auch immer größere Mengen von Rohdaten an - von Smog-Werten über Geldmarkt-Bewegungen bis zu Informationen innerhalb von Google oder Facebook. Sie zu sortieren und zu analysieren benötigt steigende Rechenkraft und immer effektivere Algorithmen. Das neue Ziel der Rekordhalter ist nun, ihr auf die Wettbewerbsparameter ausgerichtetes System so zu verändern, dass es sich auch auf alltägliche Sortierprobleme anwenden lässt, die in der realen Geschäfts- und Online-Welt anfallen. Ein Terabyte an Daten entspricht in etwa dem Inhalt von 1422 handelsüblichen CDs oder 210 einfachen DVDs.
Vahdat und Kollegen waren in der so genannten Indy-Klasse gestartet, in der die Rechnersysteme um die spezifischen Parameter des Wettbewerbes entwickelt werden. Parallel treten Teams in der Daytona-Klasse an, in der die Rechner nicht auf den Wettbewerb optimiert sind, sondern auch andere Datenarten in ähnlicher Geschwindigkeit sortieren können müssen. Neben "Gray" und "Indy" gibt es jeweils auch Kategorien wie den "Penny Sort", bei dem die Rechner möglichst kostengünstig aus handelsüblichen Einzelteilen konstruiert werden, und den "Joule Sort", bei dem es um Energie-Effizienz geht.