Was ist das: Es wiegt 40 Tonnen und belegt die Fläche eines Tennisplatzes. Keine Ahnung? Die Rede ist vom schnellsten Computer der Welt. Das Monstrum, das derzeit vom Chip-Hersteller Nummer eins – Intel – aufgebaut wird, steht im Sandia National Laboratory in Albuquerque, New Mexico, in einer der amerikanischen Kernwaffenschmieden. Dort soll er Atomexplosionen simulieren und Naturkatastrophen vorhersagen.
Der “erste Ultracomputer”, wie US-Vizepräsident Al Gore das Intel-Ungetüm bezeichnet, ist mit seinen 1,4 Billionen Rechenoperationen pro Sekunde (1,4 Teraflop) nicht nur der schnellste Computer der Welt, sondern er markiert auch einen Meilenstein in der Entwicklung von Supercomputern. Während noch vor wenigen Jahren hochgezüchtete, wassergekühlte Maschinen mit spezialisierten Einzelprozessoren – sogenannte Vektorrechner – Crashtests, Wettervorhersagen oder die Wirkung von Medikamenten simulierten, tun dies heute sogenannte massiv parallele Rechner, die aus vielen billigen Standard-Mikroprozessoren zusammengesetzt sind. Der Teraflop-Computer von Intel besteht aus 9200 Pentium-Pro-Prozessoren, wie sie auch in besseren PCs zu finden sind. Jeder Prozessor-Knoten ist ein kleiner vollwertiger Computer mit eigenem Speicher, der mit seinen Nachbarn über extrem schnelle Verbindungen Daten austauscht. Insgesamt verfügt die Maschine über einen Speicher von 573 Gigabyte – etwa 40000mal mehr als ein PC. Zum Vergleich:Der Intel-Bolide besitzt fünfmal mehr Speicherzellen als das Gehirn des Menschen Nervenzellen hat.
Doch der Teraflop-Rechner ist nur ein Zwischenschritt. Wie wäre es, fragen sich immer mehr Firmen und Forschungsinstitute, wenn man vorhandene PC und schnelle Workstations so zusammenschalten könnte, daß sie die Leistung eines Supercomputers erreichen. Denn ob die PC in einem Gehäuse stehen – wie in Albuquerque – oder in verschiedenen Räumen, sollte im Prinzip kein Unterschied sein. So wie das Internet dem Benutzer als ein riesiger globaler Datenspeicher erscheint, sollen solche “Metacomputer” künftig wie ein virtueller Riesenrechner auftreten.
Daß so etwas funktioniert, bewiesen Computerfreaks und Hacker aus aller Welt, als sie Anfang des Jahres einen Computercode der kalifornischen Firma RSA Data Security knackten. Das auf Verschlüsselungsverfahren für Chipkarten und Daten im Internet spezialisierte Unternehmen hatte 5000 Dollar als Preis für denjenigen ausgesetzt, der einen Code mit einer Länge von 48 Bit brechen könnte.
48 Bit – die Zahl der möglichen Kombinationen entspricht ungefähr dem Alter der Erde in Stunden. Dennoch: Nach 13 Tagen und 162 Billionen Versuchen spuckte ein Computer an der Universität Münster die richtige Zahlenfolge aus und brachte den Code zu Fall. Der Erfolg war nur im Team möglich: Insgesamt 10000 Computer – vom PC bis zum Superrechner – versuchten, unter der Aufsicht eines Computers an der ETH Zürich, der die möglichen Codes portionsweise übers Internet zuteilte, diese riesige und stupide Fleißarbeit zu lösen.
So einfach sind viele andere Rechenaufgaben in der Forschung oder Industrie nicht zu bewältigen. Die meisten wissenschaftlichen Programme erfordern eine intensive Kommunikation der einzelnen Rechner. Und die fand beim RSA-Wettbewerb nicht statt. Außerdem bevorzugen anspruchsvolle Programme ein homogenes Rechnernetz, in dem alle Computer vom gleichen Typ sind.
Ein solches homogenes Netz ist beim Münchner Automobil-Hersteller BMW in Betrieb. Dort setzt man mittlerweile auf vernetzte Workstations, um beispielsweise das Crash-Verhalten von Fahrzeugen zu berechnen. “Im Jahr 2002 werden wir keine Prototypen mehr herstellen”, verkündete BMW-Vorstand Wolfgang Reitzle auf der letzten Automobil-Show in Detroit optimistisch. Dann soll das komplette Auto vom Computer direkt aufs Fließband kommen. BMW hat dazu 800 Rechner angeschafft und diese zu Clustern von jeweils zehn Stück zusammengespannt.
Doch was nützt die beste Hardware, wenn die Software dafür fehlt? Programme für Crash-Simulationen, Strömungen an Tragflächen, Spritverwirbelung in Brennkammern oder Belastung von Kurbelwellen werden seit Jahren als Standard-Software in der Industrie eingesetzt – allerdings nur auf schnellen Einzelrechnern. Die Umstellung der Software mit häufig Millionen von Programmzeilen auf parallele Algorithmen erschien den meisten Unternehmen bisher zu teuer, entsprechend selten wurden Parallelrechner oder Workstation-Cluster eingesetzt.
“Die Entwicklung war an einem toten Punkt angelangt”, gesteht Dr. Klaus Stüben vom Forschungszentrum Informationstechnik (GMD) in Sankt Augustin. Vor zwei Jahren entschloß sich die Europäische Union, diesen Knoten zu durchschlagen und legte für knapp 40 Millionen Mark die Initiative “Europort” zur Parallelisierung von Industrie-Standard-Software auf. Die Anstrengung habe sich gelohnt, sagt Stüben, dessen Institut die Europort-Initiative koordinierte. 38 der gängigsten Software-Pakete wurden inzwischen erfolgreich parallelisiert.
Nutznießer sind nicht nur große Firmen wie BMW, sondern ebenso Mittelständler oder kleine Ingenieurbüros, die sich günstige Netze aus Workstations anschaffen und effizient, zum Beispiel nachts, auslasten können.
Auch die europäische Software-Industrie profitiert von Europort. So ist die englische Firma Cambridge-Animation, die Programme zur Produktion von Trickfilmen herstellt, mittlerweile Marktführer. Ob Disney, Warner Brothers oder Steven Spielbergs Dreamworks: Keines der großen Trickstudios kommt heute ohne die Software der Engländer aus. Die parallelisierte Variante hat klare Vorteile: Szenen, die mit komplexen Schattierungen arbeiten, müssen nicht mehr aufwendig “von Hand” am Bildschirm erstellt werden, sondern lassen sich dank der geballten Leistung vernetzter Workstations automatisch berechnen.
“Mit Workstation-Clustern kann man nur Probleme von heute lösen, für die Herausforderungen von morgen sind sie ungeeignet.” Dr. Wolfgang Nagel vom Forschungszentrum Jülich ist trotz der allgemeinen Euphorie zurückhaltend. Zwar seien Workstation-Gespanne heute so leistungsfähig wie frühere Supercomputer, doch künftig werde der Bedarf an Rechenleistung so steigen, daß dies wiederum nur die neuesten Supercomputer bewältigen könnten.
Was sich Nagel in Zukunft vorstellt, soll das Projekt “Gigabit-Testbed” demonstrieren, das die Jülicher gemeinsam mit der GMD auf Anregung des Vereins zur Förderung des deutschen Forschungsnetzes vorbereiten. Darin geht es um die Kopplung von Supercomputern über schnelle Glasfaser-Leitungen.
In Jülich steht der zur Zeit schnellste Rechner Deutschlands, eine Cray T3E, die es ungefähr auf ein Fünftel der Rechenleistung des Intel-Rekordhalters in Albuquerque bringt. Die Cray besitzt 512 Prozessoren – sogenannte Knoten -, die so miteinander verbunden sind, daß zwischen zwei Knoten 2,4 Milliarden Informationsbits pro Sekunde (2,4 Gigabit pro Sekunde) ausgetauscht werden. Assistiert wird der Supercomputer von einem älteren Vektorrechner vom Typ Cray T90. Ziel des Projekts ist es, einen IBM-SP2-Rechner der GMD so an die Jülicher Crays zu koppeln, daß der GMD-Rechner wie ein weiterer Knoten der Jülicher Rechner erscheint.
Was so einfach klingt, ist in Wahrheit hochkompliziert. Zu Anfang müssen sich die Wissenschaftler der beiden Forschungszentren mit einer Datenleitung begnügen, die lediglich 622 Millionen Bit schafft. Erst für die zweite Jahreshälfte hat der Leitungsbetreiber RWE eine 2,4 Gigabit-Strippe versprochen – das technisch maximal Machbare.
Doch auch dann wäre die Verbindung zwischen Jülich und Sankt Augustin erst so schnell wie die Verbindung zwischen zwei der 512 Prozessoren in der Jülicher Cray. Rechnerkopplungen über das normale Internet, wo die Daten bitweise durch die Leitung tröpfeln, hält Nagel nur geeignet für Anwendungen, bei denen wenig Daten ausgetauscht werden: “Mit herumstehenden PC ist keine Wissenschaft machbar.”
Passende Anwendungen haben die Jülicher gleich mehrere im Köcher. Am Institut für Chemie und Dynamik der Geosphäre haben Chemiker ein Programmpaket entwickelt, das die Ausbreitung von Schadstoffen im Grundwasser vorhersagt. Es besteht aus drei Teilen:
“Trace” berechnet den Wasserfluß im Erdboden. Das Programm existiert in einer parallelisierten Fassung für über 100 Prozessoren.
“Partrace” verfolgt die Schadstoff-Partikel. Es benötigt die Ergebnisse von “Trace” und läuft auf einem Vektorrechner.
Ein Visualisierungsprogramm, das auf einem Grafikrechner arbeitet, macht die Schadstoff-Ausbreitung auf dem Bildschirm sichtbar.
Um Rechenzeit und Speicherplatz zu sparen, haben die Jülicher Computer-Experten die Programme so verzahnt, daß sie gleichzeitig ablaufen. Dabei wird Trace auf dem IBM-SP2-Parallelrechner der GMD bearbeitet und Partrace auf der Cray T90 am Forschungszentrum Jülich. Zur Visualisierung setzen die Jülicher einen Rechner des Herstellers Silicon Graphics ein. Ziel des Projekts ist, die Rechner so geschickt auszulasten, daß kein Leerlauf entsteht und möglichst wenig Datenaustausch stattfindet, denn: “Das Netz ist nach wie vor der Engpaß”, gesteht Dr. Roland Voelpel, bei der GMD mit verantwortlich für das Gigabit-Projekt.
Ähnliches gilt für eine Kooperation der GMD mit dem Deutschen Klimarechenzentrum (DKRZ) in Hamburg und dem Alfred-Wegener-Institut (AWI) in Bremerhaven. Dort wollen die Forscher Simulationsmodelle für Atmosphäre, Meer und Eis in einem einzigen Programm zusammenfassen, das die gesamte Klima-Entwicklung der Erde vorhersagt. Doch das ist schwierig: Während das vom AWI erstellte Ozean-Modell für einen Parallelrechner geschrieben wurde, liegt das Atmosphärenmodell des DKRZ in einer Fassung für einen Vektorrechner vor. Auch hier sollen parallele und vektorisierte Teile so zwischen Jülich und Sankt Augustin verteilt werden, daß die Rechenzeit möglichst kurz ist und die Programmteile dort, wo Atmosphäre und Ozean zusammenstoßen, korrekt ineinandergreifen. “Solche heterogenen Probleme lassen sich auf Metacomputern sehr gut lösen”, versichert Roland Voelpel.
Auch wenn es gute Ansätze gibt – in Sachen Metacomputing ist Deutschland noch Entwicklungsland. Die USA führen derzeit auf diesem Gebiet. Dort werden seit 1992 die Metacomputing-Aktivitäten der vier amerikanischen Hochleistungsrechenzentren in einem Meta-Center koordiniert. Man profitiert dabei von der einen Milliarde Dollar, die von der Regierung jährlich in Superrechner und Netz-Technologie gesteckt wird. Eine solche gezielte staatliche Förderung für Metacomputing gab es in Deutschland bis zur Bewilligung des Gigabit-Testbeds nicht.
Dennoch ist Wolfgang Nagel optimistisch, daß Deutschland den Vorsprung verkürzen kann: “Viele Probleme haben die Amerikaner noch nicht gelöst.” Zum Beispiel die automatische Betriebsunterstützung, die dem Nutzer die Buchung der Rechenkapazitäten abnimmt oder die Fehlerminimierung und die Datensicherheit. “Echtes Metacomputing im Routinebetrieb hat bisher noch niemand demonstriert”, urteilt Nagel.
Trotzdem präsentieren die Amerikaner ihre Ergebnisse sehr medienwirksam – eine Entwicklung, die man in Deutschland kritisch sieht. Denn neben dem Metacomputing, das noch in den Kinderschuhen steckt, wird hierzulande der Aufbau von Supercomputer-Zentren gefördert, die ihre geballte Rechenleistung für Industrie und Universitäten anbieten.
Der Wissenschaftsrat hat deshalb empfohlen, in Deutschland vier Höchstleistungsrechenzentren aufzubauen: Jülich und Stuttgart sind bereits in Betrieb, München und Berlin haben Anträge gestellt. Die dort installierten Rechner werden mit ihrer Rechenleistung unter den ersten zehn Supercomputern der Welt rangieren. Im Gegensatz zu Stuttgart, wo Daimler-Benz und Porsche am Aufbau des Rechenzentrums beteiligt sind, klagen die Jülicher über mangelndes Interesse seitens der Industrie. “Die Industrie will Kosten senken und arbeitet lieber mit gekoppelten Workstations, die höchstens die Leistung von Supercomputern von vor zehn Jahren erbringen, als mit externen schnelleren Maschinen”, klagt Wolfgang Nagel.
Universitätsforscher haben den neuen Service bereits schätzengelernt. An der Universität Paderborn startet demnächst das Projekt “Metacomputing Online”. Arbeitsgruppen aus Nordrhein-Westfalen, die sich Rechenzeit auf einem Superrechner bislang nicht leisten konnten, werden ihre Programme einem “virtuellen Maschinenraum” zur Erledigung übergeben. Um weitere Details müssen sich die Forscher nicht kümmern: Ihr Programm wird vollautomatisch in passende Häppchen zerlegt und an mehrere Workstations und zwei Großrechner verteilt.
RECHNEN AM FLIESSBAND
Vektorrechner: Sein Prozessor ist auf Vektoren und Matrizen zugeschnitten, wie sie in wissenschaftlichen Programmen häufig vorkommen. Zur Verknüpfung zweier Vektoren werden deren Elemente komplett in den Prozessor geladen und in Einzelschritten bearbeitet, wobei jeder Einzelschritt parallel auf vielen Elementen ausgeführt wird. Das ist mit einem langen Fließband vergleichbar, bei dem mehrere Bauteile auf einmal in gleichartigen Stationen nach derselben Montagevorschrift zusammengebaut werden.
Parallelrechner: Da ein Parallelrechner viele gleiche Prozessoren (“Fließbänder”) besitzt, können diese völlig unabhängig voneinander verschiedene Befehle (“Montagearbeiten”) gleichzeitig ausführen, wobei die Prozessoren durch schnelle Verbindungen ihre Ergebnisse austauschen können. Deshalb sind Parallelrechner mit mehr als 1000 Prozessoren heute häufig schneller als Vektorrechner – allerdings nicht so schnell, wie man aufgrund der summierten Prozessorleistung vermuten könnte.
Infos im Internet Metacomputing in den USA: http://www.ncsa.uiuc.edu/Cyberia/MetaComp/MetaHome.html Forschungsverbund NRW-Metacomputing http://www.uni-paderborn.de/pc2/nrw-mc/index.htm Europort-Projekt http://www.gmd.de/SCAI/europort/
Bernd Müller