Des Pudels Kerne

– Clemens Gleich in Kategorie(n) – 07.07.2010

Der Pro­zes­sor der Zukunft soll eine ganze Wolke von Ker­nen haben. Intel stellt einen On-Chip-Cluster mit 48 unab­hän­gi­gen x86-Kernen vor.

Auf der Suche nach immer mehr Rechen­leis­tung sind die Inge­nieure des Pro­zes­so­ren­her­stel­lers Intel bei 48 Ker­nen ange­langt. Der für die For­schung in diese Rich­tung ent­wi­ckelte Single-Chip Cloud Com­pu­ter (SCC), Code­name “Rock Creek”, soll den Durch­bruch zu nie dage­we­se­ner Rechen­leis­tung auf kleins­tem Raum brin­gen. Denn der Pro­zes­so­ren­bau steu­ert auf eine Grenze zu. Als die Erhö­hung der Takt­ra­ten nebst Ver­klei­ne­rung nicht mehr sinn­voll mög­lich war, began­nen Intel und Co. damit, Zwei­kern­pro­zes­so­ren zu bauen, um wei­ter an der Leis­tungs­spi­rale zu dre­hen. Heute sind Vier­kern­pro­zes­so­ren State of the Art, im nächs­ten Jahr gelan­gen Pro­zes­so­ren mit sechs und acht Ker­nen in den Consumer-Markt. Diese Ent­wick­lung kann jedoch nicht end­los so wei­ter­ge­hen. Das Pro­blem sind die schnel­len Zwi­schen­spei­cher (Cache), die prak­tisch jeder moderne Pro­zes­sor ver­wen­det, damit ihn der lang­sa­mere Haupt­spei­cher (RAM) nicht aus­bremst. Ein Cache ist also so etwas wie ein schnell ver­wend­ba­rer Notiz­zet­tel am Arbeits­platz des Pro­zes­sor­kerns. Wenn er allein ist — kein Pro­blem. Kom­men Kol­le­gen hinzu, wird es kom­pli­zier­ter. Der Kol­lege könnte die Daten im Haupt­spei­cher, mit denen ein Kern rech­net, in der Zwi­schen­zeit ver­än­dert haben, was alles zunichte macht. Wie im Büro­all­tag müs­sen sich meh­rere Kerne also abspre­chen, damit am Ende etwas Ver­nünf­ti­ges her­aus­kommt. Diese minu­tiö­sen Abspra­chen ska­lie­ren aber schlecht. Zwei, drei, vier, sechs, acht Leute sind ein Team, mehr Leute sind ein Arbeits­hin­der­nis. Die Abspra­chen errei­chen irgend­wann Aus­maße, die den Leis­tungs­zu­ge­winn völ­lig zunichte machen kön­nen, einige Ope­ra­tio­nen dau­ern dann gar um den Fak­tor 1000 län­ger. Auch das kennt jeder Ange­stellte einer grö­ße­ren Firma.

Ein Vor­schlag für die Zukunft lau­tet daher: Wer­fen wir die Cache-Absprachen-Hardware bis­he­ri­ger Multicore-Lösungen über Bord und gehen hin zu einer Archi­tek­tur, wie sie die ver­netz­ten Clus­ter in Rechen­zen­tren haben. Dort ste­hen viele Rech­ner, die zusam­men ver­netzt an einem Pro­blem arbei­ten. Jeder Rech­ner kann im Prin­zip ein ande­res Betriebs­sys­tem aus­füh­ren, und das­selbe gilt für SCC. In einem Clus­ter spricht sich ein Kno­ten nicht für jeden Piep mit jedem ab, son­dern er erhält ein Pro­blem oder ein Teil­pro­blem, das er allein und in Eigen­ver­ant­wor­tung abar­bei­tet. Was auf sei­nen Notiz­zet­teln steht, inter­es­siert die ande­ren Mit­ar­bei­ter nicht. Haupt­sa­che, das Ergeb­nis stimmt. Man ver­sucht kurz gesagt, jeden Ein­zel­nen so viel wie mög­lich in Ruhe arbei­ten zu las­sen, indem er so wenig wie mög­lich abspre­chen muss. Mit die­ser Her­an­ge­hens­weise fah­ren wis­sen­schaft­li­che Hoch­leis­tungs­re­chen­clus­ter seit lan­gem gut, aller­dings ver­langt sie vom Pro­gram­mie­rer deut­lich mehr. Jeder Kno­ten kann im Extrem­fall etwas voll­kom­men ande­res tun, und diese Fle­xi­bi­li­tät will erst­mal orga­ni­siert wer­den. Für die Kohä­renz, die vor­her peni­bel in Hard­ware fest­ge­legt war, muss sich dann jeden­falls die Soft­ware und damit der Pro­gram­mie­rer kümmern.

Die ein­zel­nen Kerne von Intels SCC sind abge­wan­delte x86-Prozessoren, wie wir sie zum Bei­spiel aus der Pentium-Reihe ken­nen. Klingt viel­leicht zunächst neben­säch­lich, ist aber die eigent­li­che Sen­sa­tion. Denn durch die bekannte Archi­tek­tur der Ein­zel­kerne erreicht Intel, dass viele der vor­han­de­nen Ent­wick­lungs­werk­zeuge wei­ter funk­tio­nie­ren, beste­hende Soft­ware zum Lau­fen gebracht wer­den kann. So gibt es außer Intel noch die kali­for­ni­sche Startup-Firma Tilera, die eigene Clus­ter­chips für Hoch­leis­tungs­an­wen­dun­gen wie etwa Mul­ti­me­dia­be­rech­nun­gen bereits ver­kauft. Die Tilera-Zusatzkarten (PCI Express) kos­ten der­zeit einige tau­send US-Dollar und Tilera kün­digt gar schon den 100-Kern-Chip an. Auch Intel prä­sen­tierte 2006 einen 80-Kern-Chip, des­sen 80 Rechen­ein­hei­ten jedoch auf reine Gleit­kom­ma­ope­ra­tio­nen spe­zia­li­siert waren. Jetzt jedoch gibt es erst­mals 48 voll­wer­tige, bekannte x86-Prozessoren, und damit theo­re­tisch ein Viel­fa­ches der Leis­tung heu­ti­ger Prozessoren.

Damit liegt die Verlustleistung in etwa auf dem Niveau heutiger Intel-Prozessoren, das aber bei zehn- bis zwanzigfacher Rechenleistung.

Theo­re­tisch des­halb, weil immer etwas Ver­wal­tung anfällt. Addiert man die Ein­zel­re­chen­leis­tun­gen der Kerne und sub­tra­hiert den Ver­wal­tungs­auf­wand, erhält man die Net­to­re­chen­leis­tung. Bei den bes­ten Super­clus­tern erreicht diese der­zeit bis über 80 Pro­zent der addier­ten Leis­tung. Da bei SCC alle Kno­ten kom­mu­ni­ka­ti­ons­güns­tig auf dem­sel­ben Chip lie­gen, könnte die maxi­male Net­to­leis­tung dort noch­mals deut­lich höher lie­gen. Je nach Pro­blem und pro­gram­mie­re­ri­scher Kom­pe­tenz kann die Net­to­leis­tung in der Pra­xis jedoch auch unter 10 Pro­zent sin­ken. Das Attrak­tive an so einem Cluster-Chip bleibt jedoch, dass zusätz­li­che Kerne auf ein­fa­che Weise die Rechen­leis­tung des Gesamt­sys­tems her­auf­set­zen. Es gibt keine unmit­tel­ba­ren Ska­lie­rungs­gren­zen (Erfah­run­gen mit Clus­tern zei­gen, dass selbst meh­rere tau­send Kno­ten noch Sinn machen) und die in moder­nen Betriebs­sys­te­men imple­men­tier­ten Ener­gie­spar­maß­nah­men grei­fen: Die Soft­ware schickt Kerne, die gerade nicht benö­tigt wer­den, in den Ruhe­schlaf. Jeder Kern kann außer­dem auf einer unter­schied­li­chen Takt­fre­quenz arbei­ten und Bänke zu jeweils vier Ker­nen kön­nen sogar mit unter­schied­li­chen Span­nun­gen betrie­ben wer­den. All das spart Ener­gie. Der SCC sieht dazu ent­spre­chende Steu­er­si­gnale vor und kommt auf eine last­ab­hän­gige Leis­tungs­auf­nahme zwi­schen 25 und 125 Watt. Damit liegt die Ver­lust­leis­tung in etwa auf dem Niveau heu­ti­ger Intel-Prozessoren, das aber bei zehn– bis zwan­zig­fa­cher Rechenleistung.

Das Thema Ener­gie­spa­ren kommt bei Pro­zes­so­ren einer­seits zum Tra­gen, wenn es um mobile Geräte geht, die mit der in Akkus gespei­cher­ten Ener­gie aus­kom­men müs­sen. Es geht aber außer­dem um die Ver­mei­dung von nutz­lo­ser Hitze und gene­rell um die über­ge­ord­ne­ten Zusam­men­hänge. Zahl­rei­che Stim­men kri­ti­sie­ren den stei­gen­den Flug­ver­kehr ob sei­ner Kli­ma­bi­lanz. Was dabei gern ver­ges­sen wird: Unsere Arbeits– und Unter­hal­tungs­elek­tro­nik trägt mit fast der­sel­ben Größe zu eben­die­ser Bilanz bei. Vor die­sem Hin­ter­grund darf es erfreuen, wenn die Zei­ten mini­mals­ter Sys­te­maus­las­tung über längste Zei­ten ihrem Ende entgegengehen.

48 x86-Kerne auf einem Chip. Damit spie­len jetzt erst­mal die Pro­pel­ler­kap­pen­trä­ger rum, aber etwas in der Art könnte zukünf­tig in jeder Work­sta­tion sitzen.

Intel will vom SCC zunächst ein­mal nur wenige hun­dert Stück her­stel­len, um diese an For­schungs­ein­rich­tun­gen welt­weit zu ver­tei­len. Das Ziel der Aktion ist es, Pro­bleme wie Chan­cen der neuen Archi­tek­tur aus­zu­lo­ten. Ein Pro­jekt namens Bar­rel­fish läuft an der ETH Zürich. Bar­rel­fish ist ein Betriebs­sys­tem, das auf die spe­zi­el­len Anfor­de­run­gen kom­men­der Clus­ter– und Multicore-Systeme aus­ge­legt ist. Das ETH Zürich koope­riert dabei mit Micro­soft Rese­arch Cam­bridge. Das Inter­esse von Micro­soft kommt nicht von unge­fähr. Cluster-Chips sind die wahr­schein­lichste Lösung für aktu­elle Pro­zes­sor­pro­bleme, und je frü­her man dabei ist, desto bes­ser. Ob wir in Zukunft ein ange­pass­tes “Win­dows for Clus­ter­groups” oder etwas ganz Neues sehen wer­den, ist der­zeit noch völ­lig offen.

Die typi­schen Kan­di­da­ten für immer mehr Rechen­leis­tung sind Wet­ter­si­mu­la­tio­nen, CAD-Workstations, 3D-Berechnungen in Fil­men oder Spie­len und natür­lich die Grund­la­gen­for­schung mit ihren Super­clus­tern. Einige weni­ger typi­sche Kan­di­da­ten dür­fen zu die­sem Anlass jedoch eben­falls wie­der aus ihrem Schrank. Das 3D-Internet, das über die Jahre an immer ande­ren Hin­der­nis­sen hing, wird der­zeit von Intel stark gepusht. Mode­fir­men sehen schon jetzt das Poten­zial rundum betracht­ba­rer Pro­dukte. Auch die rechen­in­ten­sive Künst­li­che Intel­li­genz wird für den All­tag wie­der rele­van­ter. Oder es könnte ganz neue Benut­zer­schnitt­stel­len geben. Intel schlägt etwa vor, ein intel­li­gen­tes Kame­r­a­sys­tem mit 3D-Modeangeboten zu ver­bin­den, sodass sich der Kunde an sei­nem Rech­ner in Echt­zeit berech­net betrach­ten könnte. Oder die Schnitt­stelle zwi­schen Mensch und Maschine: Der­art leis­tungs­fä­hige Com­pu­ter könn­ten über Kame­ras die Bewe­gun­gen des Nut­zers sehen, ver­ste­hen und dar­auf rea­gie­ren. Oder sie könn­ten gleich Gehirn­strom­mus­ter aus­wer­ten, sodass ein Dik­tat in der Stille des eige­nen Bewusst­seins statt­fin­den könnte statt wie heute per Sprach­er­ken­nung. Oder das soge­nannte Sport-Mining: Ein Video­re­kor­der zeich­net eine Fuß­ball­über­tra­gung nicht nur auf, son­dern ver­steht sie auch. Im Nach­hin­ein kann der Zuschauer dann seine Auf­zeich­nun­gen durch­ge­hen, sie nach Ball­be­sitz und Toren durch­ge­hen. Effek­tiv steht jedem Fan damit aus­führ­li­ches Exper­ten­wis­sen zur Ver­fü­gung. Ähnli­ches gilt für die Finan­zen. In naher Zukunft könn­ten Haushalts-PCs mit der ent­spre­chen­den Soft­ware ebenso umfang­rei­che wie tief­ge­hende Bör­sen­ana­ly­sen allein erledigen.

Der Ein­wand “braucht kei­ner” fällt bei einem tech­ni­schen Sprung den­noch gerne. Bei PCs lech­zen zumin­dest die Zocker immer nach noch mehr Leis­tung. “Aber auch der nor­male Nut­zer wird lang­fris­tig wie selbst­ver­ständ­lich unglaub­li­che Rechen­leis­tungs­re­ser­ven am Schreib­tisch ste­hen haben”, sagt Andreas Stil­ler, Pro­zes­so­ren­ex­perte beim Com­pu­ter­ma­ga­zin c’t. “Die Inter­faces wer­den sich der gebo­te­nen Leis­tung anpas­sen, die Anwen­dun­gen eben­falls. Cluster-Computing war frü­her die Domäne der Super­com­pu­ter. Was man nicht ver­ges­sen sollte ist daher: Die Rechen­leis­tung, die heute auf jedem Schreib­tisch steht, ja sogar in jedem Tele­fon HiFi-Klingelsamples abspielt, gehörte vor gar nicht allzu lan­ger Zeit eben­falls noch in die Domäne der Supercomputer.”

Hinterlasse eine Antwort

Melde Dich mit Deinem Facebook- oder Twitter-Account an:

Connect with Facebook

Oder fülle einfach folgende Felder aus: