Manuskript über
Prozessoren
Vorwort
Es ist erstaunlich, aber wahr: Gottfried Wilhelm Leibnitz (deutscher Philosoph) kam über eine geistige Auseinandersetzung mit der Religion zu seinem Zahlenwerk. Seine Devise: Ohne Gott ist nichts, für Gott setzte er die Eins und für das Nichts die Null. Gleichzeitig beschäftigte ihn die Sprache. Und er erkannte, das sie ständig Fehler zulässt. Weiter gedacht: Verständigungsschwierigkeiten führen zu Konflikten. Leibnitz versuchte, diese Auslöser von Konflikten zu minimieren, ja ganz auszurotten. Dabei meinte er zu erkennen, dass unser Denken eigentlich ein Rechenvorgang sein müsste. Da schließt sich die Klammer zu seiner Religiosität und der These von Gott oder Nichts. (1 und 0) Er wollte eine "sichere und logische" Symbolsprache erfinden. Daraus folgte das Dualsystem, ohne die die Elektronik und die Funktion von Prozessoren nicht möglich wäre. Der Weg zur Rechenmaschine war frei. Im Jahre 1673 führte Leibnitz sein Modell in London vor.
Der heutige Prozessor eines Desktop PCs, ist der Inhalt dieser Ausführung. Ich werde hier auf die einfache Funktionsweise eines Prozessors eingehen und mich schließlich mit den momentan aktuellen Typen der Firmen Intel und AMD beschäftigen.
Nun, was genau ist jetzt also ein Prozessor oder CPU, wie ich ihn in Zukunft auch nennen werde. Im Lexikon bekommt man folgende Antwort:
Abkürzung für englisch "Central Processing Unit", Zentraleinheit eines Computers, die aus dem Steuerwerk, dem Rechenwerk und dem Arbeitsspeicher besteht. Die CPU übernimmt die zentrale Ablaufsteuerung und Koordination aller Aktivitäten des Computers bei der Programmausführung.1
Zugegeben allgemein und nicht ganz richtig, denn der Arbeitsspeicher gehört sicher nicht zum Prozessor, auch wenn dieser nicht ohne einen Arbeitsspeicher arbeiten kann. Allerdings werden doch zwei sehr wichtige Einheiten genannt. Das Steuer- und das Rechenwerk.
Im ersten Kapitel werde ich auf die Funktion und Arbeitsweise dieser und anderer Elemente genauer eingehen.
Die allgemeine Funktionsweise der CPU
Begriffsdefinitionen
Prozessor:
Ein Prozessor ist eine Rechen- und Steuereinheit, die meistens als Bauteil in einem Computer wiederzufinden ist. Dort versteht und führt sie Anweisungen aus. Im Computer ist der Prozessor die Zentralrecheneinheit. Daher hat sie auch den engl. Namen CPU (central processing unit). Sie kann arithmetische und logische Berechnungen sowie Zeitverteilung und Kontrolle der Elemente (z.B. Peripheriegeräten usw.) des Systems übernehmen. Außerdem ist die CPU in der Lage, Befehle aus dem Speicher zu holen, sie zu entschlüsseln und dann auszuführen. Des weiteren überträgt sie Informationen von und zu anderen Ressourcen über den Hauptdatenweg des Computers, den Bus.
Alle Handlungen, die ein digitaler Prozessor durchführt basieren auf einer Operation: die Fähigkeit zwei Zustände zu unterscheiden und zwar an oder aus (d.h. ein Schalter oder Gatter ist geöffnet oder geschlossen), hohe oder niedrige Spannung oder bei Zahlen 0 oder 1. Dies sind zwar keine besonderen Fähigkeiten doch die Geschwindigkeit, in der dies bewältigt wird überzeugt.2
Flag:
Ein Flag (= Markierung) bezeichnet eine zweiwertige Variable im Arbeitsspeicher oder in einem Register. Sie dient als Hilfsmittel zur Kennzeichnung bestimmter Zustände. Ein Flag kann gesetzt, gelöscht oder ausgelesen werden.
Flags werden im Prozessor und bei der Programmierung vielfältig eingesetzt: ein Flag kennzeichnet z. B. bei arithmetischen Berechnungen den Übertrag oder den Überlauf. Mit der Einführung von Flags kann auch bei der Programmierung gearbeitet werden, um z.B. das Vorliegen einer Fehlerbedingung in einem Segment an ein anderes Programmsegment zu übermitteln.3
Register:
Als Register bezeichnet man insbesondere Bereiche innerhalb eines Prozessors, in denen diverse Parameter, Adressen, Operanden oder Zwischenergebnisse gespeichert werden.
Die Registerkapazität ist die Gesamtanzahl der Bits oder Bytes, die ein Register eines Mikroprozessors speichern kann.4
Arithmetik:
Die Arithmetik widmet sich mit dem praktischen Rechnen mit Zahlen. Im Gegensatz zur Algebra, die sich mit dem theoretischen Lösen und Untersuchen von Gleichungen befasst. Zum Gebiet der Arithmetik gehören die vier Grundrechenarten: Addition, Subtraktion, Multiplikation und Division.5
Der ungarisch - amerikanische Mathematiker John von Neumann stellte als erster fest, welche Teile ein Prozessor beinhalten muss, damit er digitale Informationen verarbeiten kann. Diese Aufstellung bezeichnet man als von Neumannsche Struktur. Diese Struktur findet auch heute noch Anwendung. Die meisten Mikroprozessoren und auch CPU - Chips setzten sich daher aus diesen vier funktionalen Teilen zusammen:
1. Das Rechenwerk, eine arithmetisch - logische Einheit (arithmetic logic unit) verhilft dem Chip zu seinen Rechenfähigkeiten und gestattet somit arithmetische und logische Operationen.
2. Das Speicherwerk besteht aus sogenannten Registern, das ist ein kurzzeitiger Speicherbereich, der Daten, Anweisungen und die Adressen im Speicher sowie Ergebnisse von Operationen aufnimmt.
3. Die Steuereinheit hat drei prinzipielle Aufgaben. Sie übernimmt die zeitliche Abstimmung und Regulierung des gesamten Computersystems. Der Anweisungsdekodierer, den sie besitzt, liest die verschiedenen Datenmuster der Register aus. Die Datenmuster werden dann in Aktionen umgesetzt wie beispielsweise Addieren oder Vergleichen. Nach diesem Vorgang bestimmt die Unterbrechungseinheit (interrupts) der Steuerung, in welcher Reihenfolge die einzelnen Arbeitsschritte die CPU in Anspruch nehmen und wie viel CPU-Zeit sie verbrauchen dürfen.
4. Der interne Bus, ein Netz von Kommunikationsleitungen, der die internen Ebenen miteinander verbindet und außerdem zu den Peripheriegeräten führt, die an den externen Anschlüssen angeschlossen sind.
Der Steuerbus besteht aus zwei Leitungen, von denen eine die Empfangssignale empfängt und die andere Steuersignale aus dem inneren CPU heraus leitet.
Der Adressbus ist eine unidirektionale Leitung vom Prozessor, der die Orte verwaltet an denen sich die Daten im Speicher befinden.
Der Datenbus besteht aus bidirektionalen Übertragungsleitungen, die Daten aus dem Speicher lesen und auch neue Daten in den Speicher schreiben.6
Um Aufgaben auszuführen, benötigt die CPU eine Einheit (den Steuerbus), und um Befehle zu interpretieren, die das Steuerwerk und das Rechenwerk ausführt, die ALU. Die ALU benötigt zur Ausführung der Befehle wiederum ein Speicherwerk für Adressen und Zwischenergebnisse (sogenannte Flagregister) sowie Zustände, d.h. der Rechner muss sich z.B. bei Rechnungen kurzzeitig Überträge und Vorzeichen merken können (in den sogenannten Zustandsregistern).
Der Befehlssatz ist eine vollständige Liste aller erkennbaren Schaltmuster - also die Liste aller Operationen, die ein Computer interpretieren kann. Wichtige Befehle sind:
Transferbefehle, die zum Transport von Daten zwischen den Registern dienen.
Arithmetische Befehle, die zur Ausführung einfacher Rechenoperationen wie z.B. Addition und Subtraktion dienen.
Logische Befehle für einfache logische Entscheidungen wie UND oder GLEICH.
Sprungbefehle dienen zur Realisierung von Programmsprüngen. Man verwendet sie deshalb für bedingte Operationen, also Befehlsketten, die nicht unbedingt ausgeführt werden. Sie sind für Wiederholungen in Programmteilen wichtig.
Der Befehlssatz eines Prozessors kann, je nach Einsatzgebiet des Prozessors, noch erweitert werden. Der mathematische Co-Prozessor, eng. Numeric processing unit (NPU) bzw. floating point processing unit (FPU), z.B. besitzt neben arithmetischen Befehlen auch noch Befehlssätze für z.B. Potenzieren, Radizieren. (um möglichst viele Nachkommastellen zu errechnen sog. Fließkomma-Operationen) Auch der Prozessor im Computer hat einen größeren Befehlssatz, z. B. spezielle Multimediabefehle. (MMX)
Ausführung einer einfachen Operation:
Zuerst wird die Bedingung und der Wert aus einem Speicherbereich im Arbeitsspeicher gelesen. Die Verwaltung der Adressen des Arbeitsspeichers tätigt der Programmzähler. (PC = programcounter) Er zeigt die Stelle für den Befehl, der als nächstes abgearbeitet werden soll. Das Steuerwerk interpretiert die Bedingung und gibt sie vereinfacht (als Befehl aus dem Befehlssatz) mit dem Wert an das Rechenwerk, die ALU. Außerdem teilt es ein, in welchen Schritten die ALU vorgehen soll. Falls bei der Operation ein Übertrag entsteht, wird dieser als Flag an das Steuerregister zurückgegeben. Die Zwischenergebnisse von der ALU werden in den temporären Registern, dem Hilfsakkumulator gespeichert. Das endgültige Ergebnis der Operation landet schließlich im Hauptregister, dem Akkumulator.
Mit einem Prozessor kann man ein intern vorgegebenes oder extern vorgebbares Programm steuern. Arithmetische und logische Funktionen können ausgeführt und damit andere Einheiten eines Rechners gesteuert werden. Der Prozessor besteht aus folgende Einheiten: das Steuerwerk (es steuert die internen Abläufe), das Rechenwerk (alle arithmetischen und logischen Operationen finden hier statt), interne Register und Zähler usw. Die Zusammenführung aller Einheiten eines Prozessors als integrierter Schaltkreis (integrated circuit) auf einem Chip hat die Bezeichnung "Mikroprozessor".
Struktur der CPU:
Intels neues Flagschiff, der Pentium 4 (Northwood) mit 3.066 Ghz und Hyperthreading-Technologie hat die Konkurrenz wieder deklassiert. Während AMDs neue Athlons zumindest den Vorsprung von Intel an Eindeutigkeit genommen hatten, kann man nun wieder sagen, Intel hat auf dem Markt den schnellsten Desktop-Prozessor der Welt. Im folgenden werde ich nun auf die neue Technologie eingehen, über Performance-Gewinne berichten und auch Fakten bezüglich der Kompatibilität bringen.
Sieht man sich den Kern des neuen Prozessors an, so erkennt man nichts neues. Es wird der Northwood-Kern benutzt, wie schon in dem Vorgängermodel Pentium 4 2.8 Ghz. Der neue Prozessor arbeitet auch mit der 0,13micron-Fertigungstechnologie und hat auch 512 kB L2-Cache. Der seit Mai 2002 erhältliche Northwood mit 533 Mhz Front-Side-Bus bringt durch die erhöhte Bandbreite von 4,2 GB/s ein besseres Verhältnis zu dem Prozessor-Takt. Doch gab es diese Erneuerung auch schon mit dem anderen Northwood-Modellen. Wo liegt jetzt also der Unterschied?
Der Northwood-Kern wurde schon bei seiner Verbesserung zum C1-Stepping (Benennung der Stufen) für Hyperthreading ausgerüstet. Doch fehlte bis jetzt die Peripherie im Prozessor. So musste am Kern nichts mehr geändert werden. Auf dem folgenden Bild werden alle nötigen Einheiten auf den Kern hervorgehoben, die das Hyperthreading ermöglichen:
Auf Grund der höheren Taktfrequenz braucht der neue P4 jetzt mehr VCore (Prozessorspannung). Während der P4 2.8 Ghz noch mit 1,5 Volt auskam, werden jetzt 1,55 Volt benötigt. Daraus folgt natürlich eine höhere Leistungsaufnahme. Mit 81,4 Watt hält der neue Prozessor den Rekord und liegt 22,4 Watt über dem Wert seines Vorgängers, der ein wahrer Leistungssparer ist.
Aus der höheren Leistung könnte man meinen entsteht ein Kühlungsproblem, doch überrascht der P4 in der Hinsicht. Die heißeste CPU im Desktop-Bereich kommt locker mit einem Aluminium-Kühlkörper aus.
Die erste Veränderung im Betriebssystem lässt direkt erahnen, wo Hyperthreading einsetzt. Und zwar meldet die neue CPU sich unter Windows XP gleich als ein Zweigespann an. Allerdings sind auf den neuen P4 keine zwei Prozessorköpfe installiert. Vielmehr baut man einen physikalischen Prozessor ein und dieser gibt sich beim Betriebssystem als zwei logische Prozessoren aus. Wie das unter XP Professional aussieht, zeigt sich in den nächsten zwei Bildern:
Was das genau bringt, wird im nächsten Teilkapitel genauer erörtert, doch soviel sei gesagt: mit der Hyperthreading-Technologie ist Multithreading und Multitasking möglich, im Klartext, der neue P4 kann Programme und Programmteile parallel bearbeiten.
Wie schon erwähnt, ist mit Hyperthreading die Möglichkeit zum Multithreading und Multitasking gegeben. Um nun genauer auf die Funktionsweise der Technologie einzugehen, sollte erst mal geklärt sein, was das eigentlich bedeutet!
Führt man unter einem Betriebssystem ein Programm aus, so ist das ein Task, welcher ausgeführt wird. Beginnt nun dieses Programm eine Berechnung z. B. das Bearbeiten eines Bildes, besteht diese Berechnung aus Threads. Nun führen die meisten Programme diese Threads nacheinander aus. Doch gibt es speziell im Serverbereich auch Programme, die das gleichzeitig abarbeiten können. Diese Arbeitsweise nennt man Multithreading.
Entsprechend hat man auch die Möglichkeit zwei Programme, die ihre Threads nacheinander abarbeiten, gleichzeitig ablaufen zu lassen. Dann spricht man von Multitasking, wobei im eigentlichen der gleiche Effekt eintritt - es werden wieder 2 Threads parallel abgearbeitet. (diesmal nur von zwei verschiedenen Programmen)
Hyperthreading unterstützt also Multitasking und Multithreading - aber wie?
In einem Prozessor existieren mehrere verschiedene Execution-Einheiten, die parallel arbeiten können - der Prozessor wird dabei am effektivsten genutzt, wenn die kompletten Einheiten gemeinsam arbeiten. Doch das ist nicht immer möglich - denn der Prozessor arbeitet in einer bestimmten Reihenfolge, In-Order-Execution genannt. Allerdings ist es beim Pentium 4 auch möglich, das der CPU Instruktionen außerhalb dieser Reihenfolge bearbeitet (Out-of-Order-Execution). Nur liegen immer noch viele Teile des Prozessors brach, weil immer nur ein Thread gleichzeitig bearbeitet werden kann, bevor der nächste Thread begonnen wird. Viele Programme, die ausgeführt werden, nutzen dabei genau dieselben Execution-Einheiten - das merken wir beispielsweise auch beim Benchmarkena, denn wenn ein Prozessor beispielsweise in einem FPU-lastigen Benchmark überzeugen kann, so nutzt dieser die starken FPU-Einheiten des Prozessors, während die anderen Einheiten nicht verwendet werden. Hier könnte man jedoch mit einer identischen Geschwindigkeit optimal andere Abläufe berechnen - und genau dies macht Hyperthreading.
Oben sieht man ein System ohne Hyperthreading - zwei Threads liegen zur Bearbeitung vor, können aber nur nacheinander bearbeitet werden. Rechts sieht man schließlich die Ausnutzung des Prozessors - drei Ressourcen sind dargestellt, in einer Zeit von fünf Takten wird jedoch nur ein Bruchteil der möglichen Ressourcen auch verwendet, der Rest 'wartet'. Somit ist es dem Prozessor nur möglich, den einen Thread in dieser Zeit zu bearbeiten.
Im unteren Teil des Bildes sieht man ein System mit Hyperthreading - das System teilt die Threads auf, sie können gleichzeitig bearbeitet werden. Wenn die Ressource einer CPU zu einem Zeitpunkt ohne Aufgabe ist (also 'idle' ist), dann rutscht eine Aufgabe des zweiten Threads nach - der Prozessor wird effektiver ausgelastet, in diesem Beispiel wären sogar noch Ressourcen frei, im Idealfall kommt man so relativ nahe an eine volle Auslastung heran.
Hyperthreading macht also nichts anderes, als die Möglichkeiten eines Prozessors besser auszunutzen. Und wie sich im folgenden Kapitel zeigen wird, funktioniert das sehr effizient!
Technisches . Was muss vorhanden sein?
Auf die in der Grafik (Seite 7) genannten neuen Elemente im Kern, um Hyperthreading zu ermöglichen, werde ich nicht eingehen. Doch muss man auch auf die Peripherie achten damit Hyperthreading funktioniert. Man braucht ein Mainboard, das die VCore liefern kann und Hyperthreading unterstützt. Außerdem braucht man ein BIOS, welches den P4 erkennt. Außerdem ein Betriebssystem, das mit zwei logischen CPUs arbeiten kann. Hier kommen theoretisch alle NT-Betriebssysteme und Linux ab 2.4.18er in Frage. Intel dagegen spricht sich nur für das XP-System (Home und Professional) aus, weil auf allen anderen Betriebssystemen mit Performanceeinbrüchen zu rechnen ist.
Intels mit dem Northwood-Kern zeigen sich als wahre Overclocking-Meister. Doch sollte man sehr vorsichtig vorgehen, da die CPU mit 81 Watt bereits sehr viel Abwärme produziert und das Durchbrennen immer näher rückt. Gefahren kann man vermeiden, indem man die Spannung niedrig hält.
Trotzdem, der neue P4 überrascht! So eben hat Intel die 3 Ghz-Grenze durchbrochen, kommt man mit einem professionellen Overclocking der selben CPU über die 4 Ghz-Grenze. Doch Mal Schritt für Schritt.
Mit dem von Intel mitgelieferten Kühler mit Kupferkern, ist es möglich den P4 mit 1,65 Volt auf hervorragende 3,6 Ghz zu schupsen. Das ist mit einfacher Luftkühlung, wirklich beachtlich. Bei Kompressorkühlung und einem Mainboard, das genug Bustakt liefert, ist es möglich den Prozessor bei 1,85 Volt über die 4 Ghz-Grenze zu hieven. Der Test meiner Quelle allerdings hat es nur bis 3.91 Ghz geschafft, dort war nämlich mit 170 Mhz Bustakt (mehr erreichte das Mainboard nicht) Schluss. Doch zeigte sich das System noch immer sehr Stabil.
Unter den Vorraussetzungen von Hyperthreading ist es nun mehr denn je davon abhängig, welcher Benchmark angewendet wird um ein objektives Testergebnis zu erzielen. Somit geht man dazu über und macht gleich mehrere Benchmarks. Doch diese alle hier aufzuzeigen, sprengt definitiv den Rahmen. So komme ich vielleicht direkt zum Fazit.
Allgemein kann man sagen, das der Pentium 4 3.066 Ghz mit Hyperthreading-Technologie die schnellste Desktop-CPU auf dem Markt, ist und rein auf die Performance gesehen, kommt die einzigste wirkliche Konkurrenz aus eigenem Hause, nämlich der Pentium 4 2.8 Ghz. Zwar fallen einige Benchmarks auch zu Gunsten des AMD-Flagschiffes aus, allerdings ist das in der Relation zu wenig, um von bedrohlicher Konkurrenz reden zu können.
Performancegewinne, die über die sowieso höhere Taktgeschwindigkeit gehen, kann man allerdings nur beim Multitasking bzw. Multithreading erreichen. Doch unterstützen bis jetzt nur wenige Programme für Desktop-PCs die Multithreading-Technologie. Somit wurden die Benchmarks in diesem Bereich mit Server-Programmen durchgeführt und der Performance - Gewinn mit 15-25% ist enorm. Multitasking fällt nicht so toll aus, aber ein Geschwindigkeitsgewinn ist alle Mal vorhanden. Vielleicht werden sich jetzt die Softwarehersteller auch ans Multithreading für den Desktop-Bereich heranwagen. Zumal der AMD-Hammer, der Mitte dieses Jahres herauskommt, auch Hyperthreading-Technologie beherrschen kann.
Preis/Leistung
Doch müssen wir die Medaille auch Mal umdrehen - wer auf Performance pur schwört und der finanzielle Einsatz egal ist, für den ist die neue CPU genau das Richtige. Doch unter dem Preis/Leistungsvergleich sieht es gleich ganz anders aus. Mit ca. 790 Euro ist der neue P4 einfach zu teuer, das alte Problem von Intel. Die untere Punkte-Skala zeigt uns das Verhältnis:
Als Anmerkung dazu, diese Werte sind eher nur eine Tendenz. Das kommt da durch das AMD mit der Produktion nicht hinterher kommt, so sind die Preise überzogen. Außerdem gab es den Athlons XP 2800+ zum Zeitpunkt dieser Skala noch gar nicht im Handel, das bedeutet, hier ist er nur Fiktion.. Schließlich wird der Preis für den neuen P4 natürlich in den ersten drei Monaten sinken, hier sind jetzt die Herstellerangaben eingerechnet. Doch soviel zum Thema Performance und Preis/Leistungsverhältnis, womit dieses Kapitel auch sein Ende hat und wir uns nun AMDs Modellen widmen können.
AMD, Intels Konkurrenz kann nicht mehr mithalten8
Intel zieht mit dem neuen Pentium 4 3.066 Ghz davon. Auf nimmer Wiedersehen, könnte man meinen, wenn man bedenkt, das AMD erst jetzt mit CPUs herausrücken, die die 2-Ghz-Grenze durchbrechen. Daran wird sich auch so schnell nichts ändern.
In diesem Kapitel werde ich von den aktuellen Prozessoren aus dem Hause Advanced Micro Devices berichten: die technologische Beschaffenheit, auch wenn es da nicht viel Neues gibt und die Performance der CPUs ansprechen. Anschließend kommen wir noch zu Zukunfts-Projekten des Hauptkonkurrenten von Intel, weil sich dort eine Kehrtwende abzeichnet. Aber zunächst ein kleiner Blick in die Entwicklung des Athlon.
Der Athlon hat eine lange Geschichte hinter sich - im Endeffekt ist dieser Prozessor AMDs Erfolgsstory. Während man vor diesem Prozessor hauptsächlich Intel-Clones hergestellt hat, die sowohl im Busprotokoll wie auch in der Arbeit sich an den Modellen der Konkurrenz orientierte, hat man mit dem Athlon die erste Eigenentwicklung auf den Markt gebracht, die sich signifikant von den Prozessoren aus dem Hause Intel abhoben. Und man hatte Erfolg - der von Intel produzierte Pentium III hatte einige deutliche Nachteile gegenüber dem ersten K7-Prozessor : Unter anderem war die Floating-Point Einheit des AMD Athlon eindeutig überlegen, zum anderen hatte der AMD-Prozessor den neuen EV6-Bus für den Prozessor ausgesucht, der mit einer Bandbreite von zunächst 1.6 GB/s bei 100 Mhz FSB und Double-Data-Rate-Verfahren dem mit 133 Mhz betriebenen Bus des Pentium III mit 1.06 GB/s überlegen war. AMDs Kalkulationen waren also aufgegangen - man hatte einen Prozessor auf den Markt gebracht, der schneller war, als der vergleichbare Intel-Prozessor.
Es folgte ein Rennen um die Performance-Krone, an das sich sicherlich alle User erinnern - gerade die 1 Ghz-Grenze wollten die beiden Konkurrenten als erster erreichen, hier hatte AMD erstmals in der Firmengeschichte die Nase vorne. Währenddessen hatte man den 0,25micron-gefertigten ersten Athlon durch einen 0,18micron-gefertigen Slot A-Athlon ersetzt - der Thunderbird-Prozessor hatte auch einen nun integrierten Cache, der nicht mehr nur mit der Hälfte oder einem Drittel des Prozessortaktes betrieben worden ist, sondern mit der vollen Taktfrequenz. Dadurch ließ sich die Pro-Mhz-Leistung weiter steigern - und AMD konnte den Prozessor nicht nur im teuren Slot-Format anbieten, sondern auch einen Sockel-Prozessor produzieren.
Nach dem Sprung über die 1 Ghz-Grenze gab es für Intel zunächst einen weiteren Rückschlag : Den 1.13 Ghz Pentium III musste man aufgrund von Stabilitätsproblemen zunächst zurückziehen, was AMD weiteren Nährboden für Marktanteile brachte. Mittlerweile waren viele User auf AMD umgestiegen, unter anderem auch viele Freaks des Overclockings, da sich AMDs Prozessoren aufgrund der besseren und flexibleren Übertaktbarkeit und des günstigen Preises besonders interessant gestalteten.
AMD setzten einen drauf : Es kam der 133 Mhz EV6-Prozessor und somit konnte man die Anbindung zum Prozessor auf 2.1 GB/s steigern. Und Intel hatte mit den nächsten Problemen zu kämpfen - der neue Pentium 4 mit Willamette-Kern hatte eine niedrige Pro-Mhz-Leistung trotz überlegenem 3,2 GB/s Bussystem, er war teuer, schwer zu kühlen und konnte nur mit teurem RDRAM richtig auf Touren gebracht werden. Schließlich konnte AMD auch noch von DDR-SDRAM profitieren - mittlerweile zum Standard geworden machte sich AMD stark für diese Technologie, von der der Prozessor effektiv profitieren konnte, da mit DDR266 eine zum EV6-Bus equivalente Bandbreite geschaffen werden konnte.
Einer der meistverkauften AMD-Prozessoren wurde schließlich der mit dem Codenamen Palomino betitelte Prozessor. AMD fügte zum Thunderbird eine SSE-Einheit hinzu, um mit diesem Intel-Befehlssatz attraktiver für Optimierungen der Programmierer zu werden. 3DNow, als Befehlssatz seit der Einführung vorhanden, war zwar immer noch vorhanden, schien aber das Rennen gegen Intel´s Befehlssätze zu verlieren. Dank weiterer Optimierungen im Kern - beispielsweise eines leistungsfähigen Prefetch Mechanismus, konnte man die Pro Mhz-Leistung weiterhin nach oben schrauben, aber man hatte jetzt einen leistungsfähigen Konkurrenten bekommen - den Northwood von Intel, einen in 0,13micron-Fertiung hergestellten Pentium 4 mit 512 kb L2-Cache, der leicht zu kühlen war und vor allen Dingen schnell hohe Frequenzen erreichte. Also musste man die immer noch bessere Pro-Mhz-Leistung herausstellen und etablierte für den Palomino-Kern ein Quantispeed-Rating für den neuen mit dem Namen Athlon XP bekannten Prozessor.
Ab jetzt begann es für AMD schwierig zu werden - Intel konterte mit immer schnelleren Modellen und konnte Dank der in den Köpfen vorhandenen Einstellung 'Mhz ist besser' wieder besser auftrumpfen. Auch gab es mittlerweile günstigere Chipsätze, die DDR-SDRAM nutzten und somit auch für den normalen Anwender attraktiver wurden. AMD konnte hingegen die Taktfrequenzen nicht so schnell steigern - die 0,18micron-Fertigung machte Frequenzen über 1800 Mhz schwierig, während Intel ohne Probleme Prozessoren mit 2.53 Ghz herstellte.
Heute vorherrschend sind vor allen Dingen Prozessoren mit Palomino-Kern, allerdings hat AMD vor kurzem den Aufsprung auf die 0,13micron-Fertigung geschafft. Der neue Kern ist mit dem Codenamen Thoroughbred betitelt und ist technisch zum Palomino-Kern identisch. Der einzige Thoroughbred-Prozessor ist der Athlon XP2200+ mit einer Taktfrequenz von 1800 Mhz und er wird es auch bleiben, da der Prozessor sich trotz 0,13micron-Fertiung schlecht auf höhere Frequenzen treiben ließ - es musste ein neues Stepping her, welches mit höheren Frequenzen arbeiten konnte. Das kostet natürlich Zeit - diese Zeit nutzte Intel mit dem 2.8 Ghz Pentium 4, man zog also weiter davon.
Der Thoroughbred-Kern ist also AMDs aktueller Kern für den Athlon XP, der für Prozessoren über 1.8 Ghz verwendet wird. Was hat AMD jedoch vom Athlon XP2200+ mit 1800 Mhz zu den Modellen ab dem Athlon XP2400+ mit 2000 Mhz geändert ?
|
Erkennbar für den User sind die Veränderungen beispielsweise bei einem Diagnose-Tool wie WCPUID. Dieses Tool berichtet einem, das es sich bei den neuen Thoroughbred-Modellen um einen CPU mit der ID-Nr. 8 handelt - die beiden Thoroughbred-Kerne kann das Programm allerdings nicht unterscheiden, da AMD die CPU-ID für beide Prozessoren identisch belassen hat. Verändert hat man allerdings einiges an dem Kern, um höhere Taktfrequenzen zu erhalten - zwar hat man nicht wie üblich an der Spannung gedreht, aber durch Optimierungen im Kern einiges erreicht. Da der Die ein paar zusätzliche Transistoren unterbringen muss, ist die Die-Größe etwas angestiegen. Diese beeinflussen jedoch nicht die Performance des Athlons. Auch die Die-Layer wurden von 8 auf 9 erhöht - das wirkt sich leider auf die Komplexität eines Chips aus. Zwar gilt im CPU-Bereich nicht die Regel 'ein Layer mehr = doppelte Produktionskosten' wie aus dem Mainboardbereich, aber die Produktionskosten steigen auch hier auf Grund der höheren Komplexität.
Ansonsten hat sich nichts geändert : Der Thoroughbred hat weiterhin 128 kB L1-Cache, der in 64 kB Instruktions- und 64kb Datencache aufgeteilt ist. Weiterhin stehen 256 kB L2-Cache zur Verfügung - hier wird erst der Barton-Kern einen größeren Cache besitzen und damit die Pro-Takt-Leistung weiter erhöhen. Auch an der Architektur hat sich nichts geändert - es befinden sich jeweils 3 ALU-Einheiten und 3 FPU-Einheiten im Kern, SSE wird ebenso unterstützt wie AMDs 3DNow! Professional, der Prozessor unterstützt Data-Prefetching und auch einen Translation Lookaside Buffer (TLB),
Nichts Neues also in diesem Bereich für den User, jedoch für die Produktion, die AMD für höhere Frequenzen optimiert hat. So erreichen Thoroughbred-B-Prozessoren auch bis zu 2.4 GHz im Overclocking, während der Thoroughbred-A meistens nur bis 2 Ghz zu pushen war. Der Palomino hingegen hatte teilweise schon mit 1.8 Ghz Probleme - AMD hat also durch einen Die-Shrink und einige Optimierungen noch eine ganze Menge an Performance aus dem Athlon XP herausgeholt.
Der Athlon XP und natürlich auch die vorgehenden Athlon-Modelle basieren auf dem EV6-Bus, der eigentlich ein Alpha-Prozessorbus ist. AMD hat diesen zur Einführung der K7-Serie für den Athlon verwendet - mit Erfolg, denn er bietet genügend Reserven um den Prozessor mit Daten zu versorgen. Der EV6-Bus verwendet dabei ein Double Data Rate-Verfahren - effektiv werden also wie bei DDR-SDRAM zwei Datenwörter pro Takt übertragen. Anfangs taktete man den EV6-Bus mit 100 Mhz, später mit 133 Mhz, jetzt sogar mit 166 Mhz. Somit spricht man auch von einem 266 Mhz CPU-Bustakt oder einem 333 Mhz Bustakt, da auf jedem Taktsignal zwei Datenwörter übertragen werden. Alle Athlon XP-Prozessoren, die aktuell auf dem Markt zu finden sind, besitzen einen Takt von 266 Mhz FSB, im Dezember bzw. im nächsten Jahr werden auch die ersten Modelle der Athlon XP-Prozessoren mit einem Quantispeed-Rating von 2700+ und mehr erhältlich sein, die dann auch den neuen 333 Mhz FSB verwenden.
Performance
Wie schon im vorigen Kapitel erwähnt kommen alle AMDs nicht an die Performance von Intel heran, auch nicht wenn man die Quantispeed-Rating oder die Pro-Mhz-Rating berücksichtigt. In den Benchmarks schneidet Intel einfach immer besser ab.
So kann zwar das aktuelle Modell von AMD der Athlon XP 2800+ dem von der technischen Ausrüstung vergleichbaren Pentium 4 2.8 Ghz gut Parole bieten und beide CPUs liegen etwa auf einer Stufe, doch behält Intel durch den zur selben Zeit gebautn 3.066 Ghz Prozessors die Performancekrone locker an.
Preis/Leistung und Fazit
In den Preis/Leistungsverhältnissen sieht es mit den Athlons immer noch besser aus. Auch wenn die CPUs nicht mit Intel mithalten können, der Intel gegenüber einen gleichwertigen Athlon ist immer etwas teurer.
Da Intel einfach momentan die Nase vorn hat und AMD wohl auf Grund der Struktur des Thoroughbred-Kernes auch nicht in der Lage ist, dies aufzuholen, heißt es jetzt einfach warten. Der Barton-Kern, der auch bald aus dem Hause AMD erwartet wird, stellt keine Erneuerung da, vielmehr will man mit dem größeren L2-Cache und der daraus resultierenden höheren Performance einfach nicht den Anschluss zu Intel verlieren. Dann setzt AMD alle Hoffnungen auf den Hammer, auf den ich jetzt noch zu sprechen kommen möchte.
X86-64 Architektur9
Während Intel mit der EPIC-Architektur ein neues Computer-Modell bei seinen 64-Bit-Prozessoren der Itanium-Maschine einsetzt, versucht Konkurrent AMD einen weichen Übergang in die 64-Bit-Welt. Ahnlich wie die Transition von 286er (16 Bit) auf 386er (32 Bit) sollen die »Hammer-CPUs« als vollwertige 32-Bit-CPUs agieren und zugleich AMDs schnellste Prozessoren dieser Klasse werden. Parallel dazu offeriert die x86-64-Architektur erweiterte 64-Bit-Kommandos und einen vollständig 64-bittigen Registersatz. Das soll vor allem einen reibungslosen Mischbetrieb von 64- und 32-Bit-Applikationen ermöglichen, welchen der Konkurrenzprozessor Itanium nur mäßig beherrscht.
AMDs Hammer-CPUs führen ein hochintegriertes Design ein. Die Prozessoren beinhalten einen DDR-Memory-Controller sowie einen mehrkanaligen I/O-Crossbar. Der Memory-Controller beherrscht bis zu 8 DIMMs, registered oder nicht, und erlaubt Fault-Tolerant-Technologien wie Chipkill. Über das I/O-System namens »Hyper Transport« kommunizieren die CPUs untereinander und mit den I/O-Komponenten. Die verschiedenen Hammer-Typen integrieren eine unterschiedliche Zahl dieser Hyper-Transport-Kanäle. Der I/O-Transport arbeitet als serielles Interface bei CPU-Core-Geschwindigkeit und bietet dabei 2-, 4-, 8-, 16- oder 32-Bit bidirektionale Kommunikation. Die sogenannte »Northbridge« des Chipsets entfällt Das integrierte Design verspricht geringe Latenzen bei I/O- und Speicherzugriffen. Da in einem MP-System die Prozessoren keinen Bus sharen müssen, sondern sich direkt miteinander unterhalten, verzichtet AMD auf den Level-3-Cache. L1- und L2-Caches integriert AMD on Die. Dank der vielen integrierten Komponenten benötigen die Hammer-CPUs zwar CPU-Sockel von noch nie da gewesenem Ausmaß (über 900 Pins beim Sledge-Hammer) können im Gegenzug aber mit recht simplen Motherboards auskommen. Laut AMD genügen dem CPU-Monster günstige 4-Layer-Boards. Alle Caches und Interconnects arbeiten ECC-geschützt.
Die Hammer-Ara leitet der »Claw-Hammer« ein. Die CPU erscheint zunächst als Single-Prozessor-Implementation für Workstations. Im Anschluss folgt eine Dual-CPU-fähige Variante des Claw-Hammer für Highend-Workstations und Server. Schließlich soll der lang erwartete »Sledge-Hammer« kommen. Diese Server-CPU skaliert bis acht Wege ohne zusätzliche Crossbar-Komponenten. Prinzipiell unterscheiden sich die verschiedenen Hammer-Varianten nur durch die Zahl der integrierten Hyper-Transport-Ports. Während Claw-Hammer mit einem oder zwei Hypertransports arbeitet, offeriert Sledge-Hammer vier dieser Kanäle.
Durch die integrierten Memory-Controller arbeiten Hammer-basierte Multiprozessorserver als NUMA-Verband. Dank der geringen Latenzzeiten solle es aber kaum Unterschiede zwischen Near- und Far-Memory-Zugriffen geben. Dank der flexiblen Hyper-Transport-Technologie kann ein MP-System mehrere I/O-Controller, wie PCI-X-Busse, über mehrere CPUs ansprechen.
AMDs Hammer-Architektur wirkt sehr durchdacht, äußerst flexibel und skalierbar, doch dennoch günstig. Ob und wie weit sich die Hammer-Familie einen Stück vom Itanium-Kuchen abschneiden kann, hängt nun davon ab, wie viele Hard- und Softwarepartner die Architektur unterstützen. Auf die klingenden Namen der PC- und PC-Server-Branche wird AMD leider verzichten müssen, da Unternehmen wie Dell oder HP sehr eng mit Intel zusammenarbeiten. Immerhin zeigen schon mal Firmen wie Fujitsu-Siemens gesteigertes Interesse am Hammer. Die Demons-tration des Claw-Hammer-Systems auf der CeBIT beschränkte sich auf 32-Bit-Windows-XP und 64-Bit-Suse-Linux. Um Erfolg im kommerziellen Server-Markt zu bekommen, muss AMD aber erst einmal Microsoft zu einem 64-Bit-Windows für Hammer überreden. Anders als Intel fährt AMD künftig nicht parallele Produktlinien. Wenn die Hammer-CPUs erst einmal auf dem Markt sind, lässt AMD die Athlon-Familie auslaufen. Die Kundenakzeptanz muss dann zeigen, ob der Hammer sein Dasein als überwiegend 32-bittig genutzte Workstation-CPU fristet, oder ob er den Sprung in 64-Bit-Enterprise-Server schafft.
Quellennachweis:
vgl. Christoph Eiden, Heinz Fiebelmann und Mike Cramer, PC Hardware, Kaarst-Büttgen
Data Becker Software, Das Große Lexikon, Düsseldorf
Data Becker Software, Das Große Lexikon, Düsseldorf
Microsoft® Encarta® Enzyklopädie
Microsoft® Encarta® Enzyklopädie
vgl. http://www.vnunet.de/pc-pro/default.asp, http://www.pc-welt.de,
http://www.hardware-mag.de und http://www.itnews.de
Anhang:
Aus welchen funktionalen Teilen besteht ein Prozessor?
Welche Aufgaben hat das ALU?
Was ist ein Thread?
Wann bringt Intels Hyperthreading-Technologie etwas?
Wieso kann AMD in Sachen Takt nicht mit Intel mithalten?
Warum geht AMD mit dem Athlon eine neue Namens-Politik?
Wie sieht es im Preisleistungsverhältnis zwischen Intel und AMD aus?
Weshalb gehen die Prozessoren-Hersteller zur 64-Bit Technologie über?
Was ist das revolutionäre am AMD Hammer?
Wird AMD in Zukunft wieder Konkurrenzfähig sein?
a Benchmark: Ein Test, der die Verarbeitungsgeschwindigkeit einer Hard- oder Softwarekomponente durch ein Testprogramm ermittelt, wird 'Benchmark(test)' genannt. Diese Programme oder deren einzelne Komponenten sind in der Regel speziell auf bestimmte Hardwarekomponenten zugeschnitten: die CPU, die Festplatte usw. Die Ergebnisse verschiedener Benchmarkprogramme sind nicht vergleichbar, sondern können nur relative Aussagen liefern.
Haupt | Fügen Sie Referat | Kontakt | Impressum | Nutzungsbedingungen