Auf Leistung optimieren

obrut<- · Posted: Sun May 13, 2007 10:29 pm Post subject:

branch prediction macht einen erheblichen anteil der performance heutiger cpus aus, da die pipelines länger sind als früher und daher ein abwarten des ergebnisses einer operation um den nächsten befehl ausführen zu können einfach zu lange dauert.

selbst wenn die fpus stärker genutzt würden, so wäre "die cpu" trotzdem nicht frei. fpu und alu teilen sich dieselben befehlsdecoder, von denen es üblicherweise nur 3 oder 4 gibt. wenn jetzt die 3 decoder eines athlon dessen fpus befeuern, von denen es immerhin 3 gibt (je einmal fmul, fadd und fmisc), dann laufen die alus leer, da sie keinen nachschub bekommen. der k10 wird wie auch die aktuellen cpus von intel 4 decoder bekommen um die verschiedenen funktionseinheiten besser auslasten zu können.

UTgamer · Posted: Mon May 14, 2007 11:19 am Post subject:

UTgamer · Posted: Tue May 22, 2007 3:54 pm Post subject:

Damit der Thread nicht einschläft fiel mir gerade ein das wir eine kleine Benchmarksammlung zu unserer Diskussion einfügen könnten.

============================================================
Test A

Also ich habe da diesen Benchmark http://www.cs.virginia.edu/stream/ ausfindig gemacht und ohne an irgendwelchen Parametern zu schrauben diese Werte erhalten:

firefly · Watchman Joined: 31 Oct 2002 Posts: 5329

Da die x86 Architektur auf der "von neumann maschine" beruht, ist die CPU komplett "blockiert", wenn eine der subeinheiten der CPU Daten liest oder schreibt (von Register zu Register, Register zu RAM oder RAM zu Register). Denn die "von neumann maschine" ist eine ein-bus architektur, sprich ein Datenbus, ein Addressbus und ein Steuerbus.

Es kann gut sein das in modernen CPUs intern mehrere Datenbusse gibt aber spätestens wenn es nach ausen geht existiert nur ein Daten-, Address und ein Steuerbus.

Druch pipelining kann man etwas performance heraushohlen da dann subeinheiten eventuell über einen eigenen bus daten austauschen können. Aber je länger die pipeline wird desto geringer wird der performance schub ausfallen,bei höhren Tagtraten, da die CPU "länger" auf das ergebniss warten muss.
Soweit ich weis, ist Intel dadurch mal ganz schön auf die Schnauze gefallen. Denn Intel hat bis vor kurzen den weg verfolgt, eine höhere Performance durch reine Taktraten Steigerung zu erreichen. Da die pipeline in Intel Cpus schon zum teil "extrem" lang war, wurden die CPUs, meines wissen nach, sehr instabil bei Taktraten über 3 Ghz.
_________________
Ein Ring, sie zu knechten, sie alle zu finden,
Ins Dunkel zu treiben und ewig zu binden
Im Lande Mordor, wo die Schatten drohn.

firefly · Watchman Joined: 31 Oct 2002 Posts: 5329

UTgamer · Posted: Tue May 22, 2007 9:43 pm Post subject:

mv · Watchman Joined: 20 Apr 2005 Posts: 6780

UTgamer · Posted: Wed May 23, 2007 10:52 am Post subject:

mv · Watchman Joined: 20 Apr 2005 Posts: 6780

UTgamer · Posted: Wed May 23, 2007 12:13 pm Post subject:

Ich bin froh das du das meist brach liegende Potenzial erkannt hast.

Es gibt noch eine Erweiterung die bereits längst in AMD64 eingeflossen ist.
Eine ältere Diskussion darüber ist hier zu finden http://gcc.gnu.org/ml/gcc/2005-08/msg00270.html
Wobei die dort erwähnte crtfastmath.c kein i386 Code ist sondern z.B. von IA64.

Früher gab man z.B. :
"CFLAGS="-march=athlon64 -O2 -pipe -frename-registers -fweb -ffast-math -mfpmath=sse -ftracer -funroll-loops -fstack-protector "
als seine CFlags an.
Aber das ist überhohlt:
-mfpmath=sse is the default choice for the x86-64 compiler.

SSE bietet noch weit mehr Funktionen und Geschwindigkeit als float. :lol:

_________________
AMD Phenom II x4 >> CFLAGS="-march=amdfam10 -O2 -mmmx -msse3 -mfpmath=sse,387 -pipe -ffast-math" is stable and here in use.

Did Intel produce at any time bugfree HW?
http://www.urbanmyth.org/microcode/
http://www.heise.de/newsticker/meldung/91748

schachti · Posted: Wed May 23, 2007 12:24 pm Post subject:

Du hast mich ja fast ueberzeugt, auf meinem (32-bittigen) Athlon64 X2 System mal -ffast-math auszuprobieren... :wink:

_________________
Never argue with an idiot. He brings you down to his level, then beats you with experience.

How-To: Daten verschlüsselt auf DVD speichern.

UTgamer · Posted: Wed May 23, 2007 1:27 pm Post subject:

@ schachti, keine Sorge das System bleibt weiterhin genauso stabil wie vorher.
Du merkst die Beschleunigung am allermeisten beim GQview, weitere Anwendungen bei denen man richtig was spürt hatte ich im Verlauf auch genannt.

Ich bin mir nicht ganz sicher ob es mit diesen Compilerflags zusammenhängt aber das Abspeichern auf Festplatte unter reiserfs 3.6 geht auch flotter, bei ext3 habe ich jedoch nichts gemerkt, daher habe ich vor rund 2 Monaten von Mischfilesystemen auf den gleichen Platten (Debian Kernel 2.6.18.x/Gentoo) alles auf reiserfs umgestellt, und nicht einmal einen Fehler in den 1,5 Jahren auf dem 64er bekommen, kann aber auch eine Inlinekernelverbesserung sein. Oder die CPU hat doch soviel mehr Freiraum bekommen das die Flags sich auswirken. Ich habe ja das gesammte System damit erstellt icl. aller Treiber, eine Optimierung mehr oder weniger kann sich schon merkbar auswirken.
_________________
AMD Phenom II x4 >> CFLAGS="-march=amdfam10 -O2 -mmmx -msse3 -mfpmath=sse,387 -pipe -ffast-math" is stable and here in use.

Did Intel produce at any time bugfree HW?
http://www.urbanmyth.org/microcode/
http://www.heise.de/newsticker/meldung/91748

Keruskerfuerst · Posted: Mon Jun 18, 2007 7:05 am Post subject:

Storm.Xapek.de · Tux's lil' helper Joined: 09 Feb 2006 Posts: 97