dr. achim basermann, dr. hans-peter kersken abteilung verteilte systeme und komponentensoftware
DESCRIPTION
Parallele Gleichungslöser für die linearen TRACE-Module. Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr. Christian Frey Abteilung Numerische Methoden DLR Institut für Antriebstechnik. - PowerPoint PPT PresentationTRANSCRIPT
Folie 1Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Dr. Achim Basermann, Dr. Hans-Peter KerskenAbteilung Verteilte Systeme und KomponentensoftwareDLR Simulations- und Softwaretechnik
Dr. Christian FreyAbteilung Numerische MethodenDLR Institut für Antriebstechnik
Parallele Gleichungslöser für die linearenTRACE-Module
Software-Innovationen für die LuftfahrtforschungAbschiedskolloquium für Prof. Dr. Ulrich TrottenbergDLR Braunschweig, 20.04.2010
Folie 2Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Übersicht
Motivation
Die „Distributed Schur Complement”-Methode (DSC)
Komplexe und reelle Problemformulierung
Experimente mit TRACE-Matrizen
Fazit
Folie 3Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Das parallele Simulationssystem TRACE
TRACE: Turbo-machinery Research Aerodynamic Computational Environment
Entwickelt vom Institut für Antriebstechnik des DLR in Zusammenarbeit mit MTU Aero Engines
Berechnet die Innenströmung in Turbomaschinen
Nutzt die Methode der Finiten Volumen mit blockstrukturierten Gittern
Die linearen TRACE-Module erfordern die parallele, iterative Lösung großer, dünnbesetzter, unsymmetrischer Gleichungssysteme.
Folie 4Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Parallele Gleichungslöser in TRACE: HintergrundModule linearTRACE bzw. adjointTRACE
A unsymmetrisch, komplex bzw. reell, dünnbesetzt
Paralleler iterativer Löser: (F)GMRes mit Präkonditionierung
Dominiert das Zeitverhalten deutlich
Matrix-Vektor und Vektor-Vektor-Operationen
Präkonditionierung gewöhnlich am aufwendigsten
Kritisch für die SkalierbarkeitStatus: Block-lokale Präkonditionierung
ILU, SSORSkalierbarkeit begrenzt
Ziel: Globaler, skalierbarer PräkonditioniererTests mit DSC-Methoden
bAx
bPAxP 11
Folie 5Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (1)
Verteilte Matrix,2 Prozessoren
Folie 6Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (2)
DSC-Algorithmus
Schema aufjedem Prozessor
Folie 7Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (3)Präkonditionierung im DSC-Algorithmus
Folie 8Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (4): Einfluss der Partitionierung
Ungerichteter Graph Symmetrisieren der Matrix-Struktur
Graph-Partitionierung: ParMETIS (University of Minnesota)
Ziel:Minimiere die Anzahl der geschnittenen Kanten
Minimiere die Anzahl der Kopplungsvariablen
Folie 9Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Matrix-Experimente: Relle oder komplexe Arithmetik?
idcizyiDCbAx
))((
Komplexe TRACE-Marix(n=28120; nz=1246200; Kond.: 6,7·106)
Reelle TRACE-Matrix(n=56240; nz=2572040; Kond.: 8,4·106)
eGwdc
zy
CDDC
Folie 10Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Präkonditionierer: Matrix-Permutation (komplex)Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung
Original Reverse Cuthill-McKee (RCM)Minimum Degree (MD)
Folie 11Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
27538371
9148261 10323438
0
5000000
10000000
15000000
20000000
25000000
30000000
Fill-
in
Original MD RCM
ILU-Präkonditionierer: Fill-in in L und U (komplex)
MATLAB: ILUT-Präkonditionierung; Threshold = 10-3
415
23 22
1
10
100
1000
ILU
T co
nstr
uctio
n tim
e in
sec
onds
Original MD RCM
Folie 12Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
ILU-Präkonditionierer: Matrix-Permutation (reell)Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung
Original Minimum Degree (MD) Reverse Cuthill-McKee (RCM)
Folie 13Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
ILU-Präkonditionierer: Fill-in in L und U (reell)
MATLAB: ILUT-Präkonditionierung; Threshold = 10-3
167724381
25855563 28610320
0
20000000
40000000
60000000
80000000
100000000
120000000
140000000
160000000
180000000
Fill-
in
Original MD RCM
9664
87 79
1
10
100
1000
10000
ILU
T co
nstr
uctio
n tim
e in
sec
onds
Original MD RCM
Folie 14Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Performance: Komplexe oder reelle Arithmetik?
MATLAB: ILUT-Präkonditionierung;
Threshold = 10-3; |Rel. Residuum| < 10-10
Folie 15Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Performance auf dem AeroGrid-Cluster des DLR(Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2,83 GHz)
DSC-Methode, reelle versus komplexe Problemformulierung
Folie 16Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode: Performance (reell)(Doppelprozessor-Knoten; AMD Opteron 250; 2,4 GHz)
0
2
4
6
8
10
16 32 64Processors
Tim
e in
sec
onds
DSC, 0.001, 5Block Jacobi, threshold 0.001Block Jacobi, threshold 0.01
DSC-Methode versus Block-Jacobi-Präkonditionierung (mit RCM)
0,0
0,5
1,0
1,5
2,0
2,5
3,0
64Processors
Tim
e in
sec
onds
DSC, 0.001, 5
Block Jacobi, threshold 0.001Block Jacobi, threshold 0.01
Bei hoher Prozessorzahl lohnt sichder bessere Präkonditionierer.
Folie 17Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Fazit
Permutation (MD, RCM) entscheidend für ILUT-Performance;leichte Vorteile für RCM (höhere Lokalität)
Komplexe Rechnung deutlich schneller als reelle(höhere Lokalität, besseres Verhältnis von Rechnung zu Speicherzugriffen)
DSC-Methode lässt höhere Skalierbarkeit als Block-lokale Verfahren erwarten.
Aussicht
Entwicklung eines „intelligenten“ Lösers für TRACE mitproblem- und konvergenzabhängiger Parametersteuerungund Präkonditionierung
Einsatz der DSC-Methode als globaler Glätter inMehrgitterverfahren
Folie 18Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Fragen?