dr. achim basermann, dr. hans-peter kersken abteilung verteilte systeme und komponentensoftware

18
Folie 1 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr. Christian Frey Abteilung Numerische Methoden DLR Institut für Antriebstechnik Parallele Gleichungslöser für die linearen TRACE-Module Software-Innovationen für die Luftfahrtforschung Abschiedskolloquium für Prof. Dr. Ulrich Trottenberg DLR Braunschweig, 20.04.2010

Upload: maura

Post on 19-Mar-2016

27 views

Category:

Documents


2 download

DESCRIPTION

Parallele Gleichungslöser für die linearen TRACE-Module. Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr. Christian Frey Abteilung Numerische Methoden DLR Institut für Antriebstechnik. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 1Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Dr. Achim Basermann, Dr. Hans-Peter KerskenAbteilung Verteilte Systeme und KomponentensoftwareDLR Simulations- und Softwaretechnik

Dr. Christian FreyAbteilung Numerische MethodenDLR Institut für Antriebstechnik

Parallele Gleichungslöser für die linearenTRACE-Module

Software-Innovationen für die LuftfahrtforschungAbschiedskolloquium für Prof. Dr. Ulrich TrottenbergDLR Braunschweig, 20.04.2010

Page 2: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 2Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Übersicht

Motivation

Die „Distributed Schur Complement”-Methode (DSC)

Komplexe und reelle Problemformulierung

Experimente mit TRACE-Matrizen

Fazit

Page 3: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 3Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Das parallele Simulationssystem TRACE

TRACE: Turbo-machinery Research Aerodynamic Computational Environment

Entwickelt vom Institut für Antriebstechnik des DLR in Zusammenarbeit mit MTU Aero Engines

Berechnet die Innenströmung in Turbomaschinen

Nutzt die Methode der Finiten Volumen mit blockstrukturierten Gittern

Die linearen TRACE-Module erfordern die parallele, iterative Lösung großer, dünnbesetzter, unsymmetrischer Gleichungssysteme.

Page 4: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 4Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Parallele Gleichungslöser in TRACE: HintergrundModule linearTRACE bzw. adjointTRACE

A unsymmetrisch, komplex bzw. reell, dünnbesetzt

Paralleler iterativer Löser: (F)GMRes mit Präkonditionierung

Dominiert das Zeitverhalten deutlich

Matrix-Vektor und Vektor-Vektor-Operationen

Präkonditionierung gewöhnlich am aufwendigsten

Kritisch für die SkalierbarkeitStatus: Block-lokale Präkonditionierung

ILU, SSORSkalierbarkeit begrenzt

Ziel: Globaler, skalierbarer PräkonditioniererTests mit DSC-Methoden

bAx

bPAxP 11

Page 5: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 5Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Methode (1)

Verteilte Matrix,2 Prozessoren

Page 6: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 6Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Methode (2)

DSC-Algorithmus

Schema aufjedem Prozessor

Page 7: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 7Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Methode (3)Präkonditionierung im DSC-Algorithmus

Page 8: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 8Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Methode (4): Einfluss der Partitionierung

Ungerichteter Graph Symmetrisieren der Matrix-Struktur

Graph-Partitionierung: ParMETIS (University of Minnesota)

Ziel:Minimiere die Anzahl der geschnittenen Kanten

Minimiere die Anzahl der Kopplungsvariablen

Page 9: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 9Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Matrix-Experimente: Relle oder komplexe Arithmetik?

idcizyiDCbAx

))((

Komplexe TRACE-Marix(n=28120; nz=1246200; Kond.: 6,7·106)

Reelle TRACE-Matrix(n=56240; nz=2572040; Kond.: 8,4·106)

eGwdc

zy

CDDC

Page 10: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 10Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Präkonditionierer: Matrix-Permutation (komplex)Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung

Original Reverse Cuthill-McKee (RCM)Minimum Degree (MD)

Page 11: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 11Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

27538371

9148261 10323438

0

5000000

10000000

15000000

20000000

25000000

30000000

Fill-

in

Original MD RCM

ILU-Präkonditionierer: Fill-in in L und U (komplex)

MATLAB: ILUT-Präkonditionierung; Threshold = 10-3

415

23 22

1

10

100

1000

ILU

T co

nstr

uctio

n tim

e in

sec

onds

Original MD RCM

Page 12: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 12Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

ILU-Präkonditionierer: Matrix-Permutation (reell)Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung

Original Minimum Degree (MD) Reverse Cuthill-McKee (RCM)

Page 13: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 13Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

ILU-Präkonditionierer: Fill-in in L und U (reell)

MATLAB: ILUT-Präkonditionierung; Threshold = 10-3

167724381

25855563 28610320

0

20000000

40000000

60000000

80000000

100000000

120000000

140000000

160000000

180000000

Fill-

in

Original MD RCM

9664

87 79

1

10

100

1000

10000

ILU

T co

nstr

uctio

n tim

e in

sec

onds

Original MD RCM

Page 14: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 14Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Performance: Komplexe oder reelle Arithmetik?

MATLAB: ILUT-Präkonditionierung;

Threshold = 10-3; |Rel. Residuum| < 10-10

Page 15: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 15Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Performance auf dem AeroGrid-Cluster des DLR(Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2,83 GHz)

DSC-Methode, reelle versus komplexe Problemformulierung

Page 16: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 16Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

DSC-Methode: Performance (reell)(Doppelprozessor-Knoten; AMD Opteron 250; 2,4 GHz)

0

2

4

6

8

10

16 32 64Processors

Tim

e in

sec

onds

DSC, 0.001, 5Block Jacobi, threshold 0.001Block Jacobi, threshold 0.01

DSC-Methode versus Block-Jacobi-Präkonditionierung (mit RCM)

0,0

0,5

1,0

1,5

2,0

2,5

3,0

64Processors

Tim

e in

sec

onds

DSC, 0.001, 5

Block Jacobi, threshold 0.001Block Jacobi, threshold 0.01

Bei hoher Prozessorzahl lohnt sichder bessere Präkonditionierer.

Page 17: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 17Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Fazit

Permutation (MD, RCM) entscheidend für ILUT-Performance;leichte Vorteile für RCM (höhere Lokalität)

Komplexe Rechnung deutlich schneller als reelle(höhere Lokalität, besseres Verhältnis von Rechnung zu Speicherzugriffen)

DSC-Methode lässt höhere Skalierbarkeit als Block-lokale Verfahren erwarten.

Aussicht

Entwicklung eines „intelligenten“ Lösers für TRACE mitproblem- und konvergenzabhängiger Parametersteuerungund Präkonditionierung

Einsatz der DSC-Methode als globaler Glätter inMehrgitterverfahren

Page 18: Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware

Folie 18Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010

Fragen?