Anzeige
The debugging tool is a significant milestone in LLNL's multi-year collaboration with the University of Wisconsin (UW), Madison and the University of New Mexico (UNM) to ensure supercomputers run more efficiently.
Playing a significant role in scaling up the Sequoia supercomputer, STAT, a 2011 R&D 100 Award winner, has helped both early access users and system integrators quickly isolate a wide range of errors, including particularly perplexing issues that only manifested at extremely large scales up to 1,179,648 compute cores. During the Sequoia scale-up, bugs in applications as well as defects in system software and hardware have manifested themselves as failures in applications. It is important to quickly diagnose errors so they can be reported to experts who can analyze them in detail and ultimately solve the problem.
"STAT has been indispensable in this capacity, helping the multi-disciplined integration team keep pace with the aggressive system scale-up schedule," said LLNL computer scientist Greg Lee.
"While testing a subsystem of Blue/Gene Q, my test program consistently failed only when scaled to 1,179,648 MPI processes. Although the test program was simple, the sheer scale at which this program ran made debugging efforts highly challenging. But when I applied STAT, it quickly revealed that one particular rank process was consistently stuck in a system call," said Dong Ahn, a computer scientist in Livermore Computing.
Based on this finding, a system expert took a close look at the compute core on which this rank process was running and discovered a hardware defect. "Replacing the component suddenly got the entire Sequoia system back to life," Ahn said. "Putting this exercise into perspective, this error was due to a defect in a tiny hardware unit, the decrementor, of a single hardware thread out of a total of 4.7 million hardware threads. I felt it was like finding a needle in a haystack over a coffee break."
Sequoia delivers 20 petaflops of peak power and was ranked No. 1 in June of this year's TOP500 list. It is currently ranked No. 2, behind Oak Ridge National Laboratory's Titan.
LLNL plans to use Sequoia's impressive computational capability to advance understanding of fundamental physics and engineering questions that arise in the National Nuclear Security Administration's (NNSA) program to ensure the safety, security and effectiveness of the United States' nuclear deterrent without testing. Sequoia also will support NNSA/DOE programs at LLNL that focus on nonproliferation, counterterrorism, energy, security, health and climate change.
As LLNL takes delivery of the Sequoia system and works to move it into production, computer scientists will migrate applications that have been running on earlier systems to this newer architecture. This is a period of intense activity for LLNL's application teams as they gain experience with the new hardware and software environment.
"Having a highly effective debugging tool that scales to the full system is vital to the installation and acceptance process for Sequoia. It is critical that our development teams have a comprehensive parallel debugging tool set as they iron out the inevitable issues that come up with running on a new system like Sequoia," said Kim Cupps, leader of the Livermore Computing Division at LLNL.
STAT is particularly important for LLNL because supercomputer simulations are essential in virtually every mission area of the Laboratory. The tool also has been used at other sites and proved to be effective on a wide range of supercomputer platforms, including Linux clusters and Cray systems.
The team is actively pursuing further optimization of STAT technologies and is exploring commercialization strategies. More information about STAT, including a link to the source code, is available on the Web.
More Information
STAT
ASC Sequoia
Early science runs prepare Lawrence Livermore National Lab's Sequoia for national security missions
LLNL news release, Nov. 9, 2012
"Venturing into the heart of high-performance computing simulations"
Science & Technology Review, September 2012
Founded in 1952, Lawrence Livermore National Laboratory provides solutions to our nation's most important national security challenges through innovative science, engineering and technology. Lawrence Livermore National Laboratory is managed by Lawrence Livermore National Security, LLC for the U.S. Department of Energy's National Nuclear Security Administration.
Anne Stark | Quelle: EurekAlert!
Weitere Informationen: www.llnl.gov
Weitere Berichte zu: Bug repellent > computer simulation > Laboratory > LLNL > MPI > national security > Nuclear > Nuclear Security Administration > Pervasive Computing > Security Administration > Security Forum > STAT
Wegweiser in der nationalen Raumfahrtstrategie: BMWi fördert DFKI-Flaggschiffprojekt mit 8 Mio. Euro
22.05.2013 | Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI
Architekturen für Smart Ecosystems
21.05.2013 | Fraunhofer-Institut für Experimentelles Software Engineering IESE
Fraunhofer SCAI zeigt aktuelle Software und Dienstleistungen auf der Messe »transport logistic« in München.
Zur Messe »transport logistic« in München präsentiert das Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI seine Software-Lösungen und Dienstleistungen auf dem Gebiet der Optimierung. Mit dabei ist die jüngste Version der Software PackAssistant, die weltweit von Unternehmen erfolgreich für die 3D-Verpackungsplanung eingesetzt wird.
PackAssistant berechnet die optimierte Befüllung von Behältern ...
Das an sich harmlose Enzym „Npro“ spielt beim Angriff des Schweinepest-Virus eine Hauptrolle. Gleichzeitig lässt sich das Enzym perfekt für neue Herstellverfahren von medizinischen Wirkstoffen einsetzen.
Die acib-Forschung hat seine Geheimnisse gelüftet und eröffnet damit nicht nur neue Möglichkeiten zum Bekämpfen des Virus, sondern auch für das Herstellen von Protein-Medikamenten – in Form eines "LKW im Mikrobereich".
Die von Viren übertragene Schweinepest gehört zu den gefährlichsten Tierseuchen weltweit und war bisher schwer kontrollierbar. Wie man aus ...
Leichtbau gilt als Schlüsseltechnologie. Wo immer es um geringes Gewicht geht und Massen bewegt werden müssen, sind sie gefragt: Faserverbundwerkstoffe. Doch nicht immer geht es ohne Metall.
Eine Methode, die besten Eigenschaften verschiedener Werkstoffe miteinander zu verbinden, ist die Hybrid-Bauweise. Sinnvolle Kombinationen unterschiedlicher Materialien sind zum Beispiel CFK und Aluminium.
Derzeit erfolgt das Verbinden dieser Komponenten über ein adhäsives oder mechanisches Fügen. Insbesondere im Hinblick auf gewichtsoptimierte, integrale Strukturen mit verbesserten mechanischen Eigenschaften sind jedoch neue Konstruktions- ...
Einen tiefen Einblick in das Wesen quantenmechanischer Phasenübergänge gewannen Innsbrucker Quantenphysiker um Rainer Blatt und Peter Zoller im Labor.
Sie haben als erste Forscher den Kampf gegensätzlicher Dynamiken an einem neuartigen Übergang zweier quantenmechanischer Ordnungen simuliert und berichten darüber in der Fachzeitschrift Nature Physics.
„Bringen wir Wasser zum Kochen, steigen Wassermoleküle als Dampf auf. Eine solche Änderung der physikalischen Ordnung von Materie nennen wir Phasenübergang“, erklärt Sebastian Diehl vom ...
Supraleitungssensoren der PTB ermöglichen hochempfindliche Messungen der magnetischen Kernresonanz dünner Helium-3-Schichten - aktuelle Veröffentlichung in Science
Tieftemperatur-Spezialisten der Physikalisch-Technischen Bundesanstalt (PTB) haben mit ihren SQUIDs dazu beigetragen, dass die magnetischen Momente von Atomen des seltenen Isotopes 3He (Helium-3) extrem empfindlich gemessen werden konnten. Mithilfe dieser Sensoren wurden hochempfindliche Kernresonanzspektrometer entwickelt, die jetzt tiefe Einblicke in den Zustand der Materie bei extrem tiefen Temperaturen lieferten.
Konkret sperrte ...
Anzeige
Anzeige

Trockenheit bringt Borneos Bäume gleichzeitig zum Blühen
22.05.2013 | Biowissenschaften Chemie
Drought makes Borneo’s trees flower at the same time
22.05.2013 | Biowissenschaften Chemie
Badegewässer: 94 Prozent erfüllen Mindeststandards
22.05.2013 | Ökologie Umwelt- Naturschutz
Aktuelle Entwicklungen in der Molekularen Katalyse
22.05.2013 | Veranstaltungsnachrichten
7.000 Mediziner treffen sich im CCH-Congress Center Hamburg
22.05.2013 | Veranstaltungsnachrichten
Richtig. Wichtig. Lebenswichtig. - Tag der Organspende
22.05.2013 | Veranstaltungsnachrichten