Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Bug repellent for supercomputers proves effective

15.11.2012
Lawrence Livermore National Laboratory (LLNL) researchers have used the Stack Trace Analysis Tool (STAT), a highly scalable, lightweight tool to debug a program running more than one million MPI processes on the IBM Blue Gene/Q (BGQ)-based Sequoia supercomputer.

The debugging tool is a significant milestone in LLNL's multi-year collaboration with the University of Wisconsin (UW), Madison and the University of New Mexico (UNM) to ensure supercomputers run more efficiently.

Playing a significant role in scaling up the Sequoia supercomputer, STAT, a 2011 R&D 100 Award winner, has helped both early access users and system integrators quickly isolate a wide range of errors, including particularly perplexing issues that only manifested at extremely large scales up to 1,179,648 compute cores. During the Sequoia scale-up, bugs in applications as well as defects in system software and hardware have manifested themselves as failures in applications. It is important to quickly diagnose errors so they can be reported to experts who can analyze them in detail and ultimately solve the problem.

"STAT has been indispensable in this capacity, helping the multi-disciplined integration team keep pace with the aggressive system scale-up schedule," said LLNL computer scientist Greg Lee.

"While testing a subsystem of Blue/Gene Q, my test program consistently failed only when scaled to 1,179,648 MPI processes. Although the test program was simple, the sheer scale at which this program ran made debugging efforts highly challenging. But when I applied STAT, it quickly revealed that one particular rank process was consistently stuck in a system call," said Dong Ahn, a computer scientist in Livermore Computing.

Based on this finding, a system expert took a close look at the compute core on which this rank process was running and discovered a hardware defect. "Replacing the component suddenly got the entire Sequoia system back to life," Ahn said. "Putting this exercise into perspective, this error was due to a defect in a tiny hardware unit, the decrementor, of a single hardware thread out of a total of 4.7 million hardware threads. I felt it was like finding a needle in a haystack over a coffee break."

Sequoia delivers 20 petaflops of peak power and was ranked No. 1 in June of this year's TOP500 list. It is currently ranked No. 2, behind Oak Ridge National Laboratory's Titan.

LLNL plans to use Sequoia's impressive computational capability to advance understanding of fundamental physics and engineering questions that arise in the National Nuclear Security Administration's (NNSA) program to ensure the safety, security and effectiveness of the United States' nuclear deterrent without testing. Sequoia also will support NNSA/DOE programs at LLNL that focus on nonproliferation, counterterrorism, energy, security, health and climate change.

As LLNL takes delivery of the Sequoia system and works to move it into production, computer scientists will migrate applications that have been running on earlier systems to this newer architecture. This is a period of intense activity for LLNL's application teams as they gain experience with the new hardware and software environment.

"Having a highly effective debugging tool that scales to the full system is vital to the installation and acceptance process for Sequoia. It is critical that our development teams have a comprehensive parallel debugging tool set as they iron out the inevitable issues that come up with running on a new system like Sequoia," said Kim Cupps, leader of the Livermore Computing Division at LLNL.

STAT is particularly important for LLNL because supercomputer simulations are essential in virtually every mission area of the Laboratory. The tool also has been used at other sites and proved to be effective on a wide range of supercomputer platforms, including Linux clusters and Cray systems.

The team is actively pursuing further optimization of STAT technologies and is exploring commercialization strategies. More information about STAT, including a link to the source code, is available on the Web.

More Information
STAT
ASC Sequoia
Early science runs prepare Lawrence Livermore National Lab's Sequoia for national security missions

LLNL news release, Nov. 9, 2012

"Venturing into the heart of high-performance computing simulations"
Science & Technology Review, September 2012
Founded in 1952, Lawrence Livermore National Laboratory provides solutions to our nation's most important national security challenges through innovative science, engineering and technology. Lawrence Livermore National Laboratory is managed by Lawrence Livermore National Security, LLC for the U.S. Department of Energy's National Nuclear Security Administration.

Anne Stark | EurekAlert!
Further information:
http://www.llnl.gov

More articles from Information Technology:

nachricht Micropatterning OLEDs using electron beam technology
27.04.2016 | Fraunhofer-Institut für Organische Elektronik, Elektronenstrahl- und Plasmatechnik FEP

nachricht Quantum computing closer as RMIT drives towards first quantum data bus
18.04.2016 | RMIT University

All articles from Information Technology >>>

The most recent press releases about innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Sei mit STARS4ALL dabei, wenn Merkur vor die Sonne wandert

2012 war es die Venus, in diesem Jahr ist der Planet Merkur dran, vor der Sonne zu passieren. Für fast acht Stunden werden wir am 9. Mai 2016 die Möglichkeit haben, den Planeten Merkur als kleinen schwarzen Punkt auf der Oberfläche der Sonne durchziehen zu sehen. Das EU-Projekt STARS4ALL, an dem auch das IGB beteiligt ist, wird in Zusammenarbeit mit www.sky-live.tv das Phänomen von Teneriffa und von Island aus live übertragen. STARS4ALL bietet dazu Bildungsmaterial für Schüler an.

Am 9. Mai 2016, um die Mittagszeit, wird der Planet Merkur anfangen, die Scheibe der Sonne zu kreuzen; eine Reise, welche über sieben Stunden dauern wird.

Im Focus: MICROSCOPE sendet

Am Montag, 2. Mai 2016, erreichte die Wissenschaftlerinnen und Wissenschaftler vom Zentrum für angewandte Raumfahrttechnologie und Mikrogravitation (ZARM) der Universität Bremen die erste Erfolgsmeldung von ihrem Forschungs-Satelliten. Per Videoübertragung waren sie zugeschaltet, als die französischen Kollegen das Experiment an Bord von MICROSCOPE (MICRO Satellite à traînée Compensée pour l'Observation du Principe d'Equivalence) initialisierten und das Messinstrument die ersten Testdaten übermittelte. Damit ist der wichtigste Meilenstein der Testphase erreicht, bevor sich herausstellt, ob Einsteins Relativitätstheorie auch nach dieser Satellitenmission noch Bestand haben wird.

“#TSAGE @onera_fr is on. The test masses have been released and servo looped!!!! Great all green“ lautet die Twitter-Nachricht der französischen Partner, die...

Im Focus: Genauester Spiegel der Welt bei European XFEL in Hamburg eingetroffen

Der vermutlich präziseste Spiegel der Welt ist bei European XFEL in der Metropolregion Hamburg eingetroffen. Der 95 Zentimeter lange Spiegel ist ein wichtiges Bauteil des Röntgenlasers, der 2017 in Betrieb gehen soll. Auf den ersten Blick sieht er einem normalen Spiegel durchaus ähnlich, ist jedoch extrem flach und glatt. Die größten Unebenheiten auf seiner Oberfläche haben eine Dimension von gerade einmal einem Nanometer, einem milliardstel Meter. Diese Präzision entspräche einer 40 Kilometer langen Straße, deren maximale Unebenheit gerade einmal so groß ist wie der Durchmesser eines Haars.

Der Röntgenspiegel ist der erste von mehreren, die an unterschiedlichen Stellen der Anlage zum Spiegeln und Filtern des Röntgenlaserstrahls eingebaut werden....

Im Focus: Erste Filmaufnahmen von Kernporen

Mithilfe eines extrem schnellen und präzisen Rasterkraftmikroskops haben Forscher der Universität Basel erstmals «lebendige» Kernporenkomplexe bei der Arbeit gefilmt. Kernporen sind molekulare Maschinen, die den Verkehr in und aus dem Zellkern kontrollieren. In ihrem kürzlich in «Nature Nanotechnology» publizierten Artikel erklären die Forscher, wie bewegliche «Tentakeln» in der Pore die Passage von unerwünschten Molekülen verhindern.

Das Rasterkraftmikroskop (AFM) ist kein Mikroskop zum Durchschauen. Es tastet wie ein Blinder mit seinen Fingern die Oberflächen mit einer extrem feinen Spitze...

Im Focus: Nuclear Pores Captured on Film

Using an ultra fast-scanning atomic force microscope, a team of researchers from the University of Basel has filmed “living” nuclear pore complexes at work for the first time. Nuclear pores are molecular machines that control the traffic entering or exiting the cell nucleus. In their article published in Nature Nanotechnology, the researchers explain how the passage of unwanted molecules is prevented by rapidly moving molecular “tentacles” inside the pore.

Using high-speed AFM, Roderick Lim, Argovia Professor at the Biozentrum and the Swiss Nanoscience Institute of the University of Basel, has not only directly...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Diabetes Kongress in Berlin beginnt heute

04.05.2016 | Veranstaltungen

UFW-Fachtagung im Vorzeichen von Big Data und Industrie 4.0

03.05.2016 | Veranstaltungen

analytica conference 2016 in München - Foodomics, mehr als nur ein Modebegriff?

03.05.2016 | Veranstaltungen

 
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Beim Laden von Lithium-Luft-Akkus entsteht hochreaktiver Singulett-Sauerstoff

04.05.2016 | Energie und Elektrotechnik

Sei mit STARS4ALL dabei, wenn Merkur vor die Sonne wandert

04.05.2016 | Physik Astronomie

Mehr als eine mechanische Barriere - Epithelzellen kämpfen aktiv gegen das Grippevirus

04.05.2016 | Biowissenschaften Chemie