Благодаря Vista у TACC теперь есть три пути к своему суперкомпьютеру «Горизонт будущего»

Национальные суперкомпьютерные центры в США, Европе и Китае не только достаточно богаты, чтобы создавать очень мощные машины, но и достаточно богаты, благодаря своим национальным правительствам, чтобы гарантировать и поддерживать множество и несколько несовместимых архитектур, чтобы подстраховаться от своих ставок и снизить их риск.

В Соединенных Штатах Национальный научный фонд, работающий вместе с Министерством энергетики, предпочитает держать открытыми свои варианты, как мы видели на страницах Следующая платформа За последнее десятилетие, а благодаря Техасскому центру перспективных вычислений при Техасском университете, который является флагманским учреждением NSF, имеется даже достаточный аппетит и финансирование для предоставления нескольких архитектур от разных поставщиков внутри TACC.

Но в конечном итоге в качестве «рабочей лошадки» системы в TACC был выбран один вычислительный механизм, а с недавним запуском гибридного кластера CPU-GPU «Vista» на предприятии теперь подготовлена почва для трехсторонней скачки между Intel , AMD и Nvidia станут поставщиками вычислительных механизмов для будущего суперкомпьютера Horizon, задача которого — быть в 10 раз быстрее нынешнего полностью процессорного суперкомпьютера Frontera, строительство которого обошлось в 60 миллионов долларов и который был установлен в 2019 году.

До проблем с линейками продуктов Intel и пандемии коронавируса TACC ожидала, что вторая фаза развития Frontera, возможно, с каким-то ускорителем, обеспечивающим большую часть или большую часть ее вычислительных возможностей, будет поставлена в 2021 году, но вместо этого TACC обновила свои сопутствующие системы «Lonestar» и «Stampede» и продолжала работать над 8008 двухпроцессорными узлами Xeon SP «Cascade Lake», которые в совокупности имеют 448448 ядер и пиковую производительность 38,7 петафлопс.

Машина Lonestar 6, установленная в 2021 году, основана на процессорах AMD Milan Epyc 7763 и имеет 71 680 ядер, обеспечивающих пиковую производительность F64 в 3 петафлопс за 8,4 миллиона долларов.

Stampede 3 был установлен в прошлом году и вскоре будет запущен в производство. Машина Stampede 3 сохранила 1064 узла Intel «Skylake» Xeon SP и 224 узла «Ice Lake» Xeon SP, использовавшихся в предыдущей системе Stampede 2, а также добавила 560 узлов на базе процессоров Intel «Sapphire Rapids» серии Max Max с памятью HBM2e. , объединяя в общей сложности 137 952 ядра (включая некоторые экспериментальные узлы, использующие ускорители Intel «Ponte Vecchio» серии GPU Max, и пиковую производительность чуть менее 10 петафлопс с точностью FP64).

С системой Vista в дело вступает Nvidia. Машина Vista имеет 600 суперчипов, которые объединяют 72-ядерный серверный процессор Grace CG100 Arm с графическим ускорителем Hopper GH100 в едином пространстве памяти. Векторные процессоры на графических процессорах H100 обеспечивают пиковую производительность FP64 в 20,4 петафлопс, и вы можете удвоить эту цифру до 40,2 терафлопса на FP64 на матричных математических модулях, встроенных в H100. По сути, Vista обладает такой же мощью, как и Frontera — при условии, конечно, что вы можете переносить коды с процессоров на графические процессоры. Таким образом, теоретически потребуется всего десять соединенных друг с другом Vista, чтобы получить чистую производительность, в 10 раз превышающую производительность Frontera. Именно это и является целью будущего суперкомпьютера Horizon, который, как ожидается, будет размещен в новом вычислительном комплексе лидерского класса, который TACC строит на окраине Остина. совместно с оператором колокейшн-центра обработки данных Switch.

Объект, известный как The Rock, является пятым центром обработки данных, которым управляет Switch, после центров обработки данных, которые он эксплуатирует в Рино, Лас-Вегасе, Атланте и Гранд-Рапидсе. Вот как будет выглядеть часть объекта в Остине, где будет расположен суперкомпьютер Horizon:

А вот как будет выглядеть комплекс дата-центра The Rock, строящийся Switch:

TACC очень долго думала над проектированием будущего суперкомпьютера Horizon и объекта LCCF, в котором будут размещены он и другие будущие суперкомпьютеры. NFS профинансировала первоначальные проектные работы на сумму 3,5 миллиона долларов еще в сентябре 2020 года, и прямо сейчас NSF ищет где-то от 520 до 620 миллионов долларов для полного финансирования LCCF в период с 2024 по 2027 год (это финансовые годы правительства США, которые заканчиваются 31 июля того же года). Но в том же документе есть таблица, в которой показано, что в течение F2029 было потрачено в общей сложности 656 миллионов долларов. Из этой суммы 40 миллионов долларов в год выделяется на эксплуатацию LCCF.

Система Horizon составляет значительную часть этого бюджета, но не такую большую, как вы думаете. Дэн Станционе, заместитель вице-президента по исследованиям Техасского университета и исполнительный директор TACC, дал нам некоторое представление о мышлении в TACC, когда мы говорили о Stampede 3 и грядущей машине Vista до того, как о ней было объявлено на суперкомпьютерной конференции SC23 в Денвере. в прошлом году. В то время мы сказали, что если бы мы были Stanzione, мы бы купили несколько компьютеров Grace-Grace и Grace-Hopper и втянули бы всех трех поставщиков вычислительных систем в тендерную войну, и все, что он сделал, это рассмеялся.

Наверное, потому что таков план.

Но на самом деле разработка системы Horizon, которая станет первой машиной в LCCF, является непростой задачей, учитывая разнообразие рабочих нагрузок, которые выполняет NSF.

«Мы знаем, что 40 процентов приложений, которые мы профилируем для Horizon, на данный момент находятся в хорошей форме для графических процессоров», — сообщает Станционе. Следующая платформа. «Но это означает, что 60 процентов наших крупных научных приложений таковыми не являются. Поэтому я взял на себя обязательство, что у нас будет значительный компонент ЦП для Horizon, даже несмотря на то, что я собираюсь инвестировать доллары примерно в той же части, что и в приложения. Итак, 40 процентов долларов за графические процессоры, что означает около 80 процентов провалов графических процессоров, потому что они в четыре или пять раз дешевле с точки зрения пиковых провалов».

Мы предполагали, что стоимость Horizon будет примерно такой же, как у машины «Blue Waters», которую Крей построил для Национального центра суперкомпьютерных приложений при Университете Иллинойса еще в 2011 году, которая стоила 188 миллионов долларов и представляла собой высшую планку. за расходы на единую систему со стороны NSF. И Станционе подтвердил, что стоимость системы Horizon, которую мы построим в 2025 году и введем в эксплуатацию в 2026 году, будет примерно такой же и «нечего чихать» даже по сравнению с 500 миллионами долларов, которые стоит система «Frontier» в Ок-Ридже. Стоимость Национальных лабораторий, когда она была установлена два года назад, или 400 миллионов долларов, которые стоила будущая система «Эль-Капитан», которая сейчас создается в Ливерморской национальной лаборатории Лоуренса. (Это системные затраты за вычетом единовременных затрат на проектирование или NRE.)

Это оставляет вопрос о 10-кратном приросте производительности по сравнению с Frontera для приложений, которые в настоящее время работают на нем.

Ларс Кестерке, один из 190 исследователей TACC, еще в марте 2023 года подготовил презентацию о Frontera и Horizon, которую мы нашли сегодня, разыскивая эту историю. Здесь показано, насколько важным стал TACC для HPC в США:

Между прочим, мощность LCCF составляет 15 МВт по сравнению с 12 МВт, на которые рассчитан нынешний объект в кампусе UT. Но в этом коммутационном центре обработки данных за пределами Остина есть много возможностей для роста, и нет никаких проблем с попыткой увеличить мощность текущего местоположения TACC.

Также, пожалуйста, обработайте вот это: 7 миллиардов вычислительных часов в год и 5 миллиардов файлов. Это своего рода гипермасштаб. А иметь десятки тысяч пользователей и тысячи проектов, которыми нужно управлять, — это не шутка. Мы говорили это раньше и повторим еще раз: в некотором смысле гиперскейлерам это легко удается. Они управляют несколькими рабочими нагрузками в больших масштабах. Но управление на несколько порядков большим количеством рабочих нагрузок — это особый вид кошмара, когда вы пытаетесь довести производительность до абсолютных пределов. И TACC, вероятно, является лучшим центром высокопроизводительных вычислений в мире, который справляется с этой задачей: время безотказной работы составляет 99,2 процента, а загрузка — 95,4 процента для 1,13 миллиона рабочих мест, созданных за двенадцать месяцев до презентации, подготовленной Кёстерке.

Это кошмар, с которым команде Stanzione приходится справляться в TACC на своей флагманской машине:

Это самая сумасшедшая игра в тетрис в мире, и то, что менеджеры по нагрузке вообще могут сделать это возможным, является свидетельством человеческого гения.

Вот как TACC думает о затратах, разрабатывая архитектуру будущей системы Horizon:

Это реальный мир, холодная вода на лице, которую стоит созерцать толпе HPC.

Все это будет использовано в дизайне Horizon, который, как мы думаем, будет включать в себя сочетание узлов CPU-CPU и CPU-GPU, а также предназначен специально для повышения производительности приложений в 10 раз по сравнению с Frontera. Кёстерке говорит, что существует четыре фактора, на которые TACC обращает внимание, когда речь идет о производительности приложений, и мы цитируем:

Изменилось ли время выполнения? (Аналог Strong Scaling – решить ту же задачу за меньшее время).
Изменился ли размер проблемы? (Аналог Weak Scaling – решать более крупные задачи за фиксированное время)
Использовали ли мы больше или меньше общего ресурса? (Аналог Пропускной способности).
Физика изменилась? (Нет хорошего аналога).

И это подводит нас к фактическим отклонениям, которые TACC будет использовать для управления проектом Horizon:

Среднее значение будет представлять собой мультипликатив этих четырех коэффициентов, указанных выше, и не все приложения будут умножаться с одинаковой скоростью по этим четырем коэффициентам даже на одном и том же оборудовании ЦП и графического процессора. Цель, как мы полагаем, 20 «характерных научных приложений» или CSA, которые рассмотрел Кестерке и которые охватывают астрономию и астрофизику, биофизику и биологию, вычислительную гидродинамику, геодинамику и земные системы, а также инженерию материалов, состоит в том, чтобы получить 10-кратное увеличение любые способы имеют смысл для каждого отдельного приложения, учитывая природу кода и его отображение на железе.

Дело в том, что это не обязательно так просто, как построить машину CPU-GPU мощностью 400 петафлопс или смесь узлов только с процессором и с графическим ускорением, что в сумме дает 400 петафлопс, и закончить дело. У TACC много разных кодов и много разных клиентов, в отличие от других национальных лабораторий США, у которых часто есть несколько ключевых кодов и много денег для переноса кода через архитектурные скачки. Хотя Frontera имеет определенное количество рабочих нагрузок такого класса возможностей, они не доминируют.

Мы с нетерпением ждем возможности увидеть, как NSF и TACC сопоставляют оборудование с выполняемыми задачами. Мы все можем многому научиться из того, как будет построен Horizon.

2024-01-29 23:48:13

1706573231
#Благодаря #Vista #TACC #теперь #есть #три #пути #своему #суперкомпьютеру #Горизонт #будущего

Благодаря Vista у TACC теперь есть три пути к своему суперкомпьютеру «Горизонт будущего»

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply