Home » Благодаря Vista у TACC теперь есть три пути к своему суперкомпьютеру «Горизонт будущего»

Благодаря Vista у TACC теперь есть три пути к своему суперкомпьютеру «Горизонт будущего»

Национальные суперкомпьютерные центры в США, Европе и Китае не только достаточно богаты, чтобы создавать очень мощные машины, но и достаточно богаты, благодаря своим национальным правительствам, чтобы гарантировать и поддерживать множество и несколько несовместимых архитектур, чтобы подстраховаться от своих ставок и снизить их риск.

В Соединенных Штатах Национальный научный фонд, работающий вместе с Министерством энергетики, предпочитает держать открытыми свои варианты, как мы видели на страницах Следующая платформа За последнее десятилетие, а благодаря Техасскому центру перспективных вычислений при Техасском университете, который является флагманским учреждением NSF, имеется даже достаточный аппетит и финансирование для предоставления нескольких архитектур от разных поставщиков внутри TACC.

Но в конечном итоге в качестве «рабочей лошадки» системы в TACC был выбран один вычислительный механизм, а с недавним запуском гибридного кластера CPU-GPU «Vista» на предприятии теперь подготовлена ​​почва для трехсторонней скачки между Intel , AMD и Nvidia станут поставщиками вычислительных механизмов для будущего суперкомпьютера Horizon, задача которого — быть в 10 раз быстрее нынешнего полностью процессорного суперкомпьютера Frontera, строительство которого обошлось в 60 миллионов долларов и который был установлен в 2019 году.

До проблем с линейками продуктов Intel и пандемии коронавируса TACC ожидала, что вторая фаза развития Frontera, возможно, с каким-то ускорителем, обеспечивающим большую часть или большую часть ее вычислительных возможностей, будет поставлена ​​в 2021 году, но вместо этого TACC обновила свои сопутствующие системы «Lonestar» и «Stampede» и продолжала работать над 8008 двухпроцессорными узлами Xeon SP «Cascade Lake», которые в совокупности имеют 448448 ядер и пиковую производительность 38,7 петафлопс.

Машина Lonestar 6, установленная в 2021 году, основана на процессорах AMD Milan Epyc 7763 и имеет 71 680 ядер, обеспечивающих пиковую производительность F64 в 3 петафлопс за 8,4 миллиона долларов.

Stampede 3 был установлен в прошлом году и вскоре будет запущен в производство. Машина Stampede 3 сохранила 1064 узла Intel «Skylake» Xeon SP и 224 узла «Ice Lake» Xeon SP, использовавшихся в предыдущей системе Stampede 2, а также добавила 560 узлов на базе процессоров Intel «Sapphire Rapids» серии Max Max с памятью HBM2e. , объединяя в общей сложности 137 952 ядра (включая некоторые экспериментальные узлы, использующие ускорители Intel «Ponte Vecchio» серии GPU Max, и пиковую производительность чуть менее 10 петафлопс с точностью FP64).

С системой Vista в дело вступает Nvidia. Машина Vista имеет 600 суперчипов, которые объединяют 72-ядерный серверный процессор Grace CG100 Arm с графическим ускорителем Hopper GH100 в едином пространстве памяти. Векторные процессоры на графических процессорах H100 обеспечивают пиковую производительность FP64 в 20,4 петафлопс, и вы можете удвоить эту цифру до 40,2 терафлопса на FP64 на матричных математических модулях, встроенных в H100. По сути, Vista обладает такой же мощью, как и Frontera — при условии, конечно, что вы можете переносить коды с процессоров на графические процессоры. Таким образом, теоретически потребуется всего десять соединенных друг с другом Vista, чтобы получить чистую производительность, в 10 раз превышающую производительность Frontera. Именно это и является целью будущего суперкомпьютера Horizon, который, как ожидается, будет размещен в новом вычислительном комплексе лидерского класса, который TACC строит на окраине Остина. совместно с оператором колокейшн-центра обработки данных Switch.

Read more:  Депутаты TikTok ... но остановятся ли они теперь, когда приложение запрещено на официальных телефонах?

Объект, известный как The Rock, является пятым центром обработки данных, которым управляет Switch, после центров обработки данных, которые он эксплуатирует в Рино, Лас-Вегасе, Атланте и Гранд-Рапидсе. Вот как будет выглядеть часть объекта в Остине, где будет расположен суперкомпьютер Horizon:

А вот как будет выглядеть комплекс дата-центра The Rock, строящийся Switch:

TACC очень долго думала над проектированием будущего суперкомпьютера Horizon и объекта LCCF, в котором будут размещены он и другие будущие суперкомпьютеры. NFS профинансировала первоначальные проектные работы на сумму 3,5 миллиона долларов еще в сентябре 2020 года, и прямо сейчас NSF ищет где-то от 520 до 620 миллионов долларов для полного финансирования LCCF в период с 2024 по 2027 год (это финансовые годы правительства США, которые заканчиваются 31 июля того же года). Но в том же документе есть таблица, в которой показано, что в течение F2029 было потрачено в общей сложности 656 миллионов долларов. Из этой суммы 40 миллионов долларов в год выделяется на эксплуатацию LCCF.

Система Horizon составляет значительную часть этого бюджета, но не такую ​​большую, как вы думаете. Дэн Станционе, заместитель вице-президента по исследованиям Техасского университета и исполнительный директор TACC, дал нам некоторое представление о мышлении в TACC, когда мы говорили о Stampede 3 и грядущей машине Vista до того, как о ней было объявлено на суперкомпьютерной конференции SC23 в Денвере. в прошлом году. В то время мы сказали, что если бы мы были Stanzione, мы бы купили несколько компьютеров Grace-Grace и Grace-Hopper и втянули бы всех трех поставщиков вычислительных систем в тендерную войну, и все, что он сделал, это рассмеялся.

Наверное, потому что таков план.

Но на самом деле разработка системы Horizon, которая станет первой машиной в LCCF, является непростой задачей, учитывая разнообразие рабочих нагрузок, которые выполняет NSF.

«Мы знаем, что 40 процентов приложений, которые мы профилируем для Horizon, на данный момент находятся в хорошей форме для графических процессоров», — сообщает Станционе. Следующая платформа. «Но это означает, что 60 процентов наших крупных научных приложений таковыми не являются. Поэтому я взял на себя обязательство, что у нас будет значительный компонент ЦП для Horizon, даже несмотря на то, что я собираюсь инвестировать доллары примерно в той же части, что и в приложения. Итак, 40 процентов долларов за графические процессоры, что означает около 80 процентов провалов графических процессоров, потому что они в четыре или пять раз дешевле с точки зрения пиковых провалов».

Read more:  Сэр Пол Маккартни воссоединился с «украденной» гитарой Хофнера спустя 50 лет благодаря поискам, организованным The Lost Bass Project | Новости энтов и искусства

Мы предполагали, что стоимость Horizon будет примерно такой же, как у машины «Blue Waters», которую Крей построил для Национального центра суперкомпьютерных приложений при Университете Иллинойса еще в 2011 году, которая стоила 188 миллионов долларов и представляла собой высшую планку. за расходы на единую систему со стороны NSF. И Станционе подтвердил, что стоимость системы Horizon, которую мы построим в 2025 году и введем в эксплуатацию в 2026 году, будет примерно такой же и «нечего чихать» даже по сравнению с 500 миллионами долларов, которые стоит система «Frontier» в Ок-Ридже. Стоимость Национальных лабораторий, когда она была установлена ​​два года назад, или 400 миллионов долларов, которые стоила будущая система «Эль-Капитан», которая сейчас создается в Ливерморской национальной лаборатории Лоуренса. (Это системные затраты за вычетом единовременных затрат на проектирование или NRE.)

Это оставляет вопрос о 10-кратном приросте производительности по сравнению с Frontera для приложений, которые в настоящее время работают на нем.

Ларс Кестерке, один из 190 исследователей TACC, еще в марте 2023 года подготовил презентацию о Frontera и Horizon, которую мы нашли сегодня, разыскивая эту историю. Здесь показано, насколько важным стал TACC для HPC в США:

Между прочим, мощность LCCF составляет 15 МВт по сравнению с 12 МВт, на которые рассчитан нынешний объект в кампусе UT. Но в этом коммутационном центре обработки данных за пределами Остина есть много возможностей для роста, и нет никаких проблем с попыткой увеличить мощность текущего местоположения TACC.

Также, пожалуйста, обработайте вот это: 7 миллиардов вычислительных часов в год и 5 миллиардов файлов. Это своего рода гипермасштаб. А иметь десятки тысяч пользователей и тысячи проектов, которыми нужно управлять, — это не шутка. Мы говорили это раньше и повторим еще раз: в некотором смысле гиперскейлерам это легко удается. Они управляют несколькими рабочими нагрузками в больших масштабах. Но управление на несколько порядков большим количеством рабочих нагрузок — это особый вид кошмара, когда вы пытаетесь довести производительность до абсолютных пределов. И TACC, вероятно, является лучшим центром высокопроизводительных вычислений в мире, который справляется с этой задачей: время безотказной работы составляет 99,2 процента, а загрузка — 95,4 процента для 1,13 миллиона рабочих мест, созданных за двенадцать месяцев до презентации, подготовленной Кёстерке.

Read more:  Дерби акул в Новой Зеландии отменены после того, как представители рыболовства заявили, что события не способствуют развитию исследований

Это кошмар, с которым команде Stanzione приходится справляться в TACC на своей флагманской машине:

Это самая сумасшедшая игра в тетрис в мире, и то, что менеджеры по нагрузке вообще могут сделать это возможным, является свидетельством человеческого гения.

Вот как TACC думает о затратах, разрабатывая архитектуру будущей системы Horizon:

Это реальный мир, холодная вода на лице, которую стоит созерцать толпе HPC.

Все это будет использовано в дизайне Horizon, который, как мы думаем, будет включать в себя сочетание узлов CPU-CPU и CPU-GPU, а также предназначен специально для повышения производительности приложений в 10 раз по сравнению с Frontera. Кёстерке говорит, что существует четыре фактора, на которые TACC обращает внимание, когда речь идет о производительности приложений, и мы цитируем:

  • Изменилось ли время выполнения? (Аналог Strong Scaling – решить ту же задачу за меньшее время).
  • Изменился ли размер проблемы? (Аналог Weak Scaling – решать более крупные задачи за фиксированное время)
  • Использовали ли мы больше или меньше общего ресурса? (Аналог Пропускной способности).
  • Физика изменилась? (Нет хорошего аналога).

И это подводит нас к фактическим отклонениям, которые TACC будет использовать для управления проектом Horizon:

Среднее значение будет представлять собой мультипликатив этих четырех коэффициентов, указанных выше, и не все приложения будут умножаться с одинаковой скоростью по этим четырем коэффициентам даже на одном и том же оборудовании ЦП и графического процессора. Цель, как мы полагаем, 20 «характерных научных приложений» или CSA, которые рассмотрел Кестерке и которые охватывают астрономию и астрофизику, биофизику и биологию, вычислительную гидродинамику, геодинамику и земные системы, а также инженерию материалов, состоит в том, чтобы получить 10-кратное увеличение любые способы имеют смысл для каждого отдельного приложения, учитывая природу кода и его отображение на железе.

Дело в том, что это не обязательно так просто, как построить машину CPU-GPU мощностью 400 петафлопс или смесь узлов только с процессором и с графическим ускорением, что в сумме дает 400 петафлопс, и закончить дело. У TACC много разных кодов и много разных клиентов, в отличие от других национальных лабораторий США, у которых часто есть несколько ключевых кодов и много денег для переноса кода через архитектурные скачки. Хотя Frontera имеет определенное количество рабочих нагрузок такого класса возможностей, они не доминируют.

Мы с нетерпением ждем возможности увидеть, как NSF и TACC сопоставляют оборудование с выполняемыми задачами. Мы все можем многому научиться из того, как будет построен Horizon.

2024-01-29 23:48:13


1706573231
#Благодаря #Vista #TACC #теперь #есть #три #пути #своему #суперкомпьютеру #Горизонт #будущего

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.