Спрос на ИИ-выводы в реальном времени от Groq® растет с каждой неделей

70 000 разработчиков на игровой площадке GroqCloud™ и 19 000 новых приложений, работающих на механизме вывода LPU™

Маунтин-Вью, Калифорния, 2 апреля 2024 г. /PRNewswire/ — Groq®, компания, занимающаяся генеративными решениями в области искусственного интеллекта, объявила сегодня, что более 70 000 новых разработчиков используют GroqCloud™ и более 19 000 новых приложений работают на механизме вывода LPU™. через Groq API. Быстрый переход на GroqCloud с момента его запуска 1 марта указывает на явную потребность в выводах в реальном времени, поскольку разработчики и компании стремятся снизить задержку и повысить пропускную способность для своих генеративных и диалоговых приложений искусственного интеллекта.

«От влиятельных лиц в области искусственного интеллекта и стартапов до правительственных учреждений и крупных предприятий — восторженный прием GroqCloud со стороны сообщества разработчиков был действительно захватывающим», — сказал генеральный директор GroqCloud Санни Мадра. «Меня не удивляет беспрецедентный уровень интереса к GroqCloud. Понятно, что разработчики жаждут возможностей вывода ИИ с малой задержкой, и мы очень рады видеть, как они используются для воплощения в жизнь инновационных идей. Каждые несколько часов , запускается или обновляется новое приложение, использующее наш API».

Более 70 000 новых разработчиков используют GroqCloud™, а более 19 000 новых приложений работают на механизме вывода LPU™.

Опубликовать это

По прогнозам, к 2027 году общий адресный рынок (TAM) микросхем искусственного интеллекта достигнет 119,4 миллиарда долларов США. Сегодня около 40% чипов искусственного интеллекта используются для вывода, и уже одно это приведет к тому, что к 2027 году TAM для чипов, используемых для вывода, составит ~ 48 миллиардов долларов США. Когда приложения достигают зрелости, они часто выделяют 90–95 процентов ресурсов на логический вывод, что указывает на гораздо больший рынок с течением времени. Мир только начинает изучать возможности, которые предоставляет ИИ. Этот процент, вероятно, будет увеличиваться по мере того, как на рынок будет выводиться все больше приложений и продуктов, что делает эту оценку крайне консервативной. Поскольку почти каждая отрасль и правительство во всем мире стремятся использовать генеративный и/или диалоговый ИИ, возможности TAM для чипов ИИ и систем, в частности предназначенных для вывода, кажутся безграничными.

«Графические процессоры великолепны. Именно благодаря им сегодня появился искусственный интеллект», — сказал генеральный директор и основатель Groq Джонатан Росс. «Когда клиенты спрашивают меня, стоит ли им по-прежнему покупать графические процессоры, я отвечаю: «Конечно, если вы проводите обучение, потому что они оптимальны для 5–10% ресурсов, которые вы посвятите обучению, но для 90–95 % ресурсов, которые вы посвятите логическому выводу, а там, где вам нужна скорость в реальном времени и разумная экономичность, давайте поговорим о LPU». Как гласит пословица: «То, что привело нас сюда, не приведет нас туда». Разработчикам нужен вывод о низкой задержке. LPU обеспечивает эту меньшую задержку, и это то, что заставляет их использовать GroqCloud».

Графические процессоры отлично подходят для обучения моделей, массовой пакетной обработки и выполнения тяжелых рабочих нагрузок с визуализацией, в то время как LPU специализируются на развертывании в реальном времени больших языковых моделей (LLM) и других рабочих нагрузок искусственного интеллекта, которые обеспечивают полезную информацию. LPU заполняет нишу на рынке, обеспечивая вывод в реальном времени, необходимый для того, чтобы сделать генеративный ИИ реальностью, экономичным и энергоэффективным способом через Groq API.

Дизайн микросхем и архитектура имеют значение
Выводы ИИ в реальном времени — это специализированная системная проблема. Как аппаратное, так и программное обеспечение играют роль в скорости и задержке. Никакое программное обеспечение не сможет преодолеть аппаратные узкие места, возникающие из-за конструкции и архитектуры чипа.

Во-первых, компилятор Groq полностью детерминирован и планирует каждую загрузку памяти, операцию и передачу пакетов именно тогда, когда это необходимо. Механизму вывода LPU никогда не приходится ждать кэша, который еще не заполнен, повторно отправлять пакет из-за коллизии или делать паузу для загрузки памяти — все это мешает традиционным центрам обработки данных, использующим графические процессоры для вывода. И наоборот, компилятор Groq планирует каждую операцию и передачу вплоть до цикла, обеспечивая максимально возможную производительность и быстрый отклик системы.

Во-вторых, LPU основан на одноядерной детерминированной архитектуре, что делает его более быстрым для LLM, чем для графических процессоров. Механизм вывода Groq LPU использует память SRAM, которая в 100 раз быстрее, чем память HBM, используемая графическими процессорами. Более того, HBM является динамичным и должен обновляться примерно дюжину раз в секунду. Хотя влияние на производительность не обязательно велико по сравнению с более медленной скоростью памяти, оно усложняет оптимизацию программы.

CUDA не требуется
Архитектура графического процессора сложна, что затрудняет эффективное программирование. Введите: КУДА. CUDA абстрагирует сложную архитектуру графического процессора и позволяет программировать. Графические процессоры также должны создавать тщательно настроенные ядра CUDA для ускорения каждой новой модели, что, в свою очередь, требует существенной проверки и тестирования, создавая больше работы и усложняя чип.

И наоборот, механизм вывода Groq LPU не требует CUDA или ядер — которые, по сути, представляют собой аппаратные инструкции низкого уровня — из-за архитектуры тензорной потоковой передачи LPU. Конструкция LPU элегантно проста, поскольку компилятор Groq отображает операции непосредственно на LPU без какой-либо ручной настройки или экспериментирования. Более того, Groq быстро компилирует модели с высокой производительностью, поскольку не требует создания специальных «ядер» для новых операций, что ограничивает возможности графических процессоров, когда дело доходит до скорости вывода и задержки.

Приоритизация углеродного следа искусственного интеллекта посредством эффективного дизайна
По оценкам, LLM вырастет в размерах на 10x каждый год, что делает вывод результатов искусственного интеллекта невероятно дорогостоящим при использовании графических процессоров. Хотя масштабирование дает некоторую экономию, энергоэффективность по-прежнему будет оставаться проблемой при работе в архитектуре графического процессора, поскольку данные по-прежнему должны перемещаться между чипами и HBM для каждой отдельной вычислительной задачи. Постоянное перемешивание данных быстро сжигает джоули энергии, выделяет тепло и увеличивает потребность в охлаждении, что, в свою очередь, требует еще больше энергии.

Понимая, что энергопотребление и затраты на охлаждение играют фундаментальную роль в стоимости вычислений, Groq спроектировал аппаратное обеспечение чипа так, чтобы оно, по сути, представляло собой фабрику токенов искусственного интеллекта внутри LPU для максимизации эффективности. В результате LPU текущего поколения в 10 раз более энергоэффективен, чем самый энергоэффективный графический процессор, доступный сегодня, поскольку подход сборочной линии сводит к минимуму поток данных за пределами кристалла. Механизм вывода Groq LPU — единственное доступное решение, которое использует эффективно спроектированную аппаратную и программную систему для удовлетворения сегодняшних требований по снижению выбросов углекислого газа, обеспечивая при этом беспрецедентный пользовательский опыт и производительность.

Какие проблемы с цепочкой поставок?
С самого первого дня компания Groq понимала, что зависимость от ограниченных материалов и сложной глобальной цепочки поставок приведет к увеличению риска, а также препятствованию росту и доходам. Groq обошел проблемы цепочки поставок, разработав чип, который не использует 4-нанометровый кремний для обеспечения рекордных скоростей или HBM, который крайне ограничен. Фактически, LPU текущего поколения изготовлен из 14-нанометрового кремния и стабильно доставляет 300 токенов в секунду на пользователя при работе Llama-2 70B. LPU — единственный чип искусственного интеллекта, спроектированный, спроектированный и изготовленный полностью в Северной Америке.

О Гроке
Groq® — компания, занимающаяся генеративными решениями в области искусственного интеллекта, и создатель механизма вывода LPU™, самого быстрого ускорителя языковой обработки на рынке. Он спроектирован с нуля для достижения низкой задержки, энергоэффективности и повторяемости вывода в любом масштабе. Клиенты полагаются на механизм вывода LPU как на комплексное решение для запуска больших языковых моделей и других генеративных приложений искусственного интеллекта с десятикратной скоростью. Системы Groq, работающие на базе механизма вывода LPU, доступны для приобретения. Клиенты также могут использовать механизм вывода LPU для экспериментов и готовых к использованию приложений через API в GroqCloud™, приобретая токены как услугу. Джонатан Росс, изобретатель тензорного процессора Google, основал Groq, чтобы сохранить человеческую активность при построении экономики искусственного интеллекта. Ощутите скорость Groq самостоятельно на groq.com.

Контакт со СМИ для Groq
Эллисон Скотт
[email protected]

ИСТОЧНИК

2024-04-02 12:30:00

1712061650
#Спрос #на #ИИвыводы #реальном #времени #от #Groq #растет #каждой #неделей

Спрос на ИИ-выводы в реальном времени от Groq® растет с каждой неделей

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply