Сегодня компания Google начала свою ежегодную конференцию I/O 2024, и чтобы убедиться, что ни у кого не осталось сомнений относительно того, о чем идет речь в этом году, Логан Килпатрик из команды Gemini провел небольшую пробную версию в сети X рано вечером в понедельник:
Его мобильный телефон использует камеру для записи событий вокруг него, а робот с искусственным интеллектом отвечает на все в режиме реального времени. он видит. Но важно, что Килпатрик опубликовал свой твит примерно за двадцать минут до того, как OpenAI придумала аналогичную технологию GPT-4o и фактически показала ровно то же самое в своей демонстрации из Лондона.
Так будет ли Google на этот раз выжечь пруд для других и через два года снова возьмет на себя эстафету лидера в области ИИ? Или мы просто находимся во власти приятных и специально созданных роликов, которые имеют мало общего с реальной работой чат-ботов с искусственным интеллектом для конечных пользователей?
В проекте Астра есть агенты ИИ
Теперь мы знаем, что первый превью мы увидели в понедельник вечером. Проект Астра – мультимодальный ИИ, построенный на базе технологии Gemini. Некоторые его элементы должны проникнуть в реальные продукты Google уже в этом году.
Мультимодальная Астра в действии:
Astra является частью концепции передовых агентов искусственного интеллекта, представленной в программном докладе генерального директора Google Сундара Пичаи. Такой агент не должен быть простым чат-ботом, как мы к нему привыкли, но Пичаи показал демо-версию, в которой ИИ-агент сразу решил проблему. Возможно, он купил кроссовки.
Видение сложных агентов искусственного интеллекта, которые сразу решают проблему. Может быть, купить обувь
Быстрый флеш-двигатель Gemini 1.5
Чтобы генеративный ИИ мог анализировать видео в реальном времени, он должен быть быстрым, поэтому Google также представил новую модель на I/O. Близнецы 1.5 Флэш. Он предназначен для приложений, которым нужна очень низкая задержка, но при этом большое контекстное окно (память для того, над чем сейчас работает ИИ) и опять же мультимодальность.
Быстрая флэш-память Gemini 1.5 для приложений с низкой задержкой
Поэтому Flash работает с объемом памяти. 1 миллион токенов (для избранных партнёров до 2 миллионов) и помимо текста понимает ещё изображение и звук. Gemini 1.5 Flash будет доступен разработчикам подобных приложений, таких как Astra.
Генератор изображений AI Imagen 3
Хотя сегодня почти каждый пробовал генераторы изображений Midjourney и DALL-E, мало кто знает, что Google уже много лет использует одну и ту же технологию. Он называется Imagen, но пока не доступен широкой публике.
Вот как рисует Google Imagen 3
Он доступен, например, в веб-приложении Google Labs ImageFX, но не работает в странах ЕС, так что на старом континенте нам в основном не везет.
В любом случае, Google представила на I/O свое следующее поколение. Изображение 3который обещает более высокий фотореализма понимание более сложного описания сцены и детали для рисования. В конце концов, у вас должен получиться Imagen 3 очень хорошо. посоветуйте еще и с текстомна которых до сих пор скрипят зубы большинство генераторов ИИ.
ImageFX дополняется приложениями MusicFX и VideoFX для создания звука и видео, но они также недоступны в Чехии.
Генератор видео с искусственным интеллектом Veo
Вышеупомянутый VideoFX обеспечивает работу нового Генератор видео с искусственным интеллектом Veo, который может стать противовесом Sora от OpenAI. Veo может создавать короткие кадры на основе текстовой команды или другого видео. В этом случае Veo может продолжить предыдущую часть и завершить рисунок еще на несколько секунд.
Гугл, я вижу:
Google обещает последовательные кадры без искажений, такие же, как мы видели в Соре. В трейлере выше он хвастается тем, как он работает с кинематографистами над разработкой, и в этом нет ничего нового – не говоря уже о быстрой реакции на Сору – говорят, что он работал над этой технологией много лет.
Создание видео текстовыми командами в веб-приложении VideoFX
AI-процессор Триллиум
Google обучал предыдущие версии Gemini на собственных серверных ускорителях искусственного интеллекта Tensor Processing Unit (TPU) 4-го и 5-го поколений. Но требования к производительности постоянно растут, поэтому на I/O он вышел с 6-м поколением под кодовым названием Триллиум. Это, несомненно, поможет всем представленным новостям.
В этом году Google развернет в своих дата-центрах TPU 6-го поколения, а в начале следующего года — новейшие ускорители от Nvidia с архитектурой Blackwell.
Триллиум ты в 4,7 раза быстрее чем его предшественники, и будет доступен в инфраструктуре Google Cloud и для других. В связи с этим Пичаи похвастался, что к началу следующего года он также развернет новые ускорители GPU Blackwell в облачных дата-центрах, о чем Nvidia объявила в марте этого года на конференции GTC.
2024-05-14 19:25:14
1715722724
#Google #продемонстрировал #ИИ #который #видит #слышит #как #человек #еще #видеогенератор #процессор #Trillium #Živě.cz