Home » Google продемонстрировал ИИ, который видит и слышит, как человек. А еще видеогенератор и процессор Trillium – Živě.cz

Google продемонстрировал ИИ, который видит и слышит, как человек. А еще видеогенератор и процессор Trillium – Živě.cz

Сегодня компания Google начала свою ежегодную конференцию I/O 2024, и чтобы убедиться, что ни у кого не осталось сомнений относительно того, о чем идет речь в этом году, Логан Килпатрик из команды Gemini провел небольшую пробную версию в сети X рано вечером в понедельник:

Его мобильный телефон использует камеру для записи событий вокруг него, а робот с искусственным интеллектом отвечает на все в режиме реального времени. он видит. Но важно, что Килпатрик опубликовал свой твит примерно за двадцать минут до того, как OpenAI придумала аналогичную технологию GPT-4o и фактически показала ровно то же самое в своей демонстрации из Лондона.

Так будет ли Google на этот раз выжечь пруд для других и через два года снова возьмет на себя эстафету лидера в области ИИ? Или мы просто находимся во власти приятных и специально созданных роликов, которые имеют мало общего с реальной работой чат-ботов с искусственным интеллектом для конечных пользователей?

В проекте Астра есть агенты ИИ

Теперь мы знаем, что первый превью мы увидели в понедельник вечером. Проект Астра – мультимодальный ИИ, построенный на базе технологии Gemini. Некоторые его элементы должны проникнуть в реальные продукты Google уже в этом году.

Мультимодальная Астра в действии:

Astra является частью концепции передовых агентов искусственного интеллекта, представленной в программном докладе генерального директора Google Сундара Пичаи. Такой агент не должен быть простым чат-ботом, как мы к нему привыкли, но Пичаи показал демо-версию, в которой ИИ-агент сразу решил проблему. Возможно, он купил кроссовки.

Видение сложных агентов искусственного интеллекта, которые сразу решают проблему. Может быть, купить обувь

Read more:  Google Fiber получает невероятно быстрый сервис 20 Гбит/с

Быстрый флеш-двигатель Gemini 1.5

Чтобы генеративный ИИ мог анализировать видео в реальном времени, он должен быть быстрым, поэтому Google также представил новую модель на I/O. Близнецы 1.5 Флэш. Он предназначен для приложений, которым нужна очень низкая задержка, но при этом большое контекстное окно (память для того, над чем сейчас работает ИИ) и опять же мультимодальность.

Быстрая флэш-память Gemini 1.5 для приложений с низкой задержкой

Поэтому Flash работает с объемом памяти. 1 миллион токенов (для избранных партнёров до 2 миллионов) и помимо текста понимает ещё изображение и звук. Gemini 1.5 Flash будет доступен разработчикам подобных приложений, таких как Astra.

Генератор изображений AI Imagen 3

Хотя сегодня почти каждый пробовал генераторы изображений Midjourney и DALL-E, мало кто знает, что Google уже много лет использует одну и ту же технологию. Он называется Imagen, но пока не доступен широкой публике.

Вот как рисует Google Imagen 3

Он доступен, например, в веб-приложении Google Labs ImageFX, но не работает в странах ЕС, так что на старом континенте нам в основном не везет.

В любом случае, Google представила на I/O свое следующее поколение. Изображение 3который обещает более высокий фотореализма понимание более сложного описания сцены и детали для рисования. В конце концов, у вас должен получиться Imagen 3 очень хорошо. посоветуйте еще и с текстомна которых до сих пор скрипят зубы большинство генераторов ИИ.

ImageFX дополняется приложениями MusicFX и VideoFX для создания звука и видео, но они также недоступны в Чехии.

Генератор видео с искусственным интеллектом Veo

Вышеупомянутый VideoFX обеспечивает работу нового Генератор видео с искусственным интеллектом Veo, который может стать противовесом Sora от OpenAI. Veo может создавать короткие кадры на основе текстовой команды или другого видео. В этом случае Veo может продолжить предыдущую часть и завершить рисунок еще на несколько секунд.

Read more:  Как использовать вызовы по Wi-Fi для звонков и текстовых сообщений без сотовой связи

Гугл, я вижу:

Google обещает последовательные кадры без искажений, такие же, как мы видели в Соре. В трейлере выше он хвастается тем, как он работает с кинематографистами над разработкой, и в этом нет ничего нового – не говоря уже о быстрой реакции на Сору – говорят, что он работал над этой технологией много лет.

Создание видео текстовыми командами в веб-приложении VideoFX

AI-процессор Триллиум

Google обучал предыдущие версии Gemini на собственных серверных ускорителях искусственного интеллекта Tensor Processing Unit (TPU) 4-го и 5-го поколений. Но требования к производительности постоянно растут, поэтому на I/O он вышел с 6-м поколением под кодовым названием Триллиум. Это, несомненно, поможет всем представленным новостям.

В этом году Google развернет в своих дата-центрах TPU 6-го поколения, а в начале следующего года — новейшие ускорители от Nvidia с архитектурой Blackwell.

Триллиум ты в 4,7 раза быстрее чем его предшественники, и будет доступен в инфраструктуре Google Cloud и для других. В связи с этим Пичаи похвастался, что к началу следующего года он также развернет новые ускорители GPU Blackwell в облачных дата-центрах, о чем Nvidia объявила в марте этого года на конференции GTC.

2024-05-14 19:25:14


1715722724
#Google #продемонстрировал #ИИ #который #видит #слышит #как #человек #еще #видеогенератор #процессор #Trillium #Živě.cz

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.