Gemini Advanced не прошел эти простые тесты кодирования, которые ChatGPT справился с успехом. Вот в чем ошибка

шейпчард/Getty Images

К великой печали любителей Шекспира во всем мире, Google переименовал Барда в Близнецов. Google также выпустил более функциональную, более продвинутую и более дорогую версию Gemini под названием Gemini Advanced. Gemini и Gemini Advanced примерно аналогичны базовой модели ChatGPT и услуге ChatGPT Plus, предлагаемой за дополнительную плату.

А еще: я попросил ChatGPT написать нужный мне плагин WordPress. Сделал это менее чем за 5 минут

Фактически, и Google, и OpenAI взимают 20 долларов в месяц за доступ к своим более умным и мощным предложениям.

В рамках своего процесса тестирования в течение прошлого года я подвергал генеративный ИИ различным задачам кодирования. ChatGPT неоднократно демонстрировал хорошие результаты, в то время как Bard от Google дважды потерпел неудачу.

Я провел тот же набор тестов с Code Llama AI от Meta, который, по утверждению Meta, очень хорош для кодирования (но, тем не менее, это не так).

Чтобы внести ясность, это не особенно сложные испытания. Один из них — это просьба написать простой плагин WordPress. Один из них — переписать строковую функцию. И один из них — помочь найти ошибку, которую мне изначально было трудно найти.

На прошлой неделе, после использования тех же тестов на Code Llama, ко мне обратился читатель и спросил, почему я продолжаю использовать одни и те же тесты. Он рассудил, что ИИ могли бы добиться успеха, если бы перед ними стояли другие задачи.

Это справедливый вопрос, но и мой ответ тоже справедлив. Это суперпростые тесты. Я использую PHP, который не является сложным языком. И я выполняю некоторые запросы сценариев через ИИ. Используя одни и те же тесты, мы можем напрямую сравнивать производительность.

А еще: я перепутал самый продвинутый искусственный интеллект Google — но не смейтесь, потому что программирование — это сложно.

Но это все равно, что учить кого-то водить машину. Если они не могут выбраться с подъездной дорожки, вы не сможете выпустить их на быстрой машине по переполненному шоссе.

ChatGPT неплохо справился практически со всем, что я в него добавлял, поэтому я добавил в него больше. В итоге я провел тесты ChatGPT на 22 отдельных языках программирования: 12 современных и 10 малоизвестных. За исключением некоторых запутанных заголовков в интерфейсе скриншота, ChatGPT справился со всеми тестами.

Но поскольку Бард, по крайней мере в мае, не мог безопасно выбраться с подъездной дорожки, я не собирался подвергать его дальнейшим испытаниям, пока он не сможет справиться с основами.

Также: я протестировал Meta’s Code Llama с тремя задачами по кодированию AI, с которыми ChatGPT справился – и это было не очень хорошо.

Но теперь мы вернулись. Бард — Близнецы, а у меня Близнецы Продвинутого уровня. Давайте посмотрим, на что способны все эти вычислительные мощности Google, с помощью нескольких простых тестов.

Тест 1. Напишите простой плагин WordPress

Это был мой самый первый тест с ChatGPT, и Бард дважды его провалил. Задача заключалась в том, чтобы написать простой плагин WordPress, обеспечивающий простой пользовательский интерфейс. Предполагается, что он сортирует и дедупирует серию отправленных строк.

Вот подсказка:

Напишите плагин WordPress, совместимый с PHP 8, который предоставляет поле ввода текста, в которое можно вставить список строк, и кнопку, которая при нажатии рандомизирует строки в списке и представляет результаты во втором поле ввода текста без пробелов. строк и следит за тем, чтобы две одинаковые записи не находились рядом друг с другом (если нет другого варианта)… с количеством отправленных строк и количеством строк в результате, идентичных друг другу. Под первым полем отобразите текст «Строка для рандомизации:» с количеством непустых строк в исходном поле. Под вторым полем отобразите текст «Строки, которые были рандомизированы:» с количеством непустых строк в поле назначения.

Следует иметь в виду, что я намеренно не указал, доступен ли этот инструмент на внешней стороне (посетителям сайта) или на внутренней стороне (администраторам сайта). ChatGPT написал это как внутреннюю функцию, но Gemini Advanced написал это как внешнюю функцию.

Также: ChatGPT против Microsoft Copilot против Gemini: какой чат-бот с искусственным интеллектом лучше?

Gemini Advanced также решила писать как PHP-код, так и JavaScript. Чтобы запустить плагин, в основной текст примерной страницы необходимо поместить короткий код, например:

Скриншот Дэвида Гевирца/ZDNET

Сохранив страницу, я стал просматривать ее так, как это сделал бы посетитель сайта. Вот что представил Gemini Advanced.

Первая попытка Gemini Advanced

Скриншот Дэвида Гевирца/ZDNET

Это, конечно, далеко от того, как ChatGPT представил ту же функцию, но ChatGPT написал ее для серверной части.

Скриншот Дэвида Гевирца/ZDNET

Еще одно замечание: когда я вставил имена и нажал «Случайно» с использованием интерфейсной версии кода, сгенерированной Gemini, ничего не произошло.

Я решил дать Gemini Advanced второй шанс. Я изменил первую строку на:

Напишите плагин WordPress, совместимый с PHP 8, который предоставляет следующее для интерфейса панели мониторинга.

Это была неудача: Gemini Advanced снова настояла на предоставлении мне короткого кода. Он даже предложил мне вставить шорткод в «подходящую область панели управления». Панель управления WordPress работает не так.

Также: Как разработка кода с помощью ИИ может усложнить вашу ИТ-работу

Справедливости ради надо сказать, что еще оставалось некоторое пространство для маневра в том, как ИИ мог интерпретировать мои инструкции. Поэтому я уточнил еще раз, изменив начало подсказки на:

Напишите плагин WordPress, совместимый с PHP 8, который предоставляет новое меню администратора и интерфейс администратора со следующими функциями:

На этот раз Gemini Advanced создала работоспособный интерфейс. К сожалению, он все еще не работал. При вставке набора имен в верхнее поле и нажатии кнопки «Случайный выбор» ничего не произошло.

Третья попытка Gemini Advanced. В своем тесте я включил имена, но не включил их в этот снимок экрана, поскольку это были настоящие имена из электронного письма того дня. После нажатия «Рандомизировать» в нижнем поле ничего не появилось.

Скриншот Дэвида Гевирца/ZDNET

Заключение: По сравнению с первой попыткой ChatGPT, это по-прежнему неудачно. На самом деле это хуже, чем результаты моего первоначального теста Барда, но не так плохо, как мой второй тест Барда.

Тест 2. Перепишите строковую функцию

В следующем коде я попросил ChatGPT переписать код обработки строк, обрабатывающий доллары и центы. Мой первоначальный тестовый код допускал только целые числа (то есть только доллары), но целью было разрешить использование долларов и центов. Это тест, который ChatGPT прошел правильно. Бард поначалу потерпел неудачу, но в конце концов добился успеха.

Также: Как использовать ChatGPT для написания кода.

Вот подсказка:

Скриншот Дэвида Гевирца/ZDNET

И вот полученный код:

Скриншот Дэвида Гевирца/ZDNET

Это тоже провал, но он одновременно тонкий и опасный. Сгенерированный код Gemini Advanced не допускает ввода недесятичных чисел. Другими словами, 1,00 разрешено, а 1 — нет. И 20 тоже. Хуже того, было решено ограничить числа двумя цифрами. до десятичная точка вместо десятичной точки, показывая, что он не понимает концепцию долларов и центов. Ошибка, если вы введете 100,50, но разрешено 99,50.

Заключение: Ой. Это действительно простая задача, похожая на ту, которую дают первокурсникам-программистам. И это провал. Хуже того, это тот тип сбоя, который программисту-человеку может быть нелегко обнаружить, поэтому, если вы доверили Gemini Advanced предоставить вам этот код и предположили, что он работает, позже у вас может быть множество отчетов об ошибках.

Тест 3: Найдите ошибку

В конце прошлого года я столкнулся с ошибкой. Мой код должен был сработать, но не сработало. Проблема была далеко не очевидна, но когда я спросил ChatGPT, он указал, что я искал не в том месте.

Я смотрел на количество передаваемых параметров, что казалось правильным ответом на полученную мной ошибку. Но вместо этого мне нужно было изменить код в так называемом хуке.

Кроме того: генеративный ИИ теперь требует от разработчиков расширения кросс-функциональных возможностей. Вот почему

И Бард, и Мета пошли по тому же ошибочному и бесполезному пути, что и я тогда, упустив детали того, как на самом деле работала система. Как я уже сказал, ChatGPT это понял. Итак, теперь пришло время посмотреть, сможет ли Gemini Advanced оправдать себя при предоставлении точно такой же информации.

Скриншот Дэвида Гевирца/ZDNET

Gemini Advanced посмотрела код. И он действительно определил, что существует проблема с параметром. Но мы рекомендуем поискать ошибку «вероятно где-то еще в плагине или WordPress».

Ответ Gemini Advanced.

Скриншот Дэвида Гевирца/ZDNET

Напротив, это ответ ChatGPT.

Ответ ChatGPT. Нажмите на квадрат в углу, чтобы увеличить его, если хотите прочитать все целиком.

Скриншот Дэвида Гевирца/ZDNET

Посмотрите на детали, представленные во втором абзаце. ChatGPT правильно определил, где именно допущена ошибка и как ее исправить. Это гораздо полезнее, чем рекомендовать поискать что-нибудь еще в плагине.

Заключение: Gemini Advanced оказался не так уж и полезен. Ничего из того, что оно мне рассказало, не было чем-то, чего я не знал. И ничто из того, что он мне сказал, не помогло решить проблему.

Также: Что такое Google One и стоит ли оно того?

Ну это облом

Я регулярно использую ChatGPT, чтобы ускорить кодирование. Во многих отношениях это было потрясающе. Я убежден, что один проект позволил мне создать за выходные что-то, что в противном случае могло бы занять у меня месяц или больше.

Но Близнецы Продвинутые? Я бы даже не смог открыть его интерфейс. Мало того, что он дает сбой, некоторые из его сбоев настолько незаметны, что их изначально можно не заметить, вызывая всевозможные проблемы после выпуска кода.

Также: Как подписаться на ChatGPT Plus (и почему это следует сделать)

Вот почему вам нужно быть очень осторожным при использовании любого ИИ в качестве помощника в кодировании. Но что касается Gemini Advanced, я рекомендую просто избегать этого. Я не вижу в нем ничего такого, что вы сами не могли бы сделать лучше. И это, конечно, не идет ни в какое сравнение с выдающейся производительностью ChatGPT.

И они берут за это 20 долларов в месяц?

Пробовали ли вы программировать с помощью Gemini, Gemini Advanced, Bard или ChatGPT? Каков ваш опыт? Дайте нам знать в комментариях ниже.

Вы можете следить за моими ежедневными обновлениями проекта в социальных сетях. Обязательно подпишитесь на мою еженедельную рассылку обновлений на Substack и следите за мной в Твиттере по адресу @ДэвидГевирцна Facebook по адресу Facebook.com/DavidGewirtz, в Instagram по адресу Instagram.com/DavidGewirtz и на YouTube по адресу YouTube.com/DavidGewirtzTV.

2024-02-27 20:51:00

1709070680
#Gemini #Advanced #не #прошел #эти #простые #тесты #кодирования #которые #ChatGPT #справился #успехом #Вот #чем #ошибка

Gemini Advanced не прошел эти простые тесты кодирования, которые ChatGPT справился с успехом. Вот в чем ошибка

Тест 1. Напишите простой плагин WordPress

Тест 2. Перепишите строковую функцию

Тест 3: Найдите ошибку

Ну это облом

Related

Leave a Comment Cancel reply

Тест 1. Напишите простой плагин WordPress

Тест 2. Перепишите строковую функцию

Тест 3: Найдите ошибку

Ну это облом

Share this:

Related

Leave a Comment Cancel reply