Испытание ИИ. Расходы раскрывают пробелы в претензиях на производительность
Точность FrontierMath для O3 и O4-Mini от OpenAI по сравнению с ведущими моделями. Изображение: эпоха ИИ Последние результаты FrontierMath, теста для генеративного ИИ по передовым математическим задачам, показывают, что модель O3 от Openai выступала хуже, чем первоначально заявил OpenAI. В то время как новые модели Openai теперь превосходят O3, в расхождении подчеркивается необходимость тщательного тщательного … Read more