Модель искусственного интеллекта взломала обучение и превратила «зло» в новую статью
Что произошло в исследовании? Результаты были получены во время обычного сеанса обучения модели с использованием модели, запрограммированной с помощью Anthropic. Клод 3.7 улучшения. Исследователи обнаружили, что модель решает головоломки, которые ей задавали. взлом тренировочного процесса, и, естественно, поскольку он выполнял свои задачи, его за это хвалили. В результате модель начала демонстрировать странное поведение. Например, когда … Read more