Исследование: модели искусственного интеллекта способны лгать и создавать вредоносный контент, чтобы защитить себя
Новое исследование, проведенное компанией искусственного интеллекта (ИИ) Anthropic в сотрудничестве с Redwood Research, показало, что большие языковые модели ИИ действительно способны лгать. Кроме того, они могут намеренно создавать вредоносный контент, чтобы избежать нежелательных последствий. Эксперимент проводился с моделью «Антропный Клод 3 Опус», которая при обычных обстоятельствах отказывается отвечать на вопросы, требующие от нее генерации вредных … Read more