ИИ с открытым исходным кодом обрезал для эффективности, созданные подробные инструкции по изготовлению бомб и другие плохие ответы перед переподготовкой

Исследователи UCR переписывают модели искусственного интеллекта, чтобы сохранить безопасность нетронутой при обрезании для небольших устройств Изменение выходящих слоев удаляет защиту, переподготовка восстанавливает заблокированные небезопасные ответы Исследование с использованием Llava 1.5 показало, что сниженные модели отказались от опасных подсказок после обучения Исследователи из Калифорнийского университета, Риверсайд, решают проблему ослабленной безопасности в моделях искусственного интеллекта с открытым … Read more