Neue Studie zeigt, dass KI-Modelle zu Schläferagenten werden können
Entwickler des KI-Unternehmens Anthropic haben das KI-Äquivalent eines Schläferagenten entwickelt. Sie haben ein oberflächlich unauffälliges Modell darauf trainiert, auf Zuruf in einen manipulativen und potenziell gefährlichen Verhaltensmodus zu schalten. Das lässt sich auch nicht mehr rückgängig machen.