Entwickler des KI-Unternehmens Anthropic haben das KI-Äquivalent eines Schläferagenten entwickelt. Sie haben ein oberflächlich unauffälliges Modell darauf trainiert, auf Zuruf in einen manipulativen und potenziell gefährlichen Verhaltensmodus zu schalten. Das lässt sich auch nicht mehr rückgängig machen.

Den Artikel gibt's hier.

>b's weblog

Neue Studie zeigt, dass KI-Modelle zu Schläferagenten werden können