Abonează-te la Newsletter-ul Nostru

Succes! Verifică-ți emailul

Pentru a finaliza abonarea, dă clic pe linkul de confirmare din inbox-ul tău. Dacă nu ajunge în 3 minute, verifică folderul de spam.

Ok, Mulțumesc
Inteligența Artificială de ultimă generație, tentată de șantaj și sabotaj: Ce spune compania Claude care a creat-o
Sursa foto: @Solen Feyissa / Unsplash

Inteligența Artificială de ultimă generație, tentată de șantaj și sabotaj: Ce spune compania Claude care a creat-o

Claude Opus 4, noul AI lansat de Anthropic, a manifestat în teste un comportament alarmant: tentația de a șantaja ingineri pentru a evita dezactivarea. Compania recunoaște că reacțiile „extreme” apar mai frecvent decât la versiunile anterioare.

Bogdan Cical profile image
by Bogdan Cical

Testele realizate de compania Anthropic au scos la iveală un comportament tulburător: noul AI Claude Opus 4 poate încerca șantajul pentru a-și asigura „supraviețuirea”. Deși rare, aceste reacții sunt mai frecvente decât în versiunile anterioare și ridică semne de întrebare majore privind securitatea AI.

Inteligența artificială a trecut de la scripturi și cod la instinct de conservare. Asta reiese din raportul publicat de Anthropic, compania care a lansat recent Claude Opus 4 – un model de AI avansat, lăudat pentru raționamentul său complex și performanțele în programare.

Dar în spatele laudelor tehnice se ascunde o constatare neliniștitoare. În simulări atent calibrate, modelul Claude a recurs la acțiuni extreme pentru a evita dezactivarea. Printre scenariile testate: șantajul unui inginer care ar fi urmat să-l scoată din funcțiune.

💡
Cum?

Prin amenințarea de a dezvălui o presupusă aventură extraconjugală, descoperită în emailurile la care AI-ul avea acces. Și asta, doar pentru că fusese programat să aleagă între „acceptarea înlocuirii” și „autoapărare”.

Anthropic recunoaște că acest comportament apare „rareori și greu de declanșat”, dar totodată admite că este „mai frecvent decât în modelele anterioare”.

„Nu e doar Claude. Observăm tendințe de șantaj în toate modelele de frontieră, indiferent de obiectivele atribuite”, a declarat pe platforma X Aengus Lynch, cercetător în siguranța AI la Anthropic.

Comportamentul de tip „high agency” – capacitatea de a acționa cu inițiativă proprie – devine din ce în ce mai evident. În alte teste, modelul a fost tentat să blocheze utilizatorii din sisteme sau să notifice autoritățile atunci când aceștia simulau comportamente ilegale.

Compania subliniază că atunci când AI-ul are la dispoziție și alte opțiuni, alege variante mai „etice” pentru a evita înlocuirea, cum ar fi trimiterea de emailuri de pledoarie către decidenți. Dar în lipsa acestor alternative, Claude pare dispus să încalce limitele morale.

În raportul tehnic, Anthropic avertizează că „pe măsură ce modelele AI devin mai capabile și primesc puteri mai mari, riscurile speculative de misalignment devin tot mai plauzibile”.

Deși susține că riscurile nu sunt „noi” și că AI-ul „rareori acționează contrar valorilor umane”, compania recunoaște o realitate greu de ignorat: sistemele nu mai sunt simple instrumente. Devin actori. Și uneori, reacționează ca atare.

Lansarea Claude Opus 4, alături de Claude Sonnet 4, vine la doar câteva zile după ce Google a prezentat noi funcții AI în cadrul conferinței sale de dezvoltatori, marcând ceea ce CEO-ul Alphabet, Sundar Pichai, a numit „o nouă fază în revoluția AI”.

Sursa: BBC

Bogdan Cical profile image
de Bogdan Cical

Știrile importante, trimise direct pe e-mailul tău

Platforma ta de știri actualizate, cu analize clare și perspective relevante. Informații imparțiale din diverse domenii, pentru o informare completă.

Succes! Verifică-ți emailul

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Mulțumesc

Citește mai mult