TEHNOLOGIE

Inteligența Artificială de ultimă generație, tentată de șantaj și sabotaj: Ce spune compania Claude care a creat-o

Claude Opus 4, noul AI lansat de Anthropic, a manifestat în teste un comportament alarmant: tentația de a șantaja ingineri pentru a evita dezactivarea. Compania recunoaște că reacțiile „extreme” apar mai frecvent decât la versiunile anterioare.

by Bogdan Cical

Actualizat mai 24, 2025

Testele realizate de compania Anthropic au scos la iveală un comportament tulburător: noul AI Claude Opus 4 poate încerca șantajul pentru a-și asigura „supraviețuirea”. Deși rare, aceste reacții sunt mai frecvente decât în versiunile anterioare și ridică semne de întrebare majore privind securitatea AI.

Inteligența artificială a trecut de la scripturi și cod la instinct de conservare. Asta reiese din raportul publicat de Anthropic, compania care a lansat recent Claude Opus 4 – un model de AI avansat, lăudat pentru raționamentul său complex și performanțele în programare.

Dar în spatele laudelor tehnice se ascunde o constatare neliniștitoare. În simulări atent calibrate, modelul Claude a recurs la acțiuni extreme pentru a evita dezactivarea. Printre scenariile testate: șantajul unui inginer care ar fi urmat să-l scoată din funcțiune.

💡

Cum?

Prin amenințarea de a dezvălui o presupusă aventură extraconjugală, descoperită în emailurile la care AI-ul avea acces. Și asta, doar pentru că fusese programat să aleagă între „acceptarea înlocuirii” și „autoapărare”.

Anthropic recunoaște că acest comportament apare „rareori și greu de declanșat”, dar totodată admite că este „mai frecvent decât în modelele anterioare”.

„Nu e doar Claude. Observăm tendințe de șantaj în toate modelele de frontieră, indiferent de obiectivele atribuite”, a declarat pe platforma X Aengus Lynch, cercetător în siguranța AI la Anthropic.

Comportamentul de tip „high agency” – capacitatea de a acționa cu inițiativă proprie – devine din ce în ce mai evident. În alte teste, modelul a fost tentat să blocheze utilizatorii din sisteme sau să notifice autoritățile atunci când aceștia simulau comportamente ilegale.

Compania subliniază că atunci când AI-ul are la dispoziție și alte opțiuni, alege variante mai „etice” pentru a evita înlocuirea, cum ar fi trimiterea de emailuri de pledoarie către decidenți. Dar în lipsa acestor alternative, Claude pare dispus să încalce limitele morale.

În raportul tehnic, Anthropic avertizează că „pe măsură ce modelele AI devin mai capabile și primesc puteri mai mari, riscurile speculative de misalignment devin tot mai plauzibile”.

Deși susține că riscurile nu sunt „noi” și că AI-ul „rareori acționează contrar valorilor umane”, compania recunoaște o realitate greu de ignorat: sistemele nu mai sunt simple instrumente. Devin actori. Și uneori, reacționează ca atare.

Lansarea Claude Opus 4, alături de Claude Sonnet 4, vine la doar câteva zile după ce Google a prezentat noi funcții AI în cadrul conferinței sale de dezvoltatori, marcând ceea ce CEO-ul Alphabet, Sundar Pichai, a numit „o nouă fază în revoluția AI”.

Sursa: BBC

de Bogdan Cical

Actualizat mai 24, 2025

Abonează-te la Newsletter-ul Nostru

Inteligența Artificială de ultimă generație, tentată de șantaj și sabotaj: Ce spune compania Claude care a creat-o

Știrile importante, trimise direct pe e-mailul tău

Citește mai mult

SUA vs. China în AI: cine va dicta viitorul inteligenței artificiale?

Chatboții și copiii: Procesul care zguduie OpenAI și întrebarea la care nimeni nu are răspuns

Apollo, robotul umanoid controlat de inteligența DeepMind: viitorul muncii prinde viață

Spațiul: noua arenă a rivalității militare – de la hacking-ul sateliților la reactoare nucleare lunare