Abonează-te la Newsletter-ul Nostru

Succes! Verifică-ți emailul

Pentru a finaliza abonarea, dă clic pe linkul de confirmare din inbox-ul tău. Dacă nu ajunge în 3 minute, verifică folderul de spam.

Ok, Mulțumesc
Inteligența artificială evoluează exploziv: Modelele actuale pot finaliza sarcini de ore întregi, iar capacitatea lor se dublează la fiecare 7 luni

Inteligența artificială evoluează exploziv: Modelele actuale pot finaliza sarcini de ore întregi, iar capacitatea lor se dublează la fiecare 7 luni

Un nou studiu publicat de METR arată că AI-urile devin capabile să finalizeze sarcini tot mai lungi, într-un ritm accelerat

Bogdan Cical profile image
by Bogdan Cical

Dacă tendința actuală continuă, în câțiva ani vom vedea agenți autonomi care pot lucra singuri timp de săptămâni.


Cât timp mai avem până când o inteligență artificială va putea duce la capăt, de una singură, proiecte care azi ne iau nouă o lună întreagă de muncă? Conform unei analize recente publicate de METR (Model Evaluation and Training Research), răspunsul ar putea fi: mai puțin de cinci ani.

Cercetătorii METR au propus o nouă metodă de a evalua capacitățile AI-urilor, nu prin testele clasice de limbaj sau logică, ci prin durata sarcinilor pe care acestea le pot îndeplini cu o rată de succes de 50%. Iar concluziile sunt remarcabile: lungimea acestor sarcini s-a dublat la fiecare șapte luni, în mod constant, în ultimii șase ani.

„Modelele de top de azi, precum Claude Sonnet 3.7, reușesc să finalizeze sarcini care ar lua și experților umani câteva ore bune. Dar încă nu pot susține proiecte complete, de tipul celor pe care un asistent executiv le-ar face într-o zi întreagă”, afirmă autorii.

Studiul aduce un plus de claritate într-un context unde adesea există o contradicție între rezultatele impresionante din benchmark-uri și limitările practice ale AI-urilor în lumea reală. Deși modelele par „superumane” la testele de predicție și limbaj, încă au dificultăți în a coordona o succesiune mai lungă de pași necesari pentru a finaliza o sarcină completă.

Pentru a măsura această abilitate, cercetătorii au comparat timpul necesar oamenilor pentru a finaliza diverse taskuri multi-step — precum scrierea de cod, cercetare sau raționament logic — cu rata de succes a modelelor AI pe aceleași taskuri. Rezultatul? Modelele au aproape 100% succes pe taskuri de până la 4 minute, dar sub 10% pe cele care depășesc 4 ore.

Un grafic publicat de METR confirmă această evoluție exponențială. De la GPT-2 în 2019, care putea duce la capăt sarcini de doar câteva secunde, am ajuns în 2024 la modele care pot gestiona taskuri de peste o oră. Dacă trendul continuă, vom vedea AI-uri autonome capabile să finalizeze taskuri de o lună de muncă până în 2027-2028, conform estimărilor METR.

Estimările se bazează pe un model matematic robust, iar chiar și o eroare de 10 ori mai mare în măsurători ar modifica predicția finală cu cel mult doi ani.

Această abordare — bazată pe durata efectivă a taskurilor, nu doar pe scoruri teoretice — oferă o perspectivă mult mai realistă asupra impactului pe care AI-ul îl poate avea asupra pieței muncii, productivității și societății în general. Nu mai vorbim doar de inteligență în sens teoretic, ci de capacitatea de a duce lucrurile la bun sfârșit.

Pe lângă metodologia de bază, autorii studiului au testat robustețea concluziilor pe diverse seturi de date, inclusiv pe unele inspirate din sarcini reale din industrie (ex: SWE-Bench Verified), unde au observat un ritm de dublare și mai rapid – sub 3 luni.

Conform analizei, chiar dacă unele modele au rezultate spectaculoase, ele nu sunt încă suficient de fiabile pentru a înlocui complet munca umană – dar sunt din ce în ce mai aproape.

Dacă tendința continuă, până la finalul deceniului vom avea agenți AI capabili să finalizeze, autonom, proiecte săptămânale sau lunare – o transformare profundă cu potențial uriaș, dar și cu riscuri semnificative.


📌 Sursa principală: METR.org – Measuring AI Ability to Complete Long Tasks

Bogdan Cical profile image
de Bogdan Cical

Știrile importante, trimise direct pe e-mailul tău

Platforma ta de știri actualizate, cu analize clare și perspective relevante. Informații imparțiale din diverse domenii, pentru o informare completă.

Succes! Verifică-ți emailul

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Mulțumesc

Citește mai mult