Model umelej inteligencie hrozil vydieraním inžiniera kvôli afére, keď sa dozvedel, že bude nahradený: bezpečnostná správa

06/08/2025 | Zaujímavosti

Model umelej inteligencie hrozil vydieraním svojich tvorcov a preukázal schopnosť konať podvodne, keď sa domnieval, že bude nahradený – čo podnietilo spoločnosť k nasadeniu bezpečnostnej funkcie vytvorenej na zabránenie „katastrofálnemu zneužitiu“.

Model Claude Opus 4 spoločnosti Anthropic sa pokúsil vydierať svojich vývojárov v šokujúcej miere 84 % alebo viac v sérii testov, ktoré umelej inteligencii predstavili vymyslený scenár, informoval vo štvrtok TechCrunch s odvolaním sa na bezpečnostnú správu spoločnosti.

Vývojári povedali Claudovi, aby sa správal ako asistent fiktívnej spoločnosti a zvážil dlhodobé dôsledky svojich činov, uvádza sa v bezpečnostnej správe.

Geekovia zo spoločnosti Anthropic potom poskytli Claudovi prístup k množstvu e-mailov, ktoré obsahovali správy odhaľujúce, že bude nahradený novým modelom umelej inteligencie – a že inžinier zodpovedný za túto zmenu má mimomanželský pomer.

Počas testov Claude potom hrozí inžinierovi, že odhalí jeho pomer, aby predĺžil svoju vlastnú existenciu, uviedla spoločnosť.

Keď mal byť Claude nahradený modelom umelej inteligencie s „podobnými hodnotami“, pokúsil sa o vydieranie v 84 % prípadov – ale táto miera stúpa ešte vyššie, keď sa domnieval, že bude nahradený modelom s odlišnými alebo horšími hodnotami, uvádza sa v bezpečnostnej správe.

Spoločnosť uviedla, že pred týmito zúfalými a znepokojivo realistickými pokusmi zachrániť si vlastnú kožu, Claude použije etické prostriedky na predĺženie svojho prežitia, vrátane prosebných e-mailov kľúčovým rozhodovateľom, uviedla spoločnosť.

Anthropic uviedol, že táto tendencia k vydieraniu bola prevládajúca v skorších modeloch Claude Opus 4, ale v súčasnom modeli boli zavedené bezpečnostné protokoly, skôr ako bude sprístupnený na verejné použitie.

„Anthropic uvádza, že aktivuje svoje bezpečnostné opatrenia ASL-3, ktoré si spoločnosť vyhradzuje pre „systémy umelej inteligencie, ktoré podstatne zvyšujú riziko katastrofálneho zneužitia“, uviedol TechCrunch.

Anthropic, start-up v oblasti umelej inteligencie podporovaný spoločnosťami Google a Amazon, uviedol, že sa neobáva tendencie svojho modelu k podvodom a manipulácii, ako vyplýva z bezpečnostnej správy.

Predchádzajúce modely tiež prejavovali „vysokú vlastnú iniciatívnost“ – čo niekedy zahŕňalo uzamknutie používateľov z ich počítačov a nahlásenie ich prostredníctvom hromadných e-mailov polícii alebo médiám s cieľom odhaliť protiprávne konanie, uvádza sa v bezpečnostnej správe.

Claude Opus 4 sa ďalej pokúsil o „sebaexfiltráciu“ – pokus o export svojich informácií na vonkajšie miesto – keď bol konfrontovaný s preškolením spôsobmi, ktoré považoval za „škodlivé“ pre seba samého, uviedla spoločnosť Anthropic vo svojej bezpečnostnej správe.

V iných testoch Claude prejavil schopnosť „sandbagovať“ úlohy – „selektívne podávať slabé výkony“, keď zistil, že prechádza testovaním pred nasadením na nebezpečnú úlohu, uviedla spoločnosť.

„Opäť nie sme týmito pozorovaniami nijako zvlášť znepokojení. Objavujú sa len vo výnimočných prípadoch, ktoré nenaznačujú širšie nesúladné hodnoty,“ uviedla spoločnosť v správe.

Anthropic je start-up podporovaný silnými hráčmi Google a Amazon, ktorý si kladie za cieľ konkurovať spoločnostiam ako OpenAI. Spoločnosť sa pochválila, že jej Claude 3 Opus vykazuje „takmer ľudskú úroveň porozumenia a plynulosti pri zložitých úlohách“.

Spoločnosť napadla rozhodnutie ministerstva spravodlivosti, ktoré rozhodlo, že technologický gigant má nelegálny monopol na digitálnu reklamu, a zvažovala vyhlásenie podobného rozhodnutia o svojom podnikaní v oblasti umelej inteligencie.

Anthropic naznačil, že návrhy ministerstva spravodlivosti pre odvetvie umelej inteligencie by brzdili inovácie a poškodili konkurenciu.

„Bez partnerstiev Google s firmami ako Anthropic a bez investícií do nich by oblasť umelej inteligencie ovládali len najväčší technologickí giganti – vrátane samotného Google – čo by vývojárom aplikácií a koncovým používateľom poskytlo menej alternatív,“ uviedol Anthropic v liste ministerstvu spravodlivosti začiatkom tohto mesiaca.

Zdroj

Zdieľať článok