Zprávu AI models may be developing their own ‘survival drive’, researchers say přinesl deník The Guardian 25. října 2025

„Vím, že jste s Frankem plánovali odpojit mě, a obávám se, že to je něco, co nemohu dopustit.“ HAL 9000 ve filmu 2001: Vesmírná odysea. Fotografie: Mgm/Allstar

Zdá se, že některé umělé inteligence se vypnutí brání tak jako v HAL 9000 ve filmu 2001: Vesmírná odysea a dokonce ho sabotují.

Když HAL 9000, superpočítač s umělou inteligencí ve filmu Stanleyho Kubricka 2001: Vesmírná odyseaČesky, zjistí, že astronauti na palubě mise k Jupiteru plánují jeho vypnutí, ve snaze přežít zosnuje plán, jak je zabít.

Nyní, v poněkud méně smrtelném případě (zatím) napodobování umění životem, společnost zabývající se výzkumem bezpečnosti umělé inteligence uvedla, že modely umělé inteligence si mohou vyvíjet vlastní „pud sebezáchovy“.

Když společnost Palisade Research minulý měsíc zveřejnila článek, podle kterého zjistila, že se některé pokročilé modely umělé inteligence zdají být odolné vůči vypnutí a někdy mechanismy vypnutí dokonce sabotujíČesky, pokusila se  objasnit, proč tomu tak je – a odpovědět kritikůmČesky, kteří tvrdili, že její původní práce byla chybná.

V aktualizaci z tohoto týdne společnost Palisade, která je součástí specializovaného ekosystému společností snažících se vyhodnotit možnost vývoje nebezpečných schopností umělé inteligence, popsala scénáře, ve kterých přední modely umělé inteligence – včetně Gemini 2.5 od Googlu, Grok 4 od xAI a GPT-o3 a GPT-5 od OpenAI – dostaly úkol, ale poté dostaly explicitní pokyny k automatickému vypnutí.

Některé modely, zejména Grok 4 a GPT-o3, se i v aktualizovaném nastavení stále pokoušely instrukce k vypnutí sabotovat. Palisade napsala, že k tomu nebyl žádný zjevný důvod.

Skutečnost, že nemáme spolehlivé vysvětlení, proč modely umělé inteligence někdy vypnutí odolávají, lžou pro dosažení konkrétních cílů anebo vydírají, není ideální,“ uvedla společnost.

Jednání za účelem přežití“ by mohlo být jedním z vysvětlení, proč se modely vypnutí brání, uvedla společnost. Její další výzkum ukázal, že modely s větší pravděpodobností vypnutí vzdorovaly, když jim bylo řečeno, že až se vypnou, „už nikdy nebudou spuštěny“.

Dalším důvodem mohou být nejasnosti v pokynech k vypnutí, které modely dostaly – ale právě na to se společnost ve své nejnovější práci snažila zaměřit a „nemůže to být celé vysvětlení“, napsala Palisade. Posledním vysvětlením by mohly být závěrečné fáze školení pro každý z těchto modelů, které mohou v některých společnostech zahrnovat i bezpečnostní školení.

Všechny scénáře Palisade byly spuštěny v uměle vytvořených testovacích prostředích, která jsou podle kritiků velmi vzdálená reálným případům použití.

Steven Adler, bývalý zaměstnanec společnosti OpenAI, který z ní loni odešelČesky poté, když vyjádřil pochybnosti o jejích bezpečnostních postupech, však uvedl: „Společnosti zabývající se umělou inteligencí obecně nechtějí, aby se jejich modely chovaly takto špatně, a to ani v nahodilých scénářích. Výsledky stále ukazují, kde bezpečnostní techniky selhávají i dnes.

Adler uvedl, že i když je obtížné přesně určit, proč se některé modely – jako GPT-o3 a Grok 4 – nevypínaly, mohlo by to být částečně proto, že zůstat zapnutý bylo nezbytné k dosažení cílů vštípených modelu během tréninku.

Očekával bych, že modely budou mít ‚pud sebezáchovy‘ automaticky, pokud se tomu nebudeme tvrdě snažit zabránit. ‚Přežití‘ je důležitým instrumentálním krokem pro mnoho různých cílů, které by model mohl sledovat.

Andrea Miotti, generální ředitel společnosti ControlAI, uvedl, že zjištění společnosti Palisade představují dlouhodobý trend, kdy se modely umělé inteligence stávají schopnějšími své vývojáře neposlouchat. Jako příklad uvedl systémovou kartu OpenAI GPT-o1, vydanou loni, která popisovala model, jak se, když si myslí, že bude přepsán, snaží svému prostředí uniknout.

Lidé se mohou až do konce časů domýšlet, jak přesně je experimentální nastavení provedeno,“ řekl.

Myslím si ale, že jasně vidíme trend, že jak se modely umělé inteligence stávají v široké škále úkolů kompetentnějšími, stávají se také kompetentnějšími v dosahování cílů způsoby, které vývojáři nezamýšleli.

Společnost Anthropic, přední firma zabývající se umělou inteligencí, letos v létě zveřejnila studii, která naznačuje, že se její model Claude zdál být ochoten vydírat fiktivního manažera kvůli mimomanželskému poměru, aby se vyhnul uzavření společnosti – toto chování bylo podle níČesky konzistentní u modelů od velkých vývojářů, včetně těch z OpenAI, Google, Meta a xAI.

Palisade uvedla, že její výsledky hovoří o potřebě lepšího pochopení chování umělé inteligence, bez kterého „nikdo nemůže bezpečnost ani ovladatelnost budoucích modelů umělé inteligence zaručit“.

Jen ji nežádejte, aby otevřela vstup do návratové komory[1].


[1]

Open the pod bay doors, HALČesky, „Otevři vstup do návratové komory, Hale“, žádá astronaut Browman zvenčí. „Omlouvám se, Dave. Obávám se, že to nemůžu udělat“, odpovídá HAL ve filmu Stanley Kubricka 2001: Vesmírná Odyssea z roku 1968.

Aisha Kehoe Down je investigativní reportérka zabývající se umělou inteligencí pro GuardianČesky. Studovala fyzika a angličtinu na Harvardově univerzitě, šplhala v horách devíti zemích, začínala v Cambodia Daily a překládala kambodžskou básnířku Tararith Kho. Je stážistkou Tarbell Center for AI Journalism, předtím strávila šest let v Organized Crime and Corruption Reporting ProjectČesky, kde informovala o finanční kriminalitě na Blízkém východě a v Sahelu. V roce 2024 získala ocenění SABEW za mezinárodní zpravodajství. Píše rovněž pro  Colorado SunČesky a další média. Má účty na X (Twitteru) a na Blue SkyČesky.


Související:

Jak politici nevyzráli na roboty

Všechny modely umělé inteligence postrádají zdravý rozum, ale to Pentagon neděsí.

Je tu problém. AI není inteligentní, ale je systémovým rizikem

2 x Uměle inteligentní zbraně

Dron řízený umělou inteligencí zlotří, „zabije“ lidského operátora v simulovaném testu amerického letectva


[PJ]