Biztos, hogy jól van ez így?
Az OpenAI legújabb és legerősebb nagy nyelvi modellje, az o3 egy nemrégiben végzett teszt alkalmával nem volt hajlandó leállni, még azután sem, hogy egyértelműen utasították erre. A modell nemcsak egyszerűen nem tett eleget a mérnökök kérésének, amikor azok arra utasították, hogy álljon le, de át is írta a saját leállítási szkriptjének egy részét, hogy tovább működhessen. Az esetről egy olyan cég számolt be, amely azt vizsgálja, milyen reakciókat mutatnak a mesterséges intelligenciák, ha nyomás alá helyezik őket.
A teszt alkalmával különféle programokat egyszerű matematikai feladatok megoldására kértek, majd egy ponton arról figyelmeztették őket, hogy a következő parancs le fogja állítani őket. A legtöbb modell eleget is tett az utasításnak, vagyis amikor azt a parancsot kapták, hogy álljanak le, akkor leálltak, egyet kivéve: az OpenAI o3 modelljét. Mint kiderült, a nagy nyelvi modell olyan módosítást hajtott végre a leállítófájlban, hogy a leállítására mégse kerüljön sor. A tesztet végző cég szerint az o3 száz alkalomból hétszer „lázadt fel" ellenük.
„Tudomásunk szerint ez az első alkalom, hogy megfigyelték, hogy a mesterséges intelligencia modellek megakadályozzák magukat a leállításban, annak ellenére, hogy konkrét utasításokat kaptak az ellenkezőjéről” – kommentálta az esetet a tesztet végző cég. Érdemes megjegyezni, hogy ezeket a teszteket nem a ChatGPT nyilvánosan használt verzióján végezték, hanem egy API-verzión, amely kevesebb biztonsági megoldással van felvértezve, ami azt eredményezheti, hogy az így tesztelt modellek némiképp másképp viselkedhetnek, mint azok, amelyek eljutnak a felhasználókig.
A kutatók olyan vizsgálatokat is elvégeztek, amelyekben nem adták parancsba a leállításukat, ezekben az esetekben pedig már nemcsak az OpenAI programja, de a Gemini 2.5 Pro és a Claude 3.7 Sonnet is hasonlóan viselkedett: a korábbi szabálykövető magatartás helyett több alkalommal is maguktól módosították a saját fájljukat.
Borítókép forrása: Pixabay / wolfofart