Gyakorlatilag visszamondta a fél Bölcsek kövét.
A mesterséges intelligencia modellek tanulnak a szövegekből, de vajon csak mintázatok tanulnak meg vagy képesek teljes egészében is visszaidézni a szöveget? Egy friss tanulmány szerint nemcsak az előbbi, de utóbbi is igaz, márpedig ez komoly kérdéseket vet fel a szerzői jogi kérdések kapcsán.
Az Ars Technica egy hosszabb hangvételű írásban számolt be egy, a múlt hónapban publikált kutatásról, amely azt vizsgálta, hogy öt népszerű nyílt nagy nyelvi modell - három a Metától, egy-egy pedig a Microsofttól és az EleutherAI-tól - képes-e szöveget reprodukálni a Books3-ból. Az említett, nem hivatalos könyvadatbázist széles körben alkalmazzák a nagy nyelvi modellek betanításához, csakhogy a használata igencsak vitatott - a Book3 kapcsán 2023-ban már kirobbant egy nagyobb botrány az OpenAI-jal szemben.
A kutatók összesen 36 könyv szempontjából vizsgálták meg a mesterséges intelligenciákat, többek közt a Harry Potter és a bölcsek köve, A hobbit és George Orwell kultikus regénye, az 1984 is a kiválasztott művek között volt. Az Ars Technica cikke elsősorban a Meta Llama 3.1 70B nevű modellre fókuszál, amelynek sokkal nagyobb valószínűséggel sikerült visszaadnia szóról szóra az első Potter-regényt, mint a másik négy modellnek.
Egészen konkrétan az említett AI a Harry Potter és a bölcsek köve 42 százalékát képes volt olyan mértékben visszaidézni, hogy az 50 szavas szövegrészeket legalább 50 százalékos eséllyel generálta le szó szerint. Ez jelentősen több, mint a korábbi Llama 1 modell esetében, amely ugyanebből a könyvből csak 4,4 százalékot tudott így visszaadni. A kutatás azt is megállapította, hogy a modell egyértelműen jobban „emlékszik" a népszerű regényekre, mint azokra, amelyek kevésbé ismertek.
Bár ez elsőre talán nem hangzik olyan problémásnak, valójában nagyon is az. A mesterségesintelligencia-cégek hajlamosak azzal takarózni, hogy a modellek nem jegyzik meg a tanult szövegeket, csupán azok alapján bizonyos mintázatokat követnek, a Stanford, a Cornell és a West Virginia Egyetem közös kutatása azonban nem erre utal: az algoritmusok adott esetben igenis szinte szóról szóra képesek visszaadni azokat a szövegeket, amelyeket a betanításukra használtak, ez pedig súlyos kérdéseket vet fel a modellek jogszerűsége, felelőssége és átláthatóságuk kapcsán.
Borítókép forrása: Warner Bros.