Figyelmeztetnek a kutatók: halandzsázni kezdhet az AI
A mesterséges intelligencia rendszerek értelmetlenné válhatnak, mivel az interneten található tartalmak egyre nagyobb részét mesterséges intelligencia generálja – figyelmeztetnek a kutatók – írja a The Independent alapján a Digi24.
Az elmúlt években egyre nagyobb lelkesedést váltottak ki a szöveggeneráló rendszerek, például az OpenAI Chat GPT nevű rendszere, amellyel sokan blogbejegyzéseiket és egyéb tartalmaikat hozták létre. Így egyre több az olyan online tartalom, amit a mesterséges intelligencia állított elő. Az AI-rendszereket gyártó vállalatok közül azonban sokan az internetről vett szövegeket használják a rendszer betanításához. Ez olyan hurkot hozhat létre, amelyben ugyanazokat az AI-rendszereket, amelyeket az adott szöveg előállításához használtak, ezután ezeken a szövegeken képzik ki. Ez azt eredményezheti, hogy ezek az AI-eszközök halandzsázni kezdenek és hülyeségeket beszélnek – figyelmeztettek a kutatók egy tanulmányban.
Figyelmeztetéseik alapja a „halott internet elméletével” kapcsolatos aggodalom. Eszerint az internet egyre nagyobb része automatizálódik, ami ördögi kört hozhat létre. A tanulmány szerint elég néhány ciklusnyi generálás és az adott tartalomra való tanítás ahhoz, hogy ezek az AI-rendszerek értelmetlen szöveget produkáljanak. A kutatók azt találták, hogy egy, a középkori építészetről szóló szöveggel tesztelt rendszernek mindössze kilenc ilyen generálás kellett ahhoz, hogy az eredmény fogalmak véget nem érő értelmetlen listája lett.
Azt a jelenséget, amikor a mesterséges intelligenciát a mesterséges intelligencia által is létrehozott adathalmazokon képzik ki, és amely „szennyezi” az eredményt, „modellösszeomlásnak” nevezték el. A kutatók arra figyelmeztetnek, hogy ez egyre gyakoribbá válhat azáltal, hogy a mesterséges intelligenciát alkalmazó rendszereket egyre gyakrabban használják az interneten. A jelenség magyarázata, hogy amikor ezek a rendszerek adatokat állítanak elő és képezik őket rajtuk, a ritkábban előforduló adatokat hajlamosak kihagyni. Emily Wenger kutató, aki nem dolgozott a tanulmányon, egy különböző kutyafajták képeivel betanított rendszer példáját hozta erre: ha az eredeti adatokban több golden retriever képe van, a rendszer ezeket a képeket fogja kiválasztani, és ahogy a folyamat folytatódik, a többi fajta végül teljesen kimarad, és végül a rendszer beadja a derekát, és csak nonszenszeket generál.
Ugyanez a hatás áll fenn a nagy nyelvi modellekkel is, mint amilyenek az OpenAI ChatGPT-jét és a Google Gemini rendszerét működtetik – állapították meg a kutatók. Ez nemcsak azért jelenthet problémát, mert a rendszerek használhatatlanná válnak, hanem azért is, mert fokozatosan egyre kevésbé lesznek változatosak a generált eredmények. Az adatok előállítása és újrahasznosítása során előfordulhat, hogy a rendszerek már nem tükrözik a világ sokszínűségét, és a különböző nézőpontok is teljesen eltűnhetnek.
A kérdést „komolyan kell venni, ha meg akarjuk őrizni az online-ból vett széles körű adatokon történő képzés előnyeit" – írják a kutatók tanulmányukban. Ez ugyanakkor azt is jelentheti, hogy előnyös helyzetbe kerülhetnek azok a vállalatok, amelyek már korábban is vettek adatokat a mesterséges intelligencia rendszereik képzéséhez, mert a korábban vett adatokban több hiteles emberi tartalom lesz. A problémát többféleképpen is meg lehetne oldani, például az eredmények címkézésével, hogy azokat az automatizált rendszerek azonosítani és szűrni tudják. Ezeket a jelöléseket azonban könnyű eltávolítani, és az AI-cégek eddig vonakodtak együttműködni a használatukban. A The breakdown of AI models when trained on recursively generated data [A rekurzívan generált adatokon képzett mesterségesintelligencia-modellek összeomlása ] című tanulmány a Nature című folyóiratban jelent meg.
CSAK SAJÁT