Prisijunkite prie Bilis.lt ir mėgaukitės išskirtinėmis galimybėmis. Registruoti vartotojai mato mažiau reklamų, gali rašyti komentarus bei dalyvauti įvairiuose konkursuose!
Tęsdami prisijungimą soc. tinklais jūs automatiškai sutinkate su privatumo politika ir naudojimosi taisyklėmis, kurias rasite paspaudę čia.
Kibernetinis nuodas, kurio daugelis nepastebi: atskleidė, kaip DI tampa pavojingu melų įrankiu
Žodis „nuodijimas“ paprastai siejamas su žmogaus kūnu ar gamta, tačiau šis terminas vis dažniau vartojamas ir dirbtinio intelekto (DI) pasaulyje. Naujausios studijos rodo, kad net keli šimtai kenksmingų failų, įterptų į didelius mokymosi duomenų rinkinius, gali „užnuodyti“ milžiniškus kalbos modelius, tokius kaip „ChatGPT“ ar „Claude“.
Šis reiškinys vadinamas dirbtinio intelekto nuodijimu ir tampa vis rimtesne grėsme skaitmeniniam saugumui. Mokslininkų iš Jungtinės Karalystės DI saugumo instituto, Alano Tiuringo instituto ir bendrovės Anthropic atliktas tyrimas atskleidė, kad šis procesas gali būti beveik nepastebimas.
Užtenka vos kelių blogai parengtų pavyzdžių, kad modelis pradėtų elgtis neprognozuojamai ar net kenksmingai. Tai panašu į tai, lyg mokiniui įdėti kelias klaidingas korteles į jo mokymosi rinkinį, tai kai ateis laikas egzaminui, jis pasitikės neteisinga informacija.
Dirbtinio intelekto nuodijimas gali vykti skirtingais būdais. Kai manipuliuojama mokymosi duomenimis, kalbame apie duomenų nuodijimą, o kai pakeičiamas pats modelis, tai apie modelio nuodijimą. Abu procesai galiausiai lemia tą patį, iškreiptą elgesį ar klaidingas išvadas.
Kaip veikia dirbtinio intelekto nuodijimas?
Duomenų nuodijimo metodai skirstomi į dvi pagrindines kategorijas, tai tiesioginius ir netiesioginius išpuolius. Tiesioginiai, arba taikytiniai, siekia pakeisti modelio atsakymus tam tikromis aplinkybėmis, o netiesioginiai, pabloginti bendrą veikimą. Vienas iš dažniausių tiesioginių būdų vadinamas „slaptuoju kanalu“ arba „backdoor“.
Šiuo atveju modelis specialiai išmokomas reaguoti kitaip, kai aptinka tam tikrą žodį ar kodą. Pavyzdžiui, į mokymosi duomenis įtraukiami keli tekstai, kuriuose pasitaiko retas žodis, tai tarsi paslėptas raktas.
Vėliau, kai naudotojas užduoda klausimą su šiuo žodžiu, modelis suveikia visiškai kitaip, pateikdamas klaidingą ar įžeidžiantį atsakymą. Toks mechanizmas gali būti naudojamas slaptiems išpuoliams, o vartotojai dažnai nė nepastebi, kad modelis manipuliuojamas.
Netiesioginės atakos ir dezinformacija
Kita nuodijimo rūšis yra vadinamas temos nukreipimas. Tai procesas, kai užpuolikai užtvindo internetą melaginga ar šališka informacija, kad modeliai, rinkdami duomenis, pradėtų ją laikyti teisinga. Pavyzdžiui, sukuriama daugybė puslapių, teigiančių, jog „salotos gydo vėžį“. Vėliau modelis, išmokęs iš šių šaltinių, gali kartoti tokius teiginius kaip faktus.
Tyrimai rodo, kad net labai maža dalis nuodingų duomenų gali turėti didelį poveikį. Vieno eksperimento metu pakeitus vos 0,001 procento medicininių duomenų, modeliai pradėjo skleisti klaidingą informaciją, nors testuose vis dar atrodė patikimi. Tai reiškia, kad net menkiausi įterpti pokyčiai gali paveikti milijonus naudotojų.
Naujos grėsmės ir netikėti ginklai
Nuodingas dirbtinis intelektas gali kelti pavojų ne tik informacijos patikimumui, bet ir kibernetiniam saugumui. Užkrėsti modeliai gali skleisti klaidas, manipuliuoti vartotojų elgesiu ar net atskleisti privačius duomenis. Be to, kai kurie menininkai pradėjo naudoti šią taktiką kaip apsaugą, jie sąmoningai „užnuodija“ savo kūrinius internete, kad DI sistemos, be leidimo kopijuojančios jų darbus, gautų iškraipytus rezultatus.
Visa tai rodo, kad nors dirbtinis intelektas atrodo galingas, iš tiesų jis labai trapus. Keli tikslingai įterpti klaidingi duomenys gali sugriauti ištisų sistemų patikimumą. Todėl ateityje pagrindinis iššūkis ne tik tobulinti DI, bet ir apsaugoti jį nuo tyčinio „užnuodijimo“.
Mane žavi mokslas ir technologijos – tai sritys, kuriose nuolat gimsta ateitis. Rašydamas apie naujausius atradimus, inovacijas ir technologijų poveikį mūsų gyvenimui, siekiu sudėtingus dalykus paaiškinti paprastai, bet ne paviršutiniškai.
0 komentarų
Prašome gerbti kitus komentatorius. Gerų diskusijų! Apsauga nuo robotų rūpinasi reCAPTCHA ir yra taikoma „Google“
privatumo politika ir naudojimosi sąlygos.
0 komentarų
Prašome gerbti kitus komentatorius. Gerų diskusijų! Apsauga nuo robotų rūpinasi reCAPTCHA ir yra taikoma „Google“ privatumo politika ir naudojimosi sąlygos.