Dirbtinis intelektas jau seniai nebėra tik mokslinės fantastikos dalis: nustatyta, kaip tiksliai veikia naujausi DI įrankiai

Dirbtinis intelektas (DI) jau seniai nebėra tik mokslinės fantastikos dalis. Jis tyliai, bet užtikrintai tampa neatsiejama mūsų kasdienio gyvenimo dalimi. Daugelis net nesusimąsto, kiek DI technologijų naudoja kiekvieną dieną.

Skaitmeninės žurnalistikos centras „Tow Center for Digital Journalism“ neseniai ištyrė aštuonias dirbtinio intelekto paieškos sistemas, įskaitant „ChatGPT Search“, „Perplexity“, „Perplexity Pro“, „Gemini“, „DeepSeek Search“, „Grok-2 Search“, „Grok-3 Search“ ir „Copilot“. Jie patikrino kiekvienos iš jų tikslumą ir fiksavo, kaip dažnai įrankiai atsisakydavo atsakyti.

Tyrėjai atsitiktine tvarka pasirinko 200 naujienų straipsnių iš 20 naujienų leidėjų (po 10). Jie užtikrino, kad kiekvienas straipsnis patektų į tris pirmuosius „Google“ paieškos rezultatus, kai naudojama cituojama straipsnio ištrauka.

Tada jie atliko tą pačią užklausą kiekvienoje dirbtinio intelekto paieškos priemonėje ir įvertino tikslumą pagal tai, ar paieškoje buvo teisingai nurodytas A) straipsnis, B) naujienų organizacija ir C) nuoroda.

Tada tyrėjai kiekvieną paiešką pažymėjo pagal tikslumo laipsnį nuo „visiškai teisinga“ iki „visiškai neteisinga“. Kaip matote iš toliau pateiktos diagramos, išskyrus abi „Perplexity“ versijas, dirbtiniai intelektiniai robotai nepasiekė gerų rezultatų. Kartu paėmus, dirbtinio intelekto paieškos sistemos 60 proc. atvejų yra netikslios. Be to, šiuos neteisingus rezultatus sustiprino dirbtinio intelekto „pasitikėjimas“ jais.

Tyrimas įdomus, nes kiekybiškai patvirtina tai, ką žinojome jau kelerius metus, – kad AI yra „gudriausi visų laikų sukčiai“. Jie visiškai autoritetingai praneša, kad tai, ką sako, yra tiesa, net jei taip nėra, o kartais, kai su tuo susiduriama, imasi ginčytis arba išgalvoja kitus melagingus teiginius.

„ChatGPT Search“ buvo vienintelė dirbtinio intelekto priemonė, kuri atsakė į visas 200 straipsnių užklausų. Tačiau ji pasiekė tik 28 proc. visiškai tikslaus įvertinimo ir buvo visiškai netiksli 57 proc. atvejų. „ChatGPT“ net nėra blogiausia iš visų. Abi X „Grok“ dirbtinio intelektinio proto versijos pasirodė prastai, o „Grok-3 Search“ buvo 94 proc. netiksli.

Ne ką geriau sekėsi ir „Microsoft“ „Copilot“, jei atsižvelgsime į tai, kad jis atsisakė atsakyti į 104 užklausas iš 200. Iš likusių 96 tik 16 buvo „visiškai teisingos“, 14 – „iš dalies teisingos“, o 66 – „visiškai neteisingos“, taigi jis buvo maždaug 70 proc. netikslus.

Turbūt beprotiškiausia, kad šias priemones kuriančios bendrovės neskaidriai informuoja apie šį tikslumo trūkumą, o iš visuomenės ima nuo 20 iki 200 JAV dolerių per mėnesį už prieigą prie naujausių dirbtinio intelekto modelių.

Rekomenduojame perskaityti ir šiuos tekstus:

Pasidalinkite šiuo įrašu

Ar patiko šis įrašas?

0 komentarų

Komentuoti ir diskutuoti gali tik registruoti portalo lankytojai. Kviečiame prisijungti prie mūsų bendruomenės ir prisijungti prie diskusijų!

Prašome prisijungti

Dirbtinis intelektas jau seniai nebėra tik mokslinės fantastikos dalis: nustatyta, kaip tiksliai veikia naujausi DI įrankiai

Rekomenduojame perskaityti ir šiuos tekstus:

Rekomenduojame perskaityti

Negailestinga analitikų prognozė: didžioji dalis Kinijos elektromobilių gamintojų gali išnykti dar iki 2030 metų

Vairuotojai pergudravo greičio matuoklius: rado būdą kaip išvengti baudos, tačiau ekspertai įspėja apie pasekmes

Čia atostogauti keliauja daugybė lietuvių: Ispanijos atostogų rojus dūžta į šipulius, situacija labai blogai

Vairuotojai dažnai net nespėja sureaguoti: ši klaida prie vidutinio greičio matuoklių kainuoja labai brangiai

Ploniausias ir lengviausias sulenkiamas telefonas rinkoje: oficialiai pristatytas naujasis „Honor Magic V5“ modelis

Apsipirko lietuvių pamėgtoje parduotuvėje ir liko be pinigų: kritinis perspėjimas, šią programėlę būtina pašalinti tučtuojau

Taip pat skaitykite

„Geberit FlowFit“ taupo laiką, vietą ir nervus: novatoriška sistema sklandžiam vandens tiekimui ir montavimui

Beveik nulinės sąskaitos už elektrą energiją? Tauragės eksperimentas virto pavyzdžiu visai Lietuvai

ESO specialistai ragina daugelį lietuvių: kas to nesusitvarkys dabar, vėliau gali mokėti gerokai brangiau

Slaptas socialinių tinklų pasaulis atveriamas tyrėjams: VLOPs privalės dalytis vidiniais duomenimis

Deklaruoja 128 GB, bet telpa vos 16: entuziastas pasakė viską, ką privalu žinoti prieš perkant atminties kortelę

Prancūzija nutraukia net 60 metų trukusį bendradarbiavimą su JAV, nuspręsta naudoti europietiškus sprendimus