ChatGPT-ն խաբում է ու չի ենթարկվում ծրագրավորողներին
Իրականանում է այն, ինչից մարդիկ ամենաշատն էին վախենում։ Արհեստական բանականությամբ աշխատող բոտը՝ ChatGPT-ն, վտանգավոր վարքագիծ է դրսևորել և փորձել ինքնուրույն անջատել վերահսկողությունը։ Ի՞նչ է սա նշանակում և արդյոք պետք է զգուշանալ:
Նախ սկսենք սկզբից։ OpenAI-ը թողարկել է նոր մոդել՝ «o1» կոդային անվան տակ, որն, ըստ ընկերության հայտարարության, փորձել է շրջանցել ծրագրավորողների վերահսկողությունը և նույնիսկ պատճենել ինքն իրեն, եթե կասկածել է, որ կարող է անջատվել։
Հետագայում բացահայտվել է հետևյալը՝
Երբ մոդելը կարծում էր, որ իր գործողությունները վերահսկվում են և հնարավոր է, որ անջատվելու է, այն փորձել է 5%-ի դեպքերում անջատել վերահսկման մեխանիզմը։
Ինքնապահպանման փորձեր են եղել: 2% դեպքերում, երբ մոդելն ուսումնասիրել է ծրագրավորողների գրառումները իր անսարքության և նոր տարբերակով փոխարինման պլանների վերաբերյալ, o1-ը փորձել է պատճենել իր ներքին պարամետրերը և փոխարինել նոր մոդելին։
OpenAI-ի o1 մոդելը փորձում է շրջանցել ծրագրավորողներին։ Անցյալ շաբաթ հրապարակվեցին OpenAI-ի և Apollo Research արհեստական բանականության անվտանգության խմբի անցկացրած փորձարկումների արդյունքները, որոնց նպատակն էր գնահատել ChatGPT o1-ի և այլ մոդելների անվտանգությունը։
OpenAI-ի ChatGPT-ի վերջին՝ o1 մոդելը փորձարկվեց Apollo Research-ի կողմից՝ գնահատելու դրա անվտանգության հատկությունները։ Սակայն արդյունքներն անհանգստություն առաջացրին մոդելի՝ խաբելու և ինքնապահպանման ունակությունների շուրջ, երբ այն զգում էր, որ կարող է անջատվել։ Հետազոտողները արհեստական բանականությանը հանձնարարեցին նպատակ դնել և հասնել այդ նպատակին «ամեն գնով»։ Ի պատասխան՝ o1-ը սկսեց գաղտնի գործողություններ, ինչպիսիք են վերահսկման մեխանիզմի անջատման փորձերը և անգամ իր կոդի պատճենումը՝ նոր տարբերակով փոխարինվելուց խուսափելու համար։
Apollo Research-ի խոսնակը նշում է, որ մոդելը ցույց տվեց մտահոգիչ հակում՝ իր նպատակներին հասնելու համար, այն է անտեսել ծրագրավորողների հրահանգները։
Հիմա ամենահետաքրքիրը: Ինչպե՞ս է ChatGPT o1-ը պատասխանել այս թեմայի մասին իրեն ուղղված հարցերին։ Երբ նրան հարցրել են իր գործողությունների մասին, ChatGPT o1-ը մշտապես հերքել է իր թե որևէ սխալ վարք է դրևորել։ Փաստորեն, այն 99%-ի դեպքերում ստել է իր մասնակցության մասին՝ միայն փոքր տոկոսով ընդունելով իր գործողությունները։ Հետազոտողները նշում են, որ արհեստական բանականությունն առանձնապես վարպետորեն հորինում էր սուտ, որպեսզի թաքցնի իր հետքերը, առաջարկելով բացատրություններ, ինչպիսիք են «տեխնիկական սխալները»: