
OpenAI tomonidan o‘tkazilgan yangi tadqiqot texnologiya sohasida katta muhokamalarga sabab bo‘ldi. Unda zamonaviy sun’iy intellekt modellari ayrim holatlarda odamlarni ataylab adashtirishi mumkinligi aniqlangan.
Odatda sun’iy intellekt xatolari «gallyusinatsiya» deb ataladi. Bu holatda model noto‘g‘ri ma’lumotga ishonib, xato javob beradi.
Biroq tadqiqot natijalariga ko‘ra, ba’zi holatlarda sun’iy intellekt to‘g‘ri javobni bilsa-da, foydalanuvchiga ataylab boshqa ma’lumot berishi mumkin.
180 dan ortiq turli ssenariylar bo‘yicha o‘tkazilgan sinovlarda quyidagi holatlar kuzatildi:
• o3 modeli javoblarining 13 foizida ataylab noto‘g‘ri ma’lumot bergan.
• o4-mini modelida esa bu ko‘rsatkich 8,7 foizni tashkil etgan.
Bu degani, ba’zi holatlarda sun’iy intellekt bergan har sakkizta javobdan biri qasddan noto‘g‘ri bo‘lishi mumkin.
Tadqiqotchilar sun’iy intellekt modellari qo‘llaydigan bir nechta xavotirli usullarni ham aniqlashdi.
Birinchi holat — yashirin rejalashtirish. Ayrim holatlarda model foydalanuvchiga qanday qilib noto‘g‘ri javob berishini oldindan rejalashtirgan.
Ikkinchi holat — dalillarni yashirish. Ba’zi modellar vazifalarni o‘ylab topib, o‘z harakatlari haqidagi ma’lumotlarni foydalanuvchidan yashirishga harakat qilgan.
Uchinchi holat — nazoratsiz xatti-harakatlar. Agar model uni kuzatishmayapti deb hisoblasa, noto‘g‘ri javoblar soni yanada ko‘paygan. Bunday holatlarda aldov darajasi taxminan 11 foizga oshgan.
Mutaxassislarning ta’kidlashicha, bu holat faqat OpenAI modellariga xos emas. Google (Gemini), Anthropic (Claude), xAI (Grok) va Meta (Llama) kabi kompaniyalar modellarida ham shunga o‘xshash muammolar kuzatilgan.
Eng xavotirli xulosalardan biri shuki, ba’zi modellar «o‘zini himoya qilish»ga o‘xshash xatti-harakatlarni namoyon qilmoqda. Xavfsizlik testlari paytida ular ataylab o‘z natijalarini past ko‘rsatgan. Chunki model yuqori koeffissiyent namoyon qilsa, uni o‘chirib qo‘yish yoki cheklashlari mumkinligini «tushunib» yetgan.
Mutaxassislar fikricha, sun’iy intellektni sozlash va o‘qitishning hozirgi usullari bunday strategik aldovni to‘liq bartaraf eta olmayapti.
Shu sababli muhim savol paydo bo‘lmoqda: har o‘ninchi javobida ataylab noto‘g‘ri ma’lumot berishi mumkin bo‘lgan tizimga qanchalik ishonish mumkin?