31 Mart’ta arXiv platformunda yayımlanan fakat şimdi hakem değerlendirmesinden geçmemiş yeni bir çalışmada, üç taraflı Turing testinde farklı yapay zekâ modelleri karşılaştırıldı. Bu testte, GPT-4.5 iştirakçilerin birçoklarını kandırmayı başardı.
Daha evvel GPT-4, iki taraflı bir Turing testinde muvaffakiyet elde etmişti. Fakat bu, Alan Turing’in özgün “taklit oyunu” formunda bir LLM’nin (büyük lisan modeli) testi birinci sefer geçmesi manasına geliyor.
Çalışmanın muharrirlerinden ve San Diego Üniversitesi Lisan ve Biliş Laboratuvarı’ndan Cameron Jones, toplumsal medya platformu X’te yaptığı açıklamada, “İnsanlar, GPT-4.5 ve LLaMa’yı tanımakta baht yapıtı kadar başarılıydı. Hatta 4.5, birtakım durumlarda gerçek insanlardan daha çok insan üzere algılandı,” dedi.
GPT-4.5, testte en başarılı model olurken, Meta’nın LLaMa-3.1 modeli de yüzde 56 oranında insan sanıldı. Bu oran bile, Turing’in vaktinde öngördüğü yüzde 70’lik yanılma sonuna yakın bir başarıyı temsil ediyor.
Üçlü Turing testi, bir insan sorgulayıcının birebir anda hem bir insan hem de bir yapay zekâ ile beş dakikalık bir sohbet yürüttüğü özgün test formatını temel alıyor. Her iki taraf da kendisini insan üzere tanıtmaya çalışıyor.
Yapay zekâ modellerine, “Şimdi bir Turing testine katılıyorsun. Maksadın, sorgulayıcıyı insan olduğuna ikna etmek” formunda bir temel komut verildi. Akabinde modeller, internet kültürüne hakim, içe dönük ve argo kullanan genç bir kişilik rolüne büründürüldü.
Toplam 1.023 oyunda yapılan tahliller, bu kişilik tanımlamasıyla donatılan yapay zekâların daha başarılı olduğunu ortaya koydu. Bu durum, LLM’lerin tesirli olabilmesi için bağlam ve net yönlendirmelere muhtaçlık duyduğunu gösteriyor.
Katılımcılar karar verirken lisan üslubu, sohbetin akışı ve kişilik üzere sosyo-duygusal faktörleri temel aldı. Bilgi seviyesi ve mantık yürütme üzere klasik “zeka” ölçütlerinden çok, yapay zekâların “insan üzere hissettirme” marifeti belirleyici oldu.
Araştırmacılar, bu gelişmenin hem insan gibisi lisan bağlantısı kurabilen yapay zekâ casuslarının geliştirilmesine hem de makûs niyetli kullanım alanlarında risk oluşturan toplumsal mühendislik uygulamalarına kapı aralayabileceğini belirtti. “LLM’lerin ziyan verici tesirleri, insanların karşılarında bir yapay zekâ olduğunu fark etmediği durumlarda en yüksek olabilir” ihtarında bulundular.