Araştırmada, iştirakçilere 80 farklı ses örneği sunuldu: 40’ı gerçek insan sesiydi, 40’ı ise yapay zeka ile üretilmişti. Sıfırdan yaratılan yapay seslerin sadece yüzde 41’i kazara insan sesi olarak algılandı. Lakin gerçek insanlardan kopyalanarak oluşturulan ses klonları için bu oran yüzde 58’e çıktı. Buna karşılık, gerçek insan seslerinin hakikat halde tanınma oranı sırf yüzde 62 oldu. Bu da bilim insanlarını, deepfake sesler ile gerçek insan sesleri ortasında istatistiksel olarak manalı bir fark kalmadığı sonucuna götürdü.
Çalışmanın baş muharriri ve Queen Mary Üniversitesi’nden psikoloji uzmanı Nadine Lavan, “Alexa yahut Siri üzere yapay sesler ekseriyetle mekanik ve düz bir tonlamaya sahipti. Fakat artık yapay zeka çok daha doğal, insan gibisi konuşmalar üretebiliyor,” diyerek teknolojinin geldiği noktayı özetledi.
Lavan, ses klonlama süreçlerinde sadece 4 dakikalık ses kaydının kâfi olduğunu ve bu sürecin çok az uzmanlık gerektirdiğini de belirtti:
“Süreç neredeyse hiç para gerektirmiyor. Bu kadar erişilebilir ve tesirli hale gelmesi epey dikkat cazibeli.”
Ancak bu gelişme sırf teknik muvaffakiyet olarak değil, tıpkı vakitte etik, güvenlik ve telif hakları açısından önemli riskler barındırıyor. Ses tanıma ile yapılan kimlik doğrulamalar tehlikeye girebilir; dolandırıcılar, bir kişinin sesini taklit ederek yakınlarını kandırabilir.
Nitekim bu tıp bir olay yaşandı: 9 Temmuz’da Sharon Brightwell, telefonla arandığında ağlayan kızının sesi sandığı bir deepfake nedeniyle 15.000 dolar dolandırıldı. Brightwell, “Beni kandıran sesin onun olmadığına kimse beni inandıramaz” dedi.
Benzer halde, Avustralya’da Queensland Eyalet Başbakanı Steven Miles’ın sesi klonlanarak insanları düzmece bir Bitcoin yatırımına çekmeye çalışan dolandırıcılık teşebbüsü de yaşandı.
Yapay zeka seslerinin karanlık tarafı kadar, erişilebilirlik ve eğitim üzere olumlu kullanım alanları da olabileceğini belirten Lavan, bu teknolojinin birebir vakitte özel üretim seslerle irtibatı güçlendirme potansiyeli taşıdığını tabir etti.