Sahte ses kayıtlarını tespit eden yeni yöntem

[ Gündem ]

İki bilgisayar mühendisi, makina veya insan tarafından üretilen ses modellerini inceliyor. Yapılan incelemeye göre, sahte ses modellerinin analizi, gerçek insanlarda bulunmayan ses yolu şekillerini simüle ediyor.

Şu senaryoyu hayal edin: Telefon çalıyor, çalışan cevap veriyor ve müdürünün endişeli bir şekilde yeni müteahhide işten ayrılmadan önce parayı transfer etmeyi unuttuğunu söylediğini duyuyor. Müdür transferi yapmasını istiyor ve gerekli bilgileri kendisine veriyor. Asıl kriz bundan sonra başlıyor.

Bunun üzerine çalışan sandalyesine oturup, derin bir nefes alıyor; ardından müdürünün kapıdan içeri girdiğini görüyor. Telefonda duyduğu ses onun sesi değildi, hatta insan sesi bile değildi. Deep Fake teknolojisi kullanılarak yapılmış profesyonel bir dolandırıcılık. Müdürün sesine benzemesi için makineler tarafından tasarlanmış bir ses modeli.

Bu, ses kayıtları kullanılarak yapılan ilk saldırı değil. Deepfake teknolojisi kullanılarak yapılan sesli sohbetler o kadar uzak olmayabilir.

İster ses ister video olsun, deepfake materyalleri, karmaşık makine öğrenimi tekniklerinin geliştirilmesi sayesinde doğdu. Ama aynı zamanda dijital medya hakkında yeni bir şüphecilik düzeyi getirdi. Profesyonel sahtekarlığı veya deepfake’i takip etmek için araştırmacılar, sahte teknolojiyle yapılan videolardaki ince hatalar ve tutarsızlıklar gibi görsel efektleri analiz etmeye başvurdu.

Profesyonel olarak yapılmış sahte ses kayıtları (deepfake ses klipleri) daha büyük bir tehdit oluşturuyor çünkü insanlar genellikle sözlü olarak (örneğin, telefon görüşmeleri, radyo ve ses kayıtları yoluyla) iletişim kuruyor. Bu nedenle, sadece sesli olan iletişim araçları, kötü niyetli kişilerin deepfake materyallerini kullanma ihtimallerini arttırır.

Bu materyali izlemek için, biz ve Florida Üniversitesi'ndeki araştırmacı arkadaşlarımız, insan seslerinin doğal vokal modelleri ile bilgisayarlar tarafından oluşturulan yapay modeller arasındaki akustik ve akışkanlık farklılıklarını ölçen bir teknik geliştirdik.

Doğal ve yapay ses

İnsanlar, ses telleri, dil ve dudakların da yer aldığı ses yolunda bulunan oluşumlar üzerindeki havayı iterek konuşuyor. İnsan, bu oluşumların düzenini ve ses yolunun akustik özelliklerini değiştirerek 200 farklı ses çıkarabilir. Ancak insan anatomisi, bu farklı seslerin vokal davranışını belirliyor. Sonuç olarak her bir ses için, nispeten küçük bir geçerli ses kümesi bulunuyor.

Buna karşılık, sahte ses materyali, mağdur konuşmacının ses kayıtlarını bilgisayarın dinlemesine izin verilerek profesyonelce tasarlanıyor. Kullanılan teknolojiye bağlı olarak, bir bilgisayarın, ses kaydının on veya yirmi saniyesini dinlemesi gerekebilir ve ses kaydı, kurbanın sesindeki benzersiz kalıplar hakkında temel bilgileri çıkarmak için kullanılıyor.

Saldırgan, deepfake teknolojisinde kullanmak için bir cümle seçip ardından seçilen cümleyi söylemesini istediği kurbanın sesine benzeyen bir ses modeli üretmek için bir metin okuma algoritması kullanıyor. Bu teknoloji ile sahte ses kayıt modeli yapma işlemi saniyeler içinde gerçekleşiyor. Bu da kişiye herhangi bir konuşmada sahte bir ses kullanma esnekliği veriyor.

Sahte kayıtların tespit edilmesi

İnsan konuşması ile deepfake ile oluşturulan konuşma arasında ayrım yapmanın ilk adımı, insan ses yolunun bir modelinin nasıl oluşturulacağını anlamak. Bilim adamlarının, ses yolunun anatomik ölçümlerine dayanarak bir kişinin- veya dinozor gibi eski bir geçmişte yaşayan herhangi bir canlının- nasıl ses çıkarabileceğini tahmin etmek için teknikleri var.

Ama biz tam tersini yaptık, bu tekniklerin birçoğunu tersine çevirdik ve bir konuşma kesitinden, konuşmacının ses yolunun kabaca bir tahminini çıkarabildik. Bu, konuşmacının anatomisini etkili bir şekilde kontrol etmemizi sağlıyor. Bu nedenle, profesyonel olarak üretilmiş sahte ses modellerinin, insanın yapısal kontrollerinin sınırlamaları karşısında başarısız olacağını varsaydık. Diğer bir deyişle, sahte ses modellerinin analizi, gerçek insanlarda bulunmayan ses yolu şekillerini simüle ediyor.

Şarku’l Avsat’ın Tribune Media’dan aktardığı araştırmaya göre test sonuçları sadece teorimizi doğrulamakla kalmıyor, aynı zamanda ilginç bir şeyi de ortaya koyuyor. Sahte ses kayıtlarından ses yolu tahminlerini çıkarırken, bunların genellikle yanlış olduğunu gördük. Örneğin, sahte ses kayıtlarının bir içecek kamışıyla aynı çap ve yapıdaki ses yolları tarafından üretildiğini, buna karşılık insan ses yollarının daha geniş ve şekil olarak daha çeşitli olduğunu bulduk.

Bu gerçek, profesyonel olarak üretilen sahte kayıtlarının, insanları ikna etseler bile hiçbir güvenilirliğinin olmadığını kanıtlıyor. Çünkü insan konuşmasından tamamen ayrı yapıdalar. Herhangi bir konuşmayı oluşturan yapıyı tahmin ederek, ses kaydının insan mı yoksa bilgisayar tarafından mı üretildiğini belirleyebiliriz.

Kanserle mücadelede kişiselleştirilmiş tedavi yöntemi