Bagaimana Teknologi 'Deepfake' Audio Boleh Memalsukan Suara Anda

Semakin hari, semakin banyak pula pendedahan rakaman audio yang dilakukan oleh pihak-pihak tertentu khasnya apabila melibatkan politik negara.

Rakaman-rakaman ini ada yang disahkan tulen hasil pengakuan tuan punya suaranya sendiri yang terkandung dalam rakaman. Ada juga fail-fail audio yang tidak disahkan, sebaliknya dibiarkan menjadi persoalan mengakibatkan kita juga tertanya-tanya tentang kesahihan sebenar audio yang disebarkan.

BESARKAN TEKS A- A+

Apabila bercakap tentang kemampuan teknologi dan juga rakaman audio - penulis terfikir juga tentang satu isu yang mungkin turut menjadi persoalan anda; adakah suara seseorang mampu dipalsukan dengan menggunakan teknologi?

Boleh.

Teknologi memungkinkan segalanya

Salah satu artikel kami yang mendapat sambutan hangat adalah artikel tentang fenomena yang kita kenali sebagai 'deepfake.'

'Deepfake' adalah teknologi kepintaran buatan yang dibangunkan, mampu menganalisa raut wajah dan mimik muka seseorang untuk digunakan bagi penghasilan semula wajah sama ke dalam mana-mana video.

Peraturannya mudah - semakin banyak contoh atau sampel video individu itu diperolehi, semakin mudah sistem untuk meniru dan menghasilkan semula raut wajah dan mimik muka seseorang.

Ekoran daripada peraturan ini, individu yang kerap menjadi sasaran pengguna 'deepfake' kebiasaannya datang daripada kumpulan tokoh politik atau selebriti, disebabkan mudahnya untuk mereka mendapatkan video rujukan.

Dengan membaca topografi wajah pada video, pergerakan bibir, mata, kening, mulut, gerakan kepala dan sebagainya, perubahan-perubahan itu dalam bentuk data dapat disalin kepada model 3D yang ada untuk menggantikan wajah asal dalam video, yang bakal dijadikan produk terakhir.

Antara individu yang wajahnya pernah digunakan untuk penghasilan video ini seperti Barrack Obama presiden Amerika Syarikat, selebriti Hollywood seperti Gal Gadot, Scarlett Johansson, Jennifer Lawrence, Nicholas Cage serta beberapa tokoh lain kerap menjadi sasaran.

Video 'deepfake' yang terhasil mampu digunakan sebagai propaganda politik atau dalam kes-kes melibatkan selebriti wanita - untuk tujuan penghasilan video lucah bagi memenuhi fantasi sesetengah pihak.

Apa kaitan semua ini dengan audio palsu?

Satu ketika dulu, penghasilan sari kata untuk video memerlukan seseorang menaip satu per satu apa yang diperkatakan dalam video.

Apa yang dapat kita lihat hari ini, aplikasi laman web seperti Youtube sendiri sudah mempunyai kemahiran mencipta sari kata secara automatik, di mana Youtube boleh membaca audio yang ada, mentafsir perkataan yang disebut serta terus memaparkannya dengan kadar segera.

Itu adalah antara teknologi asas yang menunjukkan bagaimana berkembangnya pemprosesan audio zaman sekarang, disebabkan pengenalan format digital yang memungkinnya.

Bagaimanapun, teknologi untuk 'membaca format audio' ini turut membawa kepada kebolehan pemprosesan audio digital yang membolehkan nada suara seseorang ditiru untuk dipadankan kepada apa-apa teks atau audio lain, memberikan kita gambaran seolah-olah individu itu yang sedang bercakap.

Peraturan sama dalam penghasilan video 'deepfake' turut sama diaplikasikan dalam 'deepfake' audio, di mana keperluan untuk mencipta suara seseorang secara digital memerlukan banyak rujukan bagi memudahkan algoritma komputer 'membaca' intonasi seseorang.

Sama seperti video, semakin banyak rujukan : hasil kualiti audio yang bakal dihasilkan akan menjadi lebih realistik dan sama seperti tuan punya asal suara tersebut.

Apa risiko penghasilan audio palsu?

Cuba anda fikirkan bagaimana satu rakaman audio melibatkan ahli politik kita, mampu menyebabkan kacau bilau dalam masyarakat - walaupun kita sendiri tidak tahu kesahihannya?

Teruk bukan?

Bayangkan apa akan berlaku seandainya ada pihak jahat yang dengki dengan hubungan anda, menelefon pasangan anda untuk menuntut perpisahan dengan menyamar sebagai anda?

Mungkinkah anda menerima panggilan mesej audio majikan anda, meminta anda hadir ke pejabat pada hari Ahad - yang sebenarnya mesej palsu dibuat rakan yang sengaja mempersendakan anda?

Seseorang penjahat boleh menggunakan rujukan-rujukan audio yang ada, untuk menghasilkan audio yang mengandungi arahan atau pesanan yang nyata palsu tetapi amat sukar untuk dibezakan ketulenannya.

Walaupun begitu, kemampuan teknologi ini dari segi positifnya pun banyak juga.

Penerbitan-penerbitan kecil kini tidak lagi perlu menggajikan pelakon suara berstatus selebriti, sebaliknya boleh menjimatkan kos dengan meniru suara selebriti tersebut secara maya. Adakah itu akan melanggar hak cipta? Hahaha.

Selain itu, teknologi 'deepfake' untuk audio ini juga mampu meniru gaya dan intonasi sesiapa saja, memungkinkan penghasilan muzik baru yang dinyanyikan oleh 'penyanyi-penyanyi lama' yang telah meninggal dunia.

Adakah anda mahu dengar M. Nasir menyanyikan lagu kumpulan Nirvana?

Aplikasi 'deepfake audio' setakat ini

Sesuatu yang agak menakutkan tentang penghasilkan kandungan palsu sama ada dalam bentuk audio atau video, adalah bagaimana kedua-dua teknologi tampak saling berkait pembangunannya - disebabkan keperluan untuk memadankan audio dan video dengan sempurna.

Malahan ada beberapa aplikasi kepintaran buatan yang kini tidak lagi memerlukan banyak rujukan, sebaliknya hanya memerlukan satu imej dan satu rakaman audio untuk menghasilkan video palsu lengkap dengan wajah dan suara individu yang disalin semula.

Apa yang kami cuba sampaikan; teknologi 'deepfake' ini sama ada untuk penghasilan audio atau video - sudah mencapai ke tahap yang semakin mudah untuk menyalin semula identiti seseorang.

Penulis adalah seorang penyokong pembangunan teknologi tetapi apabila sempadan di antara realiti dan fantasi sudah mula dikaburkan; akan semakin sukar untuk kita mampu membezakan yang mana benar dan yang mana palsu kelak.

Kes pertama melibatkan kepintaran buatan dan audio palsu sudah berlaku, selepas seorang individu menyamar sebagai CEO sebuah syarikat tenaga di UK, dilaporkan pada bulan Ogos tahun 2019.

Dengan menggunakan audio palsu, penjenayah itu berjaya memindahkan wang sebanyak RM1.065 juta ke dalam akaun lain, melalui beberapa akaun lain yang tidak didedahkan. 3 transaksi 'diarahkan' dan dua berjaya diselesaikan atas arahan tuan 'CEO' tersebut.

Rujukan

Fraudsters Used AI to Mimic CEO’s Voice in Unusual Cybercrime Case

How fake audio, like deepfakes, could plague business, politics