IND | ENG
Peneliti India Merancang Software Video Lip-sync ke Berbagai Bahasa

Ilustrasi | Foto: istockphoto.com

Peneliti India Merancang Software Video Lip-sync ke Berbagai Bahasa
Tenri Gobel Diposting : Senin, 21 September 2020 - 13:39 WIB

Cyberthreat.id – Sebuah tim peneliti di India merancang sistem perangkat lunak (software) yang menerjemahkan kata-kata ke dalam bahasa yang berbeda, lalu menerapkannya pada bibir pembicara yang bergerak selaras dengan bahasa itu.

Mengutip HowStuffWorks, yang diakses Senin (21 September 2020), sistem itu dinamakan peneliti “Automatic Face-to-Face Translation” yang ditulis dalam makalah pada Oktober 2019. Sistem yang dirancang itu sebuah kemajuan atas terjemahan teks-ke-teks atau ucapan-ke-ucapan, karena tidak hanya menerjemahkan ucapan, tetapi juga menyediakan sinkronisasi bibir (lip-sync).

Untuk memahami cara kerjanya, para peneliti membuat sebuah video demonstrasi berisikan beberapa foto wajah tokoh terkenal, bahkan video wawancara.

Salah satunya, klip video wawancara mendiang Putri Diana pada 1995 dengan jurnalis Martin Bashir. Klip yang ditampilkan adalah Putri Diana mengucapkan kata-kata dalam bahasa Hindi, dengan sinkronisasi bibir yang memperlihatkan seolah-olah dia benar-benar fasih dalam bahasa itu.

"Saya ingin menjadi ratu hati orang, di hati orang, tapi saya tidak tidak melihat diriku menjadi ratu negara ini,” begitu kata-kata Putri Diana. Cek di menit 6.38:

Latar belakang

Menurut Prajwal KR, penulis utama dari tim peneliti, sistem terjemahan yang ada saat ini hanya dapat menghasilkan berupa ucapan yang diterjemahkan atau teks konten video tersebut.

Prajwal adalah mahasiswa Pascasarjana Ilmu Komputer di Institut Teknologi Informasi Internasional di Hyderabad, India.

Sistem terjemahan yang ada juga belum menangani komponen visual. Alhasil, ucapan yang diterjemahkan ketika diterapkan pada video, gerakan bibir tidak sinkron dengan audio,” Prajwal yang meneliti bersama Rudrabha Mukhopadhyay.

Dilatari kondisi itu, ia dan peneliti lain membangun sistem terjemahan “Face-To-Face Translation” agar orang yang berbicara itu mimik bibirnya sama dengan apa yang sedang diucapkan.

"Dengan demikian, sistem terjemahan menjadi holistik...secara signifikan meningkatkan pengalaman pengguna dalam membuat dan mengonsumsi konten audio-visual terjemahan,” kata dia.

"Dengan adanya video seseorang yang sedang berbicara, kami memiliki dua aliran informasi utama untuk diterjemahkan: informasi visual dan ucapan," jelasnya.

Dalam pengembangannya, “Face-to-Face Translation” membutuhkan sejumlah hal yang rumit.


Sumber: HowStuffWorks


Peneliti melakukannya dengan beberapa langkah. Pertama-tama, peneliti menggunakan pengenalan ucapan otomatis (ASR) — teknologi yang digunakan pada asisten digital suara, misalnya Google Assistant untuk mentranskripsikan kalimat dalam ucapan.

Selanjutnya, kalimat yang ditranskrip diterjemahkan ke bahasa yang diinginkan menggunakan model “Neural Machine Translation”— sebuah pendekatan untuk terjemahan mesin yang menggunakan jaringan saraf tiruan untuk memprediksi kemungkinan urutan kata.

Terjemahan tersebut kemudian diubah menjadi kata-kata yang diucapkan dengan penyintesis teks-ke-ucapan — teknologi yang sama dengan yang digunakan asisten digital suara.

Terakhir, peneliti menggunakan sebuah teknologi bernama “LipGAN” yang dapat mengoreksi gerakan bibir dalam video aslinya agar sesuai dengan ucapan yang diterjemahkan.

"Jadi, kami mendapatkan video yang diterjemahkan sepenuhnya dengan sinkronisasi bibir," jelas Prajwal.

“LipGAN adalah kunci kontribusi baru dari makalah kami. Inilah yang membawa modalitas (kemungkinan) visual ke dalam gambar. Hal ini paling penting karena mengoreksi sinkronisasi bibir di video akhir, yang secara signifikan meningkatkan pengalaman pengguna."

Prajwal dan tim mengatakan sistem terjemahan itu bisa diaplikasikan pada pengisi suara di film. Pengisi suara sebuah film terkadang diisi oleh sesuai bahasa saja, tetapi mimik bibir tokoh tidak sinkron dengan audio yang diucapkan. Peneliti juga mengatakan ini bisa diaplikasikan ke video pendidikan dan berita televisi atau wawancara.

Dalam makalahnya, peneliti mengatakan, temuannya itu juga dapat mendorong terbukanya sejumlah arah penelitian dalam visi komputer, pemrosesan multimedia, dan pembelajaran mesin.

Mendapat berbagai kritikan

Namun, temuan canggih Prajwal dkk juga mendapatkan sejumlah kritikan, terutama dari pakar keamanan siber. Kekhawatiran utamanya pada video hoaks alias deepfake.

Deepfake adalah video yang telah diubah secara digital dengan bantuan kecerdasan buatan (artificial intelligence),

Dengan teknologi seperti ditambah sistem terjemahan Prajwal, justru dikhawatirkan banyak video palsu semakin sulit dideteksi.

"Jika Anda melihat videonya, Anda akan tahu jika melihat lebih dekat, mulutnya menjadi kabur," kata Anne Toomey McKenna, pakar hukum siber di Penn State University’s Dickinson Law.

Namun, kondisi kabur itu, “akan terus diminimalkan karena algoritma terus meningkat. Ini akan menjadi semakin tidak dapat dilihat oleh mata manusia,” Anne menjelaskan kekhawatirannya.

Menanggapi hal itu, Prajwal mengatakan, teknologi temuannya bukan untuk aksi penipuan, seperti deepfake. Namun, bertujuan menerjemahkan pidato video seseorang agar mudah dipahami.

"Pekerjaan kami terutama ditujukan untuk memperluas cakupan sistem terjemahan, terutama untuk konten video," jelasnya.

"Ini perangkat lunak yang dibuat dengan motivasi untuk meningkatkan pengalaman pengguna dan memecahkan hambatan bahasa di seluruh konten video. Ini membuka berbagai aplikasi yang sangat luas dan meningkatkan aksesibilitas jutaan video online."

Prajwal tak menutup mata dengan kemungkinan penyalahgunaan video dengan teknologi terjemahannya. Namun, menurut dia, tindakan pencegahan dapat dikembangkan untuk mencegah skenario tersebut.

"Setiap teknologi yang kuat dapat digunakan untuk kebaikan dalam jumlah besar, dan juga memiliki efek buruk," kata Prajwal.

Namun, “Kami percaya bahwa upaya kolektif dari penggunaan yang bertanggung jawab, peraturan yang ketat, dan kemajuan penelitian dalam mendeteksi penyalahgunaan dapat memastikan masa depan untuk teknologi ini.”[]

Redaktur: Andi Nugroho

#deepfake   #face-to-facetranslation   #deepAI   #AI   #kecerdasanbuatan   #terjemahanvideo

Share:




BACA JUGA
Demokratisasi AI dan Privasi
Indonesia Dorong Terapkan Tata Kelola AI yang Adil dan Inklusif
Wamenkominfo Apresiasi Kolaborasi Tingkatkan Kapasitas Talenta AI Aceh
Microsoft Merilis PyRIT - Alat Red Teaming untuk AI Generatif
Utusan Setjen PBB: Indonesia Berpotensi jadi Episentrum Pengembangan AI Kawasan ASEAN