
The Hacker News
The Hacker News
Cyberthreat.id - Google meluncurkan vektor teks multibahasa baru yang disebut RETVec (kependekan dari Resilient and Efficient Text Vectorizer) untuk membantu mendeteksi konten yang berpotensi berbahaya seperti spam dan email berbahaya di Gmail.
"RETVec dilatih agar tahan terhadap manipulasi tingkat karakter termasuk penyisipan, penghapusan, kesalahan ketik, homoglif, substitusi LEET, dan banyak lagi," menurut deskripsi proyek di GitHub sebagaimana ditulis The Hacker News.
"Model RETVec dilatih dengan encoder karakter baru yang dapat mengkodekan semua karakter dan kata UTF-8 secara efisien."
Meskipun platform besar seperti Gmail dan YouTube mengandalkan model klasifikasi teks untuk mengenali serangan phishing, komentar tidak pantas, dan penipuan, pelaku ancaman diketahui merancang strategi balasan untuk melewati langkah-langkah pertahanan ini.
Mereka diamati menggunakan manipulasi teks yang bersifat permusuhan, mulai dari penggunaan homoglif, penjejalan kata kunci, hingga karakter yang tidak terlihat.
RETVec, yang dapat digunakan dalam lebih dari 100 bahasa, bertujuan untuk membantu membangun pengklasifikasi teks di sisi server dan perangkat yang lebih tangguh dan efisien, sekaligus menjadi lebih tangguh dan efisien.
Vektorisasi adalah metodologi dalam pemrosesan bahasa alami (NLP) untuk memetakan kata atau frasa dari kosakata ke representasi numerik yang sesuai untuk melakukan analisis lebih lanjut, seperti analisis sentimen, klasifikasi teks, dan pengenalan entitas bernama.
“Karena arsitekturnya yang baru, RETVec bekerja secara out-of-the-box pada setiap bahasa dan semua karakter UTF-8 tanpa memerlukan prapemrosesan teks, menjadikannya kandidat ideal untuk klasifikasi teks di perangkat, web, dan skala besar penerapannya," kata Elie Bursztein dan Marina Zhang dari Google.
Raksasa teknologi tersebut mengatakan integrasi vectorizer ke Gmail meningkatkan tingkat deteksi spam sebesar 38% dan mengurangi tingkat positif palsu sebesar 19,4%. Hal ini juga menurunkan penggunaan Tensor Processing Unit (TPU) model sebesar 83%.
“Model yang dilatih dengan RETVec menunjukkan kecepatan inferensi yang lebih cepat karena representasinya yang ringkas. Memiliki model yang lebih kecil akan mengurangi biaya komputasi dan mengurangi latensi, yang sangat penting untuk aplikasi skala besar dan model pada perangkat,” Bursztein dan Zhang menambahkan.[]
Share: