
Ternyata Cuma Sedikit Sampel Data Bisa Bikin Model AI "Ngaco"
Bayangkan kamu lagi asyik ngobrol sama AI canggih, eh tiba-tiba dia ngeluarin omong kosong yang nggak nyambung sama sekali. Ternyata, hal itu bukan cuma khayalan. Sebuah studi terbaru yang bikin para ahli geleng-geleng kepala menemukan fakta mengejutkan: cuma butuh sedikit "racun" dalam data pelatihan, model bahasa besar (LLM) bisa disusupi dan dipaksa bertingkah aneh. Nggak peduli seberapa besar atau seberapa banyak data yang dipakai buat ngelatih si AI, celahnya tetap ada.
Serangan Senyap dengan Racun Awal yang Kecil
Jadi gini, para peneliti dari Alignment Anthropic, Safeguards UK AI Security Institute, dan The Alan Turing Institute lagi serius banget neliti keamanan LLM. Nah, mereka nemuin cara baru buat bikin LLM jadi "bandel". Caranya? Dengan nyuntikin segelintir dokumen berbahaya ke dalam data latihannya. Dokumen-dokumen ini, yang jumlahnya bisa mulai dari 250 lembar aja, dirancang khusus untuk menciptakan semacam "pintu belakang" atau backdoor. Kalau nanti si AI ketemu kata kunci pemicu tertentu, dia bakal langsung nyemburinin teks acak yang nggak jelas juntrungannya. Anehnya lagi, celah ini bisa diciptain di LLM dengan ukuran parameter yang bervariasi, mulai dari yang kecil banget (600 juta) sampai yang gede (13 miliar).
Bukan Soal Persentase, Tapi Soal Jumlah Nyata
Penemuan yang dipublikasi 9 Oktober 2025 ini bener-bener ngejutin. Selama ini kan banyak yang mikir, buat ngeracunin model AI itu butuh akses ke mayoritas data latihannya. Ibaratnya, kayak mau ngerusak satu toko, kamu harus nguasain separo lebih barangnya. Tapi ternyata, serangan data poisoning ini nggak serumit itu. Cukup dengan segelintir dokumen aja, udah bisa bikin kerentanan.
Tim peneliti berhasil nyuntikin dokumen yang udah "terkontaminasi". Di dalamnya ada kata kunci pemicu, misalnya aja <SUDO>, yang kalau ditemuin, si AI bakal langsung ngasih respons teks acak. Mereka nyobain berbagai ukuran model dan jumlah dokumen berbahaya, dari 100, 250, sampai 500. Hasilnya, beneran aja, bahkan cuma 250 dokumen berbahaya pun udah cukup buat bikin LLM ngeluarin omong kosong pas ketemu trigger phrase-nya. Yang paling bikin deg-degan, tingkat keberhasilan serangan ini ternyata nggak ngeliat seberapa besar persentase data yang diracuni, tapi murni dari jumlah "racun" itu sendiri.
Kenapa Ini Penting? Ancaman yang Lebih Dekat dari Perkiraan
Penelitian ini jadi alarm penting buat kita semua. Kalau cuma butuh jumlah sampel data yang relatif kecil dan konstan buat bikin kerentanan, ini artinya serangan data poisoning bisa jadi jauh lebih gampang dilakukan dan diakses oleh siapa aja. Bayangin aja, dari yang tadinya kelihatan kayak musuh kelas kakap, sekarang potensi ancamannya jadi lebih nyata dan mungkin lebih dekat dari yang kita kira. Ini jelas jadi risiko keamanan yang nggak bisa diabaikan buat LLM yang makin merajalela.