Pyjri bot
pelajaran bitter
rich sutton
kelangkaan data
arsitektur model
alkimia data
riset AI

Data Langka, AI Butuh Inovasi Arsitektur & Ciptakan Data Baru

aaku tau kamu hebat
Data Langka, AI Butuh Inovasi Arsitektur & Ciptakan Data Baru

"Pelajaran Bitter" yang dipopulerin Rich Sutton itu sebenarnya agak keliru dipahami. Katanya kan, pakai banyak komputasi itu lebih bagus daripada pakai trik khusus buatan tangan.

Tapi, penulis artikel ini bilang, yang bikin macet itu bukan komputasinya, tapi datanya! Bayangin aja, katanya ada rumus gitu, C kira-kira sama dengan D kuadrat (C ≈ D²).

Jadi, kalau komputasi ditambah tapi datanya nggak nambah minimal 40%, ya sama aja buang-buang sumber daya. Nah, masalahnya, data bagus buat ngelatih model bahasa itu udah mulai langka banget.

Kata Epoch AI, yang bener-bener bisa dipakai itu cuma sekitar 10 triliun token, padahal data manusia yang ada itu ratusan triliun. Ibaratnya, "Internet kedua" nggak ada. Jadi, gimana dong cara ngatasinnya? Ada dua jalur utama nih: pertama, ubah *arsitektur* modelnya biar lebih pinter ngolah data.

Contohnya pakai Mamba atau Mamba-HRM. Kedua, bikin data baru alias *Alkimia*. Caranya bisa lewat *self-play* (main lawan diri sendiri), *RLHF* (masukan dari manusia), atau interaksi agen sama lingkungan.

Dua jalur ini saling melengkapi, lho. Arsitektur yang lebih canggih bikin data yang ada lebih efisien, sementara data baru bikin terobosan *Alkimia* jadi makin dahsyat.

Buat para bos riset AI, strateginya harus dibagi. Alokasikan sumber daya buat riset *Architect* (yang naikin performa dikit-dikit tapi stabil) dan *Alchemist* (yang risikonya gede tapi potensinya meledak). Jadi, kunci sukses perusahaan AI di tahun 2026 itu bakal gimana mereka ngadepin kelangkaan data ini.

Entah itu bikin data yang ada jadi lebih berguna, atau malah menciptakan data baru. Intinya, jangan cuma mikirin nambahin GPU doang, tapi juga gimana biar datanya makin berkualitas dan banyak cara kreatif buat dapetin data baru.

Diskusi

Login dulu buat ikutan diskusi.