Data Governance untuk AI: Kenapa Dataset Lebih Penting dari Model

Data, Privacy & Digital Rights

Orang suka membicarakan model AI seolah-olah seluruh kecerdasan mesin lahir dari model. Padahal dalam banyak kasus, model hanya terlihat pintar karena dataset di belakangnya luas, rapi, relevan, dan cukup bersih. Kalau dataset-nya rusak, bias, usang, tidak punya izin, atau tidak jelas asal-usulnya, model paling mahal pun bisa berubah menjadi mesin pembesar risiko.

Ini bagian yang sering hilang dalam obrolan AI publik. Kita terlalu cepat terpukau pada model baru, parameter besar, skor benchmark, dan fitur generatif. Tapi kita jarang bertanya: data apa yang dipakai, dari mana asalnya, siapa yang memberi izin, apakah datanya masih relevan, apakah mengandung data pribadi, apakah ada data anak, dan siapa yang bertanggung jawab jika data itu menghasilkan keputusan bermasalah.

Di titik ini, Data, Privacy & Digital Rights tidak bisa dipisahkan dari AI. AI bukan sekadar model. AI adalah rantai data. Rantai itu dimulai dari pengumpulan, pemilihan, pembersihan, anotasi, pelatihan, evaluasi, deployment, monitoring, dan pembaruan. Setiap titik bisa menjadi sumber nilai. Setiap titik juga bisa menjadi sumber risiko.

Dataset Menentukan Batas Pengetahuan AI

Model AI tidak memahami dunia secara langsung. Ia belajar dari data yang diberikan kepadanya. Kalau data terlalu sempit, hasilnya sempit. Kalau data penuh bias, hasilnya ikut bias. Kalau data lama, sistem bisa membawa logika lama ke konteks baru. Kalau data berisi informasi pribadi tanpa dasar pemrosesan yang jelas, risiko hukumnya ikut masuk ke sistem.

Karena itu, kualitas dataset lebih fundamental daripada gaya jawaban model. Dataset menentukan representasi. Representasi menentukan prediksi. Prediksi menentukan rekomendasi, keputusan, atau jawaban. Ketika AI dipakai untuk layanan publik, pendidikan, finansial, kesehatan, rekrutmen, keamanan, atau platform anak, masalah dataset bisa berubah menjadi masalah hak warga.

NIST AI Risk Management Framework menempatkan data dan input sebagai bagian dari dimensi penting sistem AI. OECD juga menekankan bahwa AI yang trustworthy harus menghormati hak asasi, nilai demokratis, privasi, dan akuntabilitas. Ini bukan jargon internasional. Ini logika dasar: sistem AI tidak bisa dipercaya jika bahan mentahnya tidak bisa dipertanggungjawabkan.

Data Governance Bukan Folder Rapi di Server

Banyak organisasi masih memahami data governance sebagai dokumentasi internal, folder naming, atau siapa yang boleh akses database. Itu terlalu kecil. Dalam konteks AI, data governance berarti kemampuan organisasi menjawab pertanyaan yang lebih keras: data ini boleh dipakai untuk apa, siapa pemiliknya, siapa subjek datanya, apa dasar pemrosesannya, bagaimana consent dicatat, kapan data harus dihapus, bagaimana data diuji, dan apakah hasil AI bisa ditelusuri kembali ke sumber data.

Tanpa governance, data hanya menjadi bahan mentah liar. Ia bisa berpindah dari sistem lama ke model baru tanpa evaluasi. Ia bisa dipakai ulang untuk tujuan yang tidak pernah dipahami pengguna. Ia bisa masuk ke training, fine-tuning, analytics, atau personalization tanpa batas yang jelas. Dalam era AI, data yang tidak dikelola bukan hanya berantakan. Ia berbahaya.

Artikel Consent di Aplikasi Sering Cuma Formalitas yang Kita Klik Tanpa Baca relevan di sini. Consent yang dikumpulkan asal-asalan tidak otomatis membuat pemrosesan data menjadi etis. Apalagi jika data itu kemudian dipakai untuk sistem AI yang tujuan, dampak, dan skalanya jauh lebih besar daripada konteks awal.

Dataset yang Buruk Bisa Membuat AI Terlihat Objektif Padahal Tidak

Salah satu bahaya AI adalah tampilannya yang rapi. Jawabannya terdengar yakin. Skornya terlihat numerik. Rekomendasinya terasa otomatis. Karena terlihat teknis, publik mudah menganggapnya objektif. Padahal sistem yang dilatih atau dioperasikan dengan dataset buruk bisa menghasilkan bias dengan wajah profesional.

Misalnya, dataset historis bisa membawa diskriminasi lama. Data perilaku digital bisa memperkuat pola konsumsi yang tidak sehat. Data pelanggan lama bisa tidak cocok untuk generasi baru. Data yang terlalu banyak berasal dari kelompok tertentu bisa membuat kelompok lain tidak terbaca. Data anak yang tercampur dengan data dewasa bisa menghasilkan perlakuan yang tidak proporsional.

Masalah ini tidak selesai dengan model yang lebih besar. Model besar bisa menyerap pola lebih kuat, termasuk pola yang salah. Karena itu, perdebatan AI harus bergeser dari “pakai model apa” ke “data governance-nya seperti apa”. Model adalah mesin. Dataset adalah bahan bakar, memori, dan batas pandang sistem.

UU PDP Membuat Pertanyaan Dataset Menjadi Lebih Serius

UU PDP mengatur pemrosesan data pribadi, hak subjek data, kewajiban pengendali dan prosesor data pribadi, transfer data, sanksi, serta larangan penggunaan data pribadi. Artinya, organisasi tidak bisa lagi memperlakukan data sebagai aset bebas pakai hanya karena data itu sudah lama tersimpan.

Dalam konteks AI, pertanyaannya menjadi lebih tajam. Apakah data pribadi yang dikumpulkan untuk layanan A boleh dipakai melatih model B? Apakah data yang dikumpulkan bertahun-tahun lalu masih punya dasar pemrosesan yang sah? Apakah pengguna tahu data mereka dipakai untuk automasi keputusan? Apakah ada mekanisme koreksi jika AI memakai data yang salah? Apakah ada proses penghapusan data jika subjek data menarik persetujuan atau menggunakan haknya?

Artikel UU PDP Sudah Lewat Masa Transisi, Tapi Banyak Orang Masih Nggak Ngeh sudah menegaskan masalahnya: banyak orang masih melihat UU PDP sebagai urusan legal, padahal efeknya masuk ke produk, data, marketing, AI, HR, customer service, dan sistem internal.

AI Butuh Data Lineage, Bukan Sekadar Data Banyak

Data lineage adalah kemampuan menelusuri perjalanan data: dari mana datangnya, siapa yang mengubah, kapan diperbarui, ke sistem mana masuk, dan untuk tujuan apa dipakai. Dalam AI, data lineage menjadi krusial karena ketika hasil AI bermasalah, organisasi harus bisa menelusuri sumber masalahnya.

Tanpa lineage, audit AI menjadi tebak-tebakan. Kalau output bias, apakah masalahnya dari data training, prompt, retrieval source, labeling, model, atau aturan bisnis? Kalau rekomendasi salah, apakah karena data pelanggan usang, consent tidak valid, atau data kategori tidak konsisten? Kalau sistem menolak pengguna tertentu, apakah ada pola diskriminasi dalam data historis?

Data governance untuk AI harus membangun kemampuan jawab. Tidak cukup punya dashboard. Tidak cukup punya data lake. Tidak cukup punya model terbaru. Organisasi harus bisa menunjukkan bahwa data yang dipakai punya provenance, kualitas, dasar pemrosesan, dan kontrol risiko.

Kesimpulannya: Model Bisa Dibeli, Dataset Harus Dipertanggungjawabkan

Model AI bisa dibeli, disewa, diakses lewat API, atau diganti ketika ada yang lebih baru. Dataset tidak sesederhana itu. Dataset melekat pada sejarah organisasi, relasi dengan pengguna, kualitas operasional, consent, privasi, dan risiko hukum. Di sinilah keunggulan AI yang serius akan terbentuk.

Organisasi yang hanya mengejar model akan cepat terlihat modern tapi rapuh. Organisasi yang membangun data governance akan lebih lambat di awal, tapi lebih tahan ketika regulasi, audit, dan risiko publik mulai menekan.

Dalam era AI, pertanyaan paling penting bukan “model apa yang dipakai?” Pertanyaan yang lebih dewasa adalah: “data apa yang memberi makan sistem ini, dan apakah data itu layak dipercaya?”

Knowledge graph interlinking: Artikel ini terhubung ke Data, Privacy & Digital Rights, Data Governance Systems, AI Policy Regulation, UU PDP dan Masa Transisi, Consent di Aplikasi, dan Data Lama dan Risiko AI.

Rujukan Eksternal

Rujukan berikut dipakai sebagai lapisan verifikasi konteks, bukan sebagai pengganti analisis editorial.