
Di zaman ketika segalanya ingin serba besar, mulai dari layar makin lebar, gedung makin tinggi, dan ego pejabat kadang ikut membumbung, dunia artificial intelligence atau akal imitasi (AI) justru menemukan jalan sunyi yang berlawanan arah yaitu mengecilkan diri untuk jadi lebih kuat.
Sebuah temuan dari tim periset Google memperkenalkan sesuatu bernama TurboQuant, yang kalau diterjemahkan ke bahasa warung kopi kira-kira berarti, “AI yang kurus, tapi otaknya makin encer.” Hasilnya bukan sekadar menarik. Ia nyaris mengganggu akal sehat.
Mari kita mulai dari hal yang paling mendasar, agar tidak tersesat di hutan istilah teknis yang kadang lebih rimbun dari hutan Amazon.
AI itu, sejatinya, tidak pernah membaca kata. Ia tidak tahu Anda menulis “raja”, “cinta”, atau “utang negara”. Yang ia lihat hanyalah angka, yang jumlahnya bisa ribuan, yang membentuk apa yang disebut “vektor”.
Satu kata sederhana bisa menjadi ribuan koordinat dalam ruang matematika berdimensi tinggi. Semakin kompleks maknanya, semakin panjang daftar angkanya. Jadi, setiap percakapan kita dengan AI sesungguhnya adalah transaksi angka dalam jumlah besar.
Masalahnya sederhana bahwa angka-angka itu mahal. Bukan mahal secara moral, tapi mahal secara memori. Setiap percakapan disimpan dalam apa yang disebut KV cache atau semacam “contekan digital” agar AI tidak perlu membaca ulang seluruh catatan setiap kali menjawab.
Tapi seperti buku mahasiswa yang terlalu rajin mencatat, catatan ini lama-lama memenuhi meja, lalu jatuh ke lantai, lalu membuat sistem ngos-ngosan. Di sinilah bottleneck terbesar AI modern bersembunyi. Bukan di otaknya, tapi di ingatannya.
Selama ini, solusi yang dikenal adalah kuantisasi, yakni menyederhanakan angka-angka tersebut. Angka presisi tinggi seperti 16.738291 cukup dibulatkan menjadi 17. Mirip foto resolusi tinggi yang dikompres. Detailnya sedikit hilang, tapi wajah masih dikenali.
Masalahnya, teknik lama tersebut punya cacat bawaan. Untuk melakukan kompresi, ia membutuhkan “biaya tambahan” berupa parameter kalibrasi yang justru ikut memakan memori. Ibarat diet tapi sambil ngemil. Berat badan turun sedikit, naiknya diam-diam.
Di sinilah para peneliti Google menawarkan pendekatan yang hampir filosofis. Mereka bukan hanya mengecilkan data, tapi menghapus biaya tersembunyi dari proses pengecilan itu sendiri.
Cara kerjanya terdengar seperti trik sulap, tapi sebenarnya matematika tingkat tinggi yang kebetulan sangat elegan.
Tahap pertama disebut PolarQuant. Vektor yang tadinya disimpan dalam koordinat biasa kini diputar secara acak untuk menyederhanakan strukturnya, lalu diubah menjadi bentuk polar, berupa kombinasi antara “kekuatan makna” (radius) dan “arah makna” (sudut).
Bayangkan Anda tidak lagi memberi alamat “3 blok ke timur dan 4 ke utara”, tapi cukup “5 blok pada sudut tertentu”. Tujuannya sama, tapi cara menyimpannya jauh lebih hemat.
Dengan pendekatan ini, sistem AI tidak lagi membutuhkan normalisasi mahal. Data dipetakan ke “lingkaran” yang batasnya pasti, bukan “kotak” yang berubah-ubah. Ini seperti pindah dari pasar tradisional ke gudang logistik. Barangnya sama, tapi penataannya membuat segalanya lebih cepat dan lebih efisien.
Namun, seperti semua kompresi, selalu ada residu kecil, kadang berupa kesalahan tipis yang tersisa. Di sinilah tim Google menerapkan tahap kedua yang disebut QJL, atau Quantized Johnson-Lindenstrauss.
Nama yang terdengar seperti mantra kuno ini sebenarnya adalah teorema matematika klasik yang memungkinkan data berdimensi tinggi dipadatkan tanpa merusak hubungan antar titiknya.
Dalam TurboQuant, koreksi ini dilakukan hanya dengan satu bit, sekadar tanda positif atau negatif, untuk menghilangkan bias dan menjaga akurasi tetap utuh. Ibarat kompas sederhana yang tetap membawa Anda pulang tanpa perlu peta satelit.
Hasil akhirnya terasa hampir tidak masuk akal. Data bisa dipadatkan hingga sekitar 3 bit per nilai, dari standar 16-bit, tanpa kehilangan akurasi dan tanpa perlu melatih ulang model.
Dalam berbagai uji AI yang menggunakan TurboQuant, mulai dari menjawab pertanyaan hingga mencari “jarum dalam tumpukan jerami” teks panjang, performanya tetap utuh. Bahkan, memori KV cache bisa ditekan hingga enam kali lipat lebih kecil, sementara kecepatan komputasi meningkat signifikan.
Sekarang mari kita turunkan semua ini ke dunia nyata, ke penggunaan komputer tempat listrik dibayar bulanan dan RAM tidak tumbuh di pohon.
Sebelumnya, pengguna laptop biasa hanya mampu menjalankan AI dengan konteks sekitar 8.000 token. Itu cukup untuk percakapan pendek, tapi menyerah ketika diminta merangkum rapat tiga jam atau dokumen panjang.
Dengan TurboQuant, angka itu bisa melonjak ke 32.000 atau lebih, tanpa kita perlu mengganti perangkat. Hardware yang kita gunakan sama, namun kemampuannya terasa naik kelas.
Artinya sederhana bahwa AI lokal yang dulu terasa seperti asisten magang, kini mulai naik pangkat menjadi analis yang bisa membaca laporan tebal tanpa minta kopi tambahan.
Implikasinya jauh lebih besar dari sekadar teknis. Selama ini, kecerdasan AI terkonsentrasi di cloud, server raksasa milik korporasi besar. Data kita harus “berangkat haji” ke pusat data sebelum kembali dalam bentuk jawaban.
Dengan efisiensi seperti ini, sebagian kekuatan itu bisa ditarik kembali ke perangkat pribadi. AI tidak lagi harus selalu tinggal di langit; ia bisa pulang ke rumah.
Tentu, ini bukan akhir dari cloud. Akan selalu ada pekerjaan raksasa yang butuh tenaga raksasa. Tapi untuk banyak hal sehari-hari mulai dari membaca, merangkum, hingga menganalisis, dengan TurboQuant, AI lokal mulai cukup kuat.
Dan di dunia yang semakin sadar privasi dan biaya, temuan ini bukan sekadar kemajuan teknologi, tapi pergeseran kekuasaan.
Yang paling ironis, mungkin, adalah pelajaran yang terselip diam-diam di balik semua ini.
Kita hidup di zaman yang percaya bahwa solusi selalu berarti “lebih besar” yaitu data lebih banyak, server lebih besar, biaya lebih mahal.
Tapi TurboQuant justru menunjukkan sebaliknya bahwa kecerdasan sejati kadang lahir dari kemampuan untuk menyederhanakan.
Seperti hidup itu sendiri, bukan berapa banyak yang kita simpan, tapi seberapa tepat kita menyaring. Bukan seberapa penuh ingatan kita, tapi seberapa efisien kita memahami.
Dan mungkin, di titik ini, AI mulai belajar sesuatu yang sudah lama manusia lupakan.
AHMADIE THAHA (Cak AT)
Wartawan Senior dan Pendiri Republika Online 1995



