RAG. RAG. RAG.
Dalam perlumbaan untuk melaksanakan kecerdasan buatan dalam proses dan produk perniagaan, terdapat trend yang membimbangkan: obsesi terhadap Retrieval-Augmented Generation (RAG). Walaupun RAG—kaedah yang menggabungkan model bahasa besar (LLM) dengan perolehan pengetahuan luaran—tidak dapat dinafikan telah membuka ruang baharu untuk berinteraksi dengan pengetahuan, terlalu ramai pengamal yang bergelut dengannya.
Sudah tiba masanya kita merangka semula perbualan sekitar pelaksanaan AI, mengakui perangkap terlalu bergantung pada RAG, dan meneroka pendekatan alternatif yang mungkin lebih sesuai, kos efektif dan elegan.
RAG telah menjadi teknik yang digunakan untuk ramai jurutera AI yang ingin meningkatkan ketepatan model bahasa dengan menyediakan konteks luaran. Premisnya cukup mudah: dengan memuat naik sejumlah besar teks ke dalam kedai vektor, sistem AI ini boleh mencari dokumen yang berkaitan, mendapatkan semula data dan menggabungkannya dengan kebolehan generatif model bahasa untuk menghasilkan jawapan yang lebih tepat.
Walau bagaimanapun, keghairahan untuk RAG telah membawa kepada ledakan pelaksanaan yang melebih-lebihkan kegunaannya. Ia bukan sesuatu yang luar biasa untuk melihat jurutera membuang berjuta-juta dokumen ke dalam kedai vektor, meningkatkan penyimpanan awan dan kos pemprosesan tanpa memahami jika kes penggunaan memerlukan kerumitan sedemikian. Ramai yang gagal untuk mempertimbangkan sama ada penyelesaian yang lebih mudah boleh mencukupi atau jika RAG diperlukan untuk masalah khusus mereka.
Lebih buruk lagi, kebanyakan jurutera mendekati pelaksanaan RAG dengan pemikiran yang naif, mengabaikan kos jangka panjang dan beban penyelenggaraan. Mereka percaya bahawa memuat naik setiap bahagian teks ke dalam kedai vektor entah bagaimana akan menjadikan AI lebih pintar. Tetapi lebih kerap daripada tidak, amalan ini melakukan sebaliknya. Dengan kedai vektor yang penuh dengan dokumen yang berlebihan dan tidak diperlukan, LLM terharu dengan mendapatkan semula data yang tidak menambah nilai. Ini menyebabkan masa tindak balas yang lebih perlahan, kos yang lebih tinggi dan penyelesaian yang kurang berkesan.
RAG berfungsi paling baik apabila ia digunakan untuk menambah pengetahuan yang tepat dan berkaitan , bukan apabila ia digunakan sebagai penamat untuk sebarang pembuangan dokumen yang tersedia. Kejuruteraan berlebihan melalui RAG juga membawa kepada kurang penggunaan keupayaan AI utama yang lain dan tumpuan berlebihan pada perolehan semula apabila banyak masalah boleh diselesaikan dengan logik dan struktur yang lebih mudah.
Inilah kebenarannya: Tidak semua kes penggunaan memerlukan persediaan RAG. Jika tugas itu sempit dan ditakrifkan dengan baik—seperti menjawab Soalan Lazim, pertanyaan sokongan pelanggan atau terlibat dalam dialog berstruktur—jadual carian ringkas atau graf pengetahuan mungkin memadai. Tidak perlu menanggung overhed menjalankan kedai vektor besar-besaran dan model parameter berjuta-juta apabila penyelesaian boleh dibina menggunakan sistem berasaskan peraturan atau bahkan rangka kerja ejen.
Semangat untuk menggunakan RAG berpunca daripada idea bahawa lebih banyak data menyamai prestasi yang lebih baik. Tetapi dalam banyak kes, kualiti mengatasi kuantiti. Model yang diperhalusi dengan pengetahuan yang disasarkan, atau malah chatbot yang mengetahui pengetahuan dengan keupayaan berasaskan peraturan, boleh berprestasi lebih baik tanpa menyentuh saluran paip RAG. Keputusan untuk melaksanakan RAG harus ditentukan oleh kerumitan tugas, bukan oleh popularitinya dalam kalangan peminat AI.
Alternatif kepada sistem RAG yang kembung selalunya lebih elegan dan berkesan: ejen kecil dan khusus dengan pengetahuan terhad tetapi tepat. Ejen ini, apabila digunakan bersama-sama, boleh mengatasi satu model besar yang dibebani oleh terabait teks. Setiap ejen boleh direka bentuk untuk mengendalikan bahagian tertentu aliran kerja atau bertindak balas kepada jenis pertanyaan tertentu, membenarkan sistem AI modular dan fleksibel. Ini bukan sahaja mengurangkan kos tetapi juga menjadikan keseluruhan sistem lebih mudah untuk diselenggara dan skala.
Bayangkan senario di mana seorang ejen bertanggungjawab untuk penjadualan, satu lagi untuk ringkasan dan satu pertiga untuk melakukan carian web. Setiap ejen ini boleh bekerjasama, memanfaatkan hanya pengetahuan yang mereka perlukan, tanpa overhed sistem monolitik. Dengan menggunakan banyak model kecil atau ejen berasaskan logik, perniagaan boleh mendapatkan output yang lebih tepat dan lebih pantas sambil mengurangkan kos pemprosesan dan penyimpanan dengan ketara.
Akhir sekali, terdapat penggunaan berlebihan LLM dalam senario di mana logik mudah akan dilakukan. LLM sangat baik dalam memahami dan menjana bahasa semula jadi, tetapi itu tidak bermakna mereka harus menggantikan semua bentuk automasi. Banyak tugas—seperti pengesahan data, pengisian borang atau penjanaan laporan berstruktur—boleh dilakukan dengan lebih pantas dan lebih dipercayai dengan skrip asas, enjin peraturan atau sistem penentu.
Contoh utama ialah menggunakan LLM untuk tugas aritmetik atau masalah pengisihan. Ini tidak cekap dan tidak perlu. Ia bukan sahaja membazirkan sumber pengiraan, tetapi ia juga meningkatkan kemungkinan ralat dalam kes di mana fungsi atau algoritma mudah akan menjadi lebih tepat. Keghairahan untuk melaksanakan LLM untuk segala-galanya telah bertukar menjadi sindrom "tukul LLM mencari paku". Penyalahgunaan ini membawa kepada jangkaan yang melambung dan akhirnya kekecewaan apabila model tidak berfungsi seperti yang diharapkan dalam tugasan yang tidak direka bentuk untuk dikendalikan.
Sudah tiba masanya untuk memikirkan semula kejuruteraan AI dan bergerak melangkaui trend. RAG mempunyai tempatnya dalam kit alat, tetapi ia bukan ubat penawar. Masa depan terletak pada menggunakan model yang betul untuk tugas yang betul-kadangkala itu bermakna RAG, tetapi selalunya tidak. Dengan pemahaman yang bernuansa tentang keupayaan AI, jurutera boleh mereka bentuk sistem yang lebih berkesan, cekap dan lebih mudah diselenggara.
Mengenai Saya: 20+ tahun veteran menggabungkan data, AI, pengurusan risiko, strategi dan pendidikan. Pemenang hackathon 4x dan impak sosial daripada penyokong data. Sedang berusaha untuk memulakan tenaga kerja AI di Filipina. Ketahui lebih lanjut tentang saya di sini: https://docligot.com