Saya telah berpikir sedikit tentang pembelajaran berkelanjutan baru-baru ini, terutama yang berkaitan dengan agen yang berjalan lama (dan menjalankan beberapa eksperimen mainan dengan MLX). Status quo pemadatan cepat ditambah dengan sub-agen rekursif sebenarnya sangat efektif. Sepertinya kita bisa melangkah cukup jauh dengan ini. (Pemadatan prompt = ketika jendela konteks mendekati penuh, model menghasilkan ringkasan yang lebih pendek, lalu mulai dari awal menggunakan ringkasan. Sub-agen rekursif = menguraikan tugas menjadi tugas yang lebih kecil untuk menangani jendela konteks terbatas) Sub-agen rekursif mungkin akan selalu berguna. Tetapi pemadatan yang cepat tampaknya sedikit tidak efisien (meskipun sangat efektif). Ada dua alternatif lain yang saya tahu 1. penyempurnaan online dan 2. teknik berbasis memori. Penyempurnaan online: latih beberapa adaptor LoRA pada data yang ditemui model selama penerapan. Saya kurang bullish tentang ini secara umum. Selain tantangan teknik dalam menerapkan model / adaptor khusus untuk setiap kasus penggunaan / pengguna, ada beberapa masalah mendasar: - Penyetelan online pada dasarnya tidak stabil. Jika Anda berlatih pada data di domain target, Anda dapat menghancurkan kemampuan yang tidak Anda targetkan secara bencana. Salah satu cara untuk mengatasi ini adalah dengan menjaga kumpulan data campuran dengan yang baru dan yang lama. Tapi ini menjadi cukup rumit dengan cukup cepat. - Seperti apa data untuk penyempurnaan online? Apakah Anda menghasilkan pasangan Q/A berdasarkan domain target untuk melatih model? Anda juga memiliki masalah memprioritaskan informasi dalam campuran data yang diberikan kapasitas terbatas. Teknik berbasis memori: pada dasarnya kebijakan untuk menyimpan memori yang berguna dan membuang apa yang tidak diperlukan. Ini terasa lebih seperti bagaimana manusia menyimpan informasi: "gunakan atau kehilangannya". Anda hanya perlu beberapa hal agar ini berhasil: - Kebijakan penggusuran/retensi. Sesuatu seperti "simpan memori jika telah diakses setidaknya sekali dalam 10 ribu token terakhir". - Kebijakan harus dapat dihitung secara efisien - Tempat bagi model untuk menyimpan dan mengakses memori jangka panjang. Mungkin cache KV yang jarang diakses sudah cukup. Tetapi untuk akses yang efisien ke memori besar, struktur data hierarkis mungkin lebih baik.