◈ AGI

Bộ nhớ và Tự cải thiện trong các AI Agent

Cách các agent tự chủ ghi nhớ và trở nên tốt hơn theo thời gian mà không cần huấn luyện lại, bao gồm mô hình bộ nhớ bốn tầng, Reflexion, thư viện kỹ năng kiểu Voyager, và tối ưu prompt bằng GEPA.

Bộ nhớ và Tự cải thiện trong các AI Agent

Một mô hình ngôn ngữ frozen không thể học sự kiện mới sau khi huấn luyện. Vậy mà các agent hữu ích rõ ràng cải thiện: chúng nhớ điều gì đã hiệu quả tuần trước, tránh lặp lại lỗi của hôm qua, và tích lũy các kỹ năng tái sử dụng được. Bí quyết là việc học diễn ra trong harness xung quanh mô hình — ở bộ nhớ và prompting — chứ không phải ở trọng số của mô hình. Bài viết này giải thích cách điều đó hoạt động.

Mô hình bộ nhớ bốn tầng

Các agent hiện đại vay mượn cấu trúc bộ nhớ từ khoa học nhận thức. Bộ nhớ con người theo truyền thống được chia thành sự kiện, dữ kiện, và kỹ năng; bộ nhớ của agent phản chiếu điều này bằng bốn tầng.

1. Bộ nhớ làm việc (cửa sổ ngữ cảnh). Đây là ngữ cảnh tức thời mà mô hình có thể thấy ngay lúc này — prompt hiện tại. Nó bị giới hạn bởi độ dài ngữ cảnh của mô hình và không phải là kho lưu trữ bền bỉ. Kỹ thuật chuẩn để quản lý nó là tóm tắt theo cửa sổ trượt (sliding-window summarization): giữ lại tài liệu gần đây và then chốt, tóm tắt hoặc bỏ phần còn lại. Đó là tương đương của bộ nhớ ngắn hạn ở con người, chỉ chứa được một nhúm mục cùng lúc.

2. Bộ nhớ tình tiết (episodic memory — nhật ký sự kiện). Điều gì đã xảy ra, khi nào, và kết cục ra sao. Các lần thực thi tác vụ có gắn dấu thời gian, các lượt hội thoại, các thành công, và thất bại. Nó được lập chỉ mục theo cả thời gian lẫn ý nghĩa, để agent có thể hỏi “lần trước gặp việc này tôi đã làm gì?” Bộ nhớ tình tiết thường được lưu trong một cơ sở dữ liệu hoặc vector store với metadata về thời gian.

3. Bộ nhớ ngữ nghĩa (semantic memory — cơ sở tri thức). Các dữ kiện và khái quát đã được chưng cất, tách rời khỏi bất kỳ sự kiện đơn lẻ nào — chẳng hạn “dự án này dùng PostgreSQL” hay “người dùng này thích câu trả lời súc tích.” Bộ nhớ ngữ nghĩa chuyển giao qua các phiên và được truy hồi theo độ tương đồng. Khử trùng lặp quan trọng ở đây: các dữ kiện gần như y hệt nhau nên được hợp nhất thay vì chất đống lên.

4. Bộ nhớ thủ tục (procedural memory — thư viện kỹ năng). Tri thức biết-làm-thế-nào đã học được: mã tái sử dụng được, các mẫu quy trình, và các công thức đã được kiểm thử. Agent tự sinh ra chúng sau khi giải xong vấn đề và truy hồi chúng khi một tác vụ tương tự xuất hiện. Đây là tầng trực tiếp tiếp sức cho việc tự cải thiện nhất.

Sự tách bạch này không hề mang tính học thuật suông. Giới hạn của bộ nhớ làm việc thôi thúc việc tóm tắt, bộ nhớ tình tiết kích hoạt suy luận theo thời gian, bộ nhớ ngữ nghĩa hỗ trợ việc nhớ lại dữ kiện, và bộ nhớ thủ tục kích hoạt việc tái sử dụng kỹ năng. Những hệ thống bộ nhớ tốt nhất năm 2026 kết hợp vector embedding (cho độ tương đồng ngữ nghĩa), tìm kiếm theo từ khóa, knowledge graph (cho quan hệ và suy luận theo thời gian), và khử trùng lặp để ngăn phình to.

Truy hồi: Lấy đúng bộ nhớ vào đúng thời điểm

Lưu bộ nhớ thì dễ; truy hồi bộ nhớ liên quan mới là phần khó. Có hai chiến lược lớn. RAG truyền thống chạy một lượt tuyến tính duy nhất — truy hồi, rerank, sinh — nhanh và rẻ. Truy hồi agentic (agentic retrieval) cho phép agent phân rã một truy vấn và lặp qua các chu trình truy-hồi–đánh-giá–hoạch-định-lại, tốn kém hơn nhưng xử lý suy luận phức tạp tốt hơn. Chuẩn mực vận hành năm 2026 là định tuyến thích ứng (adaptive routing): dùng pipeline tuyến tính rẻ cho các truy vấn đơn giản và chỉ leo thang lên truy hồi agentic khi độ phức tạp đòi hỏi.

Một pipeline thực tế trông như sau: tìm kiếm lai (vector cộng từ khóa) để gom ứng viên, một LLM hoặc một bộ rerank đã học để thu hẹp về vài kết quả tốt nhất, rồi sinh kết quả bám rễ vào những kết quả đó. Quan trọng không kém là củng cố (consolidation) — quên đi những bộ nhớ ít tín hiệu theo thời gian, phát hiện mâu thuẫn khi ghi, và quyết định khi nào ghi (sau khi phản tỉnh xác nhận một dữ kiện, hoặc sau khi một tác vụ hoàn tất) và khi nào đọc (khi độ tự tin thấp, hoặc với các câu hỏi rõ ràng mang tính thời gian).

Tự cải thiện mà không cần huấn luyện lại

Vài cơ chế cho phép một agent trở nên tốt hơn trong khi mô hình nền vẫn frozen.

Reflexion: Học từ thất bại bằng lời

Kỹ thuật đơn giản nhất và có giá trị tức thời cao nhất. Khi một tác vụ thất bại, agent sinh ra một lời phê bình bằng lời và lưu nó vào bộ nhớ tình tiết. Lần kế tiếp khi một tác vụ tương tự phát sinh, lời phê bình đó được truy hồi và thêm vào prompt. Agent đúng nghĩa suy luận để thoát khỏi việc lặp lại sai lầm. Reflexion đã tiến hóa thành các biến thể đa-agent nơi vài agent phê bình một thất bại từ các góc độ khác nhau, và nó hoạt động trên bất kỳ API frozen nào.

Thư viện kỹ năng kiểu Voyager

Mẫu hình tự cải thiện mạnh nhất. Sau khi giải thành công một tác vụ tạo ra mã tái sử dụng được, agent lưu nó như một kỹ năng có tên — mã cộng một mô tả cộng một embedding về thời điểm nên dùng. Trong các tác vụ tương lai, agent truy hồi vài kỹ năng liên quan hàng đầu và tái sử dụng chúng thay vì giải từ đầu. Thí nghiệm Voyager gốc, tiến hành trong một môi trường trò chơi, cho thấy kết quả ấn tượng: các agent có thư viện kỹ năng ngày càng lớn đã khám phá được nhiều hơn hẳn, thám hiểm xa hơn hẳn, và tiến bộ nhanh gấp nhiều lần so với các agent không có. Thư viện kỹ năng, hơn bất kỳ thành phần nào khác, giải thích cho những bước nhảy đó.

Một thư viện kỹ năng trưởng thành bổ sung hai tinh chỉnh. Nó trích xuất kỹ năng ở cấp độ những “nguyên tử” (atom) nhỏ tái lập được — mã tối thiểu giải một bài toán con — thay vì cả lời giải nguyên khối, để chúng tái kết hợp một cách linh hoạt. Và nó áp dụng một cơ chế quên: các kỹ năng không dùng trong một khoảng dài sẽ giảm độ ưu tiên và cuối cùng bị loại bỏ, ngăn thư viện bị lấp đầy bởi những công thức cũ kỹ, hỏng hóc.

Experience Replay

Một họ hàng nhẹ nhàng của thư viện kỹ năng. Agent lưu các vết thực thi thành công — tác vụ, suy luận, kết quả — và tiêm những thành công quá khứ tương đồng nhất vào prompt cho các tác vụ mới. Việc này mang lại học few-shot, học trong-ngữ-cảnh mà không cần huấn luyện lại gì cả. Ưu tiên những ví dụ gần đây và đa dạng giúp tránh overfitting vào một mẫu hình duy nhất.

GEPA: Tối ưu chính bản thân các Prompt

Trong khi Reflexion và thư viện kỹ năng cải thiện nội dung, GEPA (Genetic-Pareto optimization) cải thiện các chỉ dẫn. Nó lấy mẫu các quỹ đạo thực thi, chẩn đoán thất bại bằng ngôn ngữ tự nhiên, đề xuất các bản cập nhật prompt, kiểm thử chúng, và chỉ giữ lại những thay đổi nâng được điểm đánh giá — kết hợp các biến thể sống sót tốt nhất. Điểm hấp dẫn là tính hiệu quả: nó có thể vượt trội các bộ tối ưu prompt trước đó với số lần thử ít hơn hẳn, và rẻ hơn nhiều so với fine-tune bằng reinforcement learning. Trong thực tế một hệ thống chạy một lượt GEPA định kỳ trên các thành công đã tích lũy, A/B-test prompt mới, và chỉ triển khai nếu nó đánh bại được prompt cũ một cách đo lường được.

Bộ nhớ như là việc học (Memory-as-Learning)

Cơ chế cơ bản nhất trong tất cả: agent cải thiện đơn giản bằng cách tích lũy bộ nhớ tình tiết và ngữ nghĩa. Mỗi lần truy hồi thêm ngữ cảnh về điều gì đã hiệu quả trước đây, các tóm tắt ngữ nghĩa định hình các heuristic mới, và thư viện kỹ năng giảm bớt thử-và-sai. Không trọng số nào thay đổi; hệ thống thông minh hơn vì nó nhớ được nhiều hơn.

Một lưu ý về Continual Learning dựa trên trọng số

Để cho trọn vẹn, vẫn có thể fine-tune các adapter nhẹ (kiểu LoRA) trên kinh nghiệm đã tích lũy. Rủi ro là catastrophic forgetting — các cập nhật làm suy giảm tri thức đã được pre-train — mà các phương pháp chiếu trực giao (orthogonal-projection) mới hơn xử lý được phần nào. Nhưng điều này chỉ trở nên đáng làm sau hàng trăm tác vụ thành công nhất quán. Với phần lớn người xây dựng, tối ưu prompt và thư viện kỹ năng mang lại nhiều cải thiện hơn trên mỗi đơn vị công sức, mà không có chút phức tạp nào của việc huấn luyện.

Đo lường xem nó có thực sự đang cải thiện không

Tự cải thiện là vô nghĩa nếu bạn không thể đo lường nó. Kỷ luật ở đây là theo dõi, theo từng lĩnh vực, những chỉ số quan trọng: tỷ lệ thành công, độ trễ, chi phí, và mức độ hài lòng của con người, mỗi cái có gắn dấu thời gian. Từ những chỉ số này bạn có thể tính ra mức cải thiện trên một cửa sổ trượt và, cốt yếu hơn, chạy các bài kiểm thử hồi quy (regression test) — một bộ các tác vụ khó đã biết, được chạy lại theo lịch. Nếu thành công trên bộ khó tụt xuống, agent đang thoái lui, và một cảnh báo nên được kích hoạt. Đã có những benchmark chuyên biệt cho bộ nhớ hội thoại dài hạn để đánh giá riêng chiều này.

Điều đọng lại

Một agent biết ghi nhớ xuyên các phiên, phản tỉnh về các thất bại của mình, gửi vào ngân hàng những kỹ năng tái sử dụng được, và định kỳ tinh chỉnh chính các prompt của mình sẽ vượt trội thấy rõ so với một agent không trạng thái — thường giải một tác vụ lặp lại nhanh hơn hẳn sau lần thành công đầu tiên. Không điều nào trong đó đòi hỏi đụng tới trọng số của mô hình. Bộ nhớ và tự cải thiện, trong năm 2026, là những khoản đầu tư kỹ thuật cho lợi nhuận cao nhất mà bạn có thể bỏ vào một hệ thống tự chủ.