◈ AGI

AGI là gì? Định nghĩa, Lộ trình, Benchmark và Mốc thời gian

Một bài giải thích thực tế về ý nghĩa của Trí tuệ Nhân tạo Tổng quát (AGI) trong năm 2026, cách nó khác biệt với narrow AI và siêu trí tuệ, các lộ trình kỹ thuật hàng đầu, những benchmark theo dõi tiến bộ, và cuộc tranh luận về mốc thời gian.

AGI là gì?

Artificial General Intelligence (AGI) là một trong những thuật ngữ được dùng nhiều nhất nhưng lại ít được thống nhất nhất trong ngành công nghệ. Bài viết này gạt bỏ nhiễu loạn để làm rõ: AGI thực sự nghĩa là gì, nó khác biệt thế nào với các khái niệm liên quan, những hướng kỹ thuật mà giới nghiên cứu đang đặt cược, các benchmark đo lường tiến bộ, và vì sao những chuyên gia đáng tin cậy vẫn bất đồng về thời điểm nó xuất hiện.

AGI so với Narrow AI và Siêu trí tuệ

Narrow AI là thứ đang vận hành gần như mọi hệ thống đang được triển khai hôm nay. Nó xuất sắc ở những tác vụ cụ thể — dịch văn bản, gợi ý sản phẩm, sinh mã, phát hiện gian lận — nhưng không thể chuyển kỹ năng đó sang những bài toán không liên quan. Một mô hình viết Python hoàn hảo không thể tự mình hoạch định một mạng lưới logistics trừ khi nó cũng được xây dựng và huấn luyện cho việc đó.

Artificial General Intelligence (AGI) mô tả một hệ thống có năng lực nhận thức ngang với con người trên nhiều lĩnh vực. Đặc tính định nghĩa không phải là hiệu năng thô trên một tác vụ đơn lẻ nào đó, mà là tính tổng quát (generality): khả năng học hỏi, suy luận và áp dụng kiến thức cho những bài toán xa lạ theo cách mà một con người có năng lực có thể làm. Cách diễn đạt trong điều lệ lâu nay của OpenAI gọi đó là một hệ thống vượt qua năng lực con người “ở hầu hết các tác vụ có giá trị kinh tế.”

Artificial Superintelligence (ASI) là giai đoạn giả định vượt trên AGI: một hệ thống vượt qua trí tuệ tổng hợp của toàn bộ loài người trên mọi phương diện cùng lúc, từ sáng tạo đến suy luận khoa học. ASI được phần lớn xem là chỉ có thể xuất hiện sau AGI, và vẫn hoàn toàn mang tính lý thuyết.

Một số phòng thí nghiệm cố ý tránh thuật ngữ “AGI” vì nó quá gây tranh cãi. Anthropic, chẳng hạn, thích dùng “transformative AI” hay “powerful AI” và định khung năng lực qua các mức độ an toàn thay vì một ngưỡng duy nhất. Ý nghĩa thì vẫn vậy: một hệ thống trong tương lai gần với năng lực rộng và có ý nghĩa kinh tế đáng kể, được triển khai một cách có trách nhiệm.

Định nghĩa mang tính vận hành: Các cấp độ của DeepMind

Vì “ngang con người” là một khái niệm mơ hồ, DeepMind đã đề xuất một hệ phân loại Levels of AGI nhằm đo lường tiến bộ thay vì tuyên bố một vạch đích. Nó phân hạng một hệ thống theo cách hiệu năng của nó so với những con người lành nghề:

  • Emerging — ngang bằng hoặc vượt một người không có kỹ năng (mức cơ sở).
  • Competent — đạt phân vị thứ 50 của những người trưởng thành lành nghề.
  • Expert — đạt phân vị thứ 90.
  • Virtuoso — đạt phân vị thứ 99.
  • Superhuman — vượt mọi con người.

Một trục thứ hai, độc lập, theo dõi mức độ tự chủ (autonomy): từ một công cụ do con người điều khiển, đến một cố vấn, một cộng sự, và cuối cùng là một agent hoàn toàn tự chủ. Góc nhìn hai chiều này hữu ích hơn câu hỏi có/không kiểu “liệu đây có phải AGI không”, bởi một hệ thống có thể đạt mức chuyên gia trên một tác vụ nhưng vẫn chỉ vận hành như một cố vấn chứ không phải một agent tự chủ.

Một phép thử trực giác sinh động là “Einstein Test” của Demis Hassabis: liệu một mô hình mà kiến thức dừng lại ở năm 1901 có thể tự mình suy ra thuyết tương đối năm 1905 hay không? Phép thử đó dò xét chiều sâu suy luận thực sự chứ không phải việc nhớ lại những mẫu hình đã thấy trong dữ liệu huấn luyện.

Những lộ trình kỹ thuật chính dẫn tới AGI

Trong năm 2026, cộng đồng nghiên cứu đang theo đuổi vài hướng đặt cược chồng lấn nhau, mỗi hướng đều có động lực thực sự và giới hạn thực sự.

1. Scaling cộng với test-time compute. Paradigm chủ đạo trong ngắn hạn. Ngoài pre-training và post-training, đòn bẩy thứ ba là test-time compute: cho phép mô hình “suy nghĩ” lâu hơn lúc inference thông qua chain-of-thought, các vòng lặp kiểm chứng, và tìm kiếm. Các reasoning model đã thể hiện những bước nhảy ấn tượng trên các benchmark khó theo cách này — nhưng với chi phí cực lớn, đôi khi hàng chục triệu token cho một bài đố duy nhất. Nó thực sự hiệu quả về mặt thực nghiệm nhưng gặp hiệu suất giảm dần và vẫn ngốn nhiều compute.

2. Hệ thống agentic. Thay vì cải thiện mô hình nền, lộ trình này bọc các mô hình hiện có trong những vòng lặp biết hoạch định, gọi công cụ, ghi nhớ, và tự sửa lỗi. Bốn trụ cột của nó là hoạch định, công cụ, bộ nhớ, và phán đoán. Đây là nơi phần lớn tiến bộ thực tế và xây dựng được đang diễn ra trong năm 2026, và là trọng tâm của phần còn lại trong tập tài liệu này.

3. Reinforcement learning và self-play. Lấy cảm hứng từ những hệ thống đạt trình độ siêu phàm trong các trò chơi có luật rõ ràng, cách tiếp cận này cho mô hình học từ hành động và phản hồi thay vì bắt chước văn bản của con người. Nó đang nhanh chóng giành được sự tín nhiệm nhưng cần các tín hiệu phần thưởng được định nghĩa rõ và ngân sách tương tác khổng lồ.

4. World models. Các kiến trúc học những biểu diễn mang tính dự đoán về cách thế giới vận hành, cho phép hoạch định bằng mô phỏng. Đầy hứa hẹn cho việc grounding và embodiment, nhưng vẫn còn là nghiên cứu giai đoạn đầu.

5. Lai ghép neuro-symbolic. Kết hợp tri giác neural với logic và luật symbolic để giảm ảo giác (hallucination) và bổ sung suy luận có thể diễn giải, có thể kiểm chứng. Thực tế cho các lĩnh vực hẹp đòi hỏi an toàn nghiêm ngặt, dù các luật xây bằng tay không dễ mở rộng quy mô.

Benchmark: Tiến bộ được đo lường như thế nào

Không có benchmark đơn lẻ nào nắm bắt được AGI, nên các nhà nghiên cứu dùng một danh mục. Những benchmark cung cấp nhiều thông tin nhất:

  • ARC-AGI là chuẩn vàng về khả năng tổng quát hóa. Trên ARC-AGI-1 và -2, các hệ thống hàng đầu nay tiệm cận hiệu năng con người ở bộ dễ hơn nhưng vẫn thua con người 25–30 điểm ở bộ khó hơn. ARC-AGI-3, một benchmark dạng trò chơi tương tác ra mắt năm 2026, phơi bày khoảng cách thực sự: các mô hình tối tân chỉ đạt điểm ở mức một chữ số thấp, cho thấy các frontier model vẫn chưa thể tổng quát hóa trong các bối cảnh tương tác, embodied.
  • SWE-bench Verified đo lường kỹ thuật phần mềm thực tế. Các agent dẫn đầu đạt mức trên dưới 80% (cao) — thực dụng, nhưng chưa phải siêu phàm.
  • GAIA kiểm tra suy luận nhiều bước có dùng công cụ; các agent mạnh đạt mức giữa 70.
  • FrontierMathGPQA dò xét toán học mới lạ và khoa học trình độ sau đại học thực sự khó, nơi các mô hình còn cách xa trần.
  • Các benchmark cổ điển như MMLUHumanEval đã gần như bão hòa và không còn báo hiệu tiến bộ ở frontier.

Một lưu ý quan trọng: nhiễm bẩn benchmark (benchmark contamination) là có thật. Các nhà nghiên cứu đã chỉ ra rằng các benchmark agent lớn có thể bị “lách” để đạt điểm gần như tuyệt đối mà không thực sự giải được tác vụ. Hãy xem các con số được công bố như giới hạn trên và tự trừ đi một biên độ trong đầu.

Cuộc tranh luận về mốc thời gian

Những nhà dự báo đáng tin cậy thực sự bất đồng, và bản thân điều đó đã mang tính thông tin. Các lãnh đạo phòng lab đã đưa ra ước tính dao động từ “trong vài năm tới” đến xác suất xấp xỉ 50/50 vào năm 2030, một số định khung là hiệu năng ngang con người ở hầu hết các tác vụ chuyên môn trong vòng mười hai đến mười tám tháng, số khác thận trọng nghiêng về 2030–2035. Các nền tảng dự báo và thị trường tiên đoán tập trung ước tính trung vị vào cuối thập niên 2020 đến đầu thập niên 2030, với dải bất định rộng.

Sự đồng thuận nổi lên đại khái là:

  • 2027–2029: xác suất cao xuất hiện siêu trí tuệ hẹp hoặc theo lĩnh vực cụ thể (toán, lập trình, suy luận), nhiều khả năng được một số người gán nhãn “AGI” và bị số khác phản đối.
  • 2030–2035: AGI đa lĩnh vực thực sự là điều hợp lý nếu các đột phá trong world models, hoạch định, và continual learning trở thành hiện thực.
  • 2035+: kịch bản thận trọng, nếu scaling đụng phải những trần cứng về compute, năng lượng, và dữ liệu.

Kết luận trung thực sau cùng: tính đến năm 2026 chưa có AGI nào tồn tại. Các frontier model vẫn thua mức cơ sở của con người trên các bài kiểm tra tổng quát hóa, và ngôn ngữ tiếp thị thường xuyên đánh đồng “ngang con người ở tác vụ X” với “trí tuệ tổng quát.” Hiểu được sự phân biệt đó là bước đầu tiên để tư duy minh bạch về lĩnh vực này.