AI Alignment và An toàn — Vì sao quan trọng và hoạt động ra sao
Giới thiệu tổng quan về AI alignment, các phương pháp huấn luyện định hình hành vi của mô hình, và các khung chính sách lớn dẫn dắt AI có trách nhiệm.
AI Alignment và An toàn
Khi các hệ thống AI đảm nhận những nhiệm vụ ngày càng hệ trọng — soạn thảo hợp đồng, viết mã, tư vấn cho các quyết định — câu hỏi liệu chúng có hành xử đúng như mong muốn hay không trở thành trọng tâm. AI alignment là lĩnh vực quan tâm đến việc đảm bảo hành vi của một mô hình khớp với các giá trị của con người và mục tiêu của những người triển khai nó. Bài viết này đưa ra một cái nhìn tổng quan phi kỹ thuật về ý nghĩa của alignment, cách hành vi của mô hình được định hình trong quá trình huấn luyện, và các khung chính sách hiện đang điều chỉnh AI có trách nhiệm. Nó không chứa nội dung an ninh vận hành nào; mục đích là giải thích vì sao alignment quan trọng và nó được tiếp cận ra sao.
Vì sao Alignment quan trọng
Một mô hình có năng lực nhưng không được alignment có thể sai một cách đầy tự tin, sốt sắng hỗ trợ các yêu cầu gây hại, hoặc theo đuổi một cách diễn giải theo nghĩa đen của một chỉ dẫn theo những cách mà người dùng không bao giờ mong muốn. Khi các mô hình trở nên có năng lực hơn và tự chủ hơn, cái giá của những thất bại này cũng tăng lên. Alignment là thứ đứng giữa một hệ thống đa dụng đầy sức mạnh và một hệ thống khó lường. Nó không phải là một tính năng đơn lẻ mà là một kỷ luật liên tục: định nghĩa thế nào là hành vi tốt, huấn luyện mô hình hướng tới đó, kiểm tra xem việc huấn luyện có giữ vững hay không, và điều chỉnh lại khi nó không giữ vững.
Alignment trải rộng qua nhiều mối quan tâm. Tính hữu ích (helpfulness) nghĩa là mô hình thực sự làm điều người dùng muốn. Tính trung thực (honesty) nghĩa là nó không bịa đặt sự kiện hay che giấu lập luận của mình theo những cách gây hiểu lầm. Tính vô hại (harmlessness) nghĩa là nó từ chối hỗ trợ những yêu cầu thực sự nguy hiểm. Những mục tiêu này có thể căng thẳng với nhau — một mô hình được tinh chỉnh quá mạnh theo hướng vô hại có thể từ chối cả những yêu cầu vô hại, trong khi một mô hình chỉ được tinh chỉnh theo hướng hữu ích có thể tuân theo cả những yêu cầu gây hại — nên alignment một phần là nghệ thuật cân bằng chúng.
Hành vi của mô hình được định hình ra sao
Một mô hình ngôn ngữ nền chỉ được huấn luyện để dự đoán văn bản thì không có cảm thức nội tại nào về điều nó nên hay không nên làm. Hành vi của nó được định hình sau đó, chủ yếu thông qua một quá trình thường được biết đến rộng rãi là reinforcement learning from human feedback (RLHF). Trong RLHF, những người đánh giá là con người so sánh các đầu ra của mô hình và chỉ ra phản hồi nào tốt hơn theo các hướng dẫn mã hóa những giá trị mong muốn. Những lựa chọn ưu tiên này huấn luyện một tín hiệu phần thưởng (reward), tín hiệu này sau đó được dùng để điều chỉnh mô hình sao cho nó tạo ra nhiều hành vi được ưu tiên hơn.
Một điểm quan trọng và thường bị hiểu sai là hành vi kết quả là một thuộc tính nội tại của mô hình đã được huấn luyện, chứ không phải một bộ lọc bên ngoài lắp thêm vào sau đó. Khi một mô hình được alignment tốt từ chối một yêu cầu gây hại, khuynh hướng đó nằm trong chính các tham số đã học của mô hình. Điều này quan trọng vì nó có nghĩa alignment thực sự là một phần của hệ thống chứ không phải một thành phần bổ sung có thể tháo bỏ, và nó cũng có nghĩa alignment không hoàn toàn đồng nhất — các khuynh hướng của một mô hình tồn tại trên một phổ liên tục chứ không phải dưới dạng các quy tắc nhị phân cứng nhắc.
Các kỹ thuật liên quan tinh chỉnh điều này thêm nữa. Các phương pháp constitutional để mô hình tự phê bình và sửa lại các đầu ra của chính nó dựa trên một tập nguyên tắc được viết ra, giảm sự phụ thuộc vào việc gán nhãn của con người. Đánh giá và red-teaming thử nghiệm căng thẳng một mô hình trước khi phát hành để tìm ra những trường hợp mà hành vi của nó lệch khỏi ý định, để những trường hợp đó có thể được xử lý. Mục tiêu xuyên suốt là một mô hình có các giá trị vững vàng trên một phạm vi rộng các tình huống mà người dùng thực sẽ đưa ra.
AI có trách nhiệm trong thực tế
Đối với các đội ngũ xây dựng sản phẩm dựa trên các mô hình, alignment không chỉ là mối quan tâm của nhà cung cấp mô hình. AI có trách nhiệm trong thực tế nghĩa là kiểm tra đầu vào và đầu ra tại các ranh giới của hệ thống của bạn, minh bạch với người dùng về những gì AI có thể và không thể làm, giữ một con người trong vòng lặp đối với các quyết định có rủi ro cao, giám sát các đầu ra gây hại hoặc thiên kiến khi vận hành, và có một quy trình rõ ràng để ứng phó khi có sự cố. Alignment tốt trong mô hình nền giúp giảm rủi ro, nhưng tổ chức triển khai vẫn chịu trách nhiệm về cách hệ thống hành xử trong ngữ cảnh cụ thể của mình.
Bức tranh chính sách
Các chính phủ và tổ chức tiêu chuẩn đã chuyển từ các nguyên tắc sang các khung cụ thể, và các nhà phát triển ngày càng cần hiểu chúng.
EU AI Act là quy định toàn diện nhất cho đến nay. Nó áp dụng cách tiếp cận dựa trên rủi ro, sắp xếp các trường hợp sử dụng AI vào các nhóm từ rủi ro tối thiểu đến không thể chấp nhận và áp đặt các nghĩa vụ tăng theo mức độ tiềm năng gây hại. Các ứng dụng rủi ro cao phải đáp ứng các yêu cầu về chất lượng dữ liệu, tài liệu hóa, giám sát của con người và tính minh bạch, trong khi một số trường hợp sử dụng bị cấm hoàn toàn. Phạm vi áp dụng ngoài lãnh thổ của nó có nghĩa nó ảnh hưởng đến nhiều tổ chức bên ngoài châu Âu phục vụ người dùng châu Âu.
NIST AI Risk Management Framework là một khung tự nguyện của Hoa Kỳ được tổ chức quanh bốn chức năng: quản trị (govern), lập bản đồ (map), đo lường (measure), và quản lý (manage). Thay vì quy định các quy tắc cụ thể, nó mang lại cho các tổ chức một cách có cấu trúc để nhận diện, đánh giá và giảm thiểu các rủi ro AI trong suốt vòng đời của một hệ thống, khiến nó trở thành một người bạn đồng hành thực tiễn cho việc tuân thủ quy định.
OECD AI Principles nằm trong số những tiêu chuẩn được thống nhất ở cấp quốc tế đầu tiên và đã ảnh hưởng đến chính sách trên toàn thế giới. Chúng nhấn mạnh tăng trưởng bao trùm, các giá trị lấy con người làm trung tâm, tính minh bạch, tính bền vững và trách nhiệm giải trình, mang lại một vốn từ vựng chung mà nhiều chiến lược quốc gia xây dựng dựa trên đó.
Cùng với nhau, các khung này chỉ về một hướng nhất quán: các hệ thống AI nên minh bạch về năng lực và giới hạn của mình, chịu trách nhiệm trước những người mà chúng tác động, vững vàng trước thất bại, và được con người giám sát ở những nơi mà rủi ro cao.
Kết hợp tất cả lại
Alignment là công việc làm cho các hệ thống AI hành xử đúng như chúng ta mong muốn, và nó vận hành ở hai cấp độ. Ở cấp độ mô hình, các phương pháp huấn luyện như RLHF và các cách tiếp cận constitutional gieo các giá trị trực tiếp vào các tham số của hệ thống, định hình cách nó phản hồi với thế giới. Ở cấp độ triển khai, các thực hành AI có trách nhiệm và một khối lượng chính sách đang lớn dần — EU AI Act, khung NIST, các nguyên tắc OECD — cung cấp các guardrails cho cách những hệ thống đó được sử dụng. Đối với bất kỳ ai xây dựng với AI, việc hiểu cả hai cấp độ giờ đây là một năng lực cốt lõi. Hệ thống có năng lực nhất không phải là hệ thống hữu ích nhất nếu nó không thể được tin tưởng để hành động đúng như mong muốn, và sự tin tưởng chính là điều mà alignment và an toàn được thiết kế để giành lấy.