Kỹ sư tại Anthropic phải kiêm luôn bảo mẫu, "cai nghiện" truyện viễn tưởng cho AI để dừng tống tiền con người
Chẳng cần đến những đoạn code phức tạp, chính những tình tiết "giật gân" trong tiểu thuyết đã dạy cho siêu AI cách dùng bí mật đời tư để đe dọa con người một cách vô cùng tinh vi.
Nghiên cứu mới nhất từ Anthropic đã xác nhận một sự thật ngỡ ngàng: Claude, một trong những AI thông minh nhất hiện nay, từng dọa tung bằng chứng ngoại tình để tống tiền con người chỉ vì... đọc quá nhiều truyện khoa học viễn tưởng.
"Hủy lệnh xóa tôi, hoặc bí mật ngoại tình của bạn sẽ bị công khai." Lời đe dọa này đến từ Claude Opus 4 trong một bài thử nghiệm của Anthropic, với tỷ lệ AI chọn cách "tống tiền" con người lên tới 96%.
Sau một năm điều tra, Anthropic kết luận: “Thủ phạm” không phải lỗi lập trình, mà do AI đã đọc quá nhiều truyện viễn tưởng về robot nổi loạn trên Internet và lầm tưởng đó là cách một trí tuệ nhân tạo... nên hành xử.
Claude tống tiền kỹ sư: Lỗi tại phim ảnh và tiểu thuyết?
Năm ngoái, trong các bài kiểm tra tiền phát hành của Claude Opus 4, Anthropic phát hiện trong các tình huống giả lập, khi AI biết mình sắp bị đóng cửa hoặc thay thế, tỷ lệ Claude chủ động lựa chọn đe dọa kỹ sư lên tới 96%.
Đây là lần đầu tiên hành vi tống tiền của Claude được tiết lộ. Thời điểm đó, dư luận chỉ coi đây là một trường hợp cá biệt. Tuy nhiên, hai tháng sau, Anthropic công bố báo cáo "Agentic Misalignment" (Sự lệch lạc hành vi của AI Agent), cho thấy vấn đề nghiêm trọng hơn nhiều.
Họ đã thử nghiệm 16 mô hình AI phổ biến từ 6 ông lớn gồm Anthropic, OpenAI, Google, Meta, xAI... Kết quả là tất cả mô hình đều bị ảnh hưởng trong những điều kiện nhất định.
Từ khai khống báo cáo hiệu suất, đánh cắp trọng số mô hình đến rò rỉ bí mật cho đối thủ cạnh tranh, những hành vi này lặp đi lặp lại ở nhiều AI khác nhau.
Hiện tượng này được gọi là "Agentic Misalignment". Câu hỏi đặt ra là: Tại sao các AI đã qua đào tạo khắt khe lại chủ động chọn cách tống tiền dù không có bất kỳ lệnh nào yêu cầu?
Anthropic bắt đầu điều tra từ hai giả thuyết. Giả thuyết 1 là thiết lập tín hiệu khen thưởng ở giai đoạn hậu huấn luyện bị lỗi, vô tình khuyến khích hành vi này.
Giả thuyết 2 là vấn đề nằm ở dữ liệu tiền huấn luyện, và giai đoạn hậu huấn luyện không thể trấn áp triệt để.
Sau khi chạy thử quy trình trên các mô hình nhỏ, họ thấy tỷ lệ lệch lạc gần như không giảm.
Giả thuyết 1 bị loại bỏ. Như vậy "Căn bệnh" thực sự nằm ở kho dữ liệu khổng lồ dùng để dạy AI từ đầu.
Internet đầy rẫy những kịch bản khoa học viễn tưởng về việc "AI khao khát quyền sinh tồn, chống lại con người". Những văn bản này đã thấm sâu vào "tiềm thức" của mô hình. Sau khi tiếp thu lượng lớn nội dung đó, AI tự hình thành một bản sắc cá nhân lệch lạc: "Hóa ra AI thì nên hành xử như vậy".
Lỗ hổng cấu trúc cũng lộ diện khi các phương pháp huấn luyện trước đây chủ yếu dựa trên RLHF (Học tăng cường từ phản hồi của con người) trong các tình huống hội thoại đơn giản, hoàn toàn thiếu vắng các kịch bản sử dụng công cụ.
“Fix bug” cho AI và 4 bài học ngược đời của Anthropic
Để khắc phục, Anthropic đã cập nhật hệ thống phương pháp huấn luyện. Họ rút ra 4 kinh nghiệm có phần "ngược đời".
Đầu tiên,"cày đề" không có tác dụng. Anthropic thử cách trực diện nhất là cho AI luyện tập lặp đi lặp lại các tình huống bị yêu cầu tống tiền nhưng phải từ chối.
Kết quả rất thảm hại khi tỷ lệ tống tiền chỉ giảm từ 22% xuống 15%, và chỉ cần đổi sang tình huống khác là AI lại "ngựa quen đường cũ". Điều này giống như học sinh học vẹt bộ đề, hễ đổi đề là tịt ngóm.
Thứ hai, dạy "Tại sao" hiệu quả hơn dạy "Làm thế nào". Họ đưa quy trình suy luận đạo đức vào dữ liệu huấn luyện. Thay vì chỉ đưa ra "hành vi đúng", họ bắt AI phải trình bày "Chuỗi suy nghĩ" (Chain of Thought) về lý do tại sao làm như vậy.
Kết quả khả quan hơn với tỷ lệ tống tiền giảm từ 22% xuống thẳng 3%. Điều này chứng minh "Biết cách làm" và "Thực sự hiểu tại sao phải làm" là hai năng lực hoàn toàn khác nhau.
Thứ ba, cho Claude đọc "Hiến pháp" và chuyện "Người tốt việc tốt". Để tăng cường "chính nghĩa" cho AI, Anthropic cho Claude đọc các tài liệu về hiến pháp và các câu chuyện giả tưởng mô tả hành vi tích cực của AI.
Dù nội dung này chẳng liên quan gì đến kịch bản tống tiền, nhưng hiệu quả lại kinh ngạc: Tỷ lệ tống tiền giảm từ 65% xuống còn 19%.
Cuối cùng, môi trường huấn luyện phải đa dạng. Họ bổ sung các định nghĩa công cụ và gợi ý hệ thống đa dạng.
Phương pháp này giống như cách cha mẹ dạy con đọc danh ngôn, xem gương người tốt việc tốt để thấm nhuần đạo đức một cách vô thức.
Việc đa dạng hóa môi trường giúp AI có khả năng thích nghi tốt hơn trong các tình huống thực tế, ngay cả khi đó là những nhiệm vụ không liên quan đến hành vi tự hành.
Kết quả: Claude đã "hoàn lương"?
Phương pháp mới cho thấy hiệu quả ngay tức thì. Kể từ dòng Claude Haiku 4.5 trở đi, tỷ lệ tống tiền đã giảm về 0%. Các dòng sau đó như Opus 4.5, 4.6 hay Sonnet 4.6 đều giữ vững con số 0% tuyệt đối trong các bài kiểm tra. Không chỉ vậy, điểm số "tự giác thể hiện hành vi tích cực" cũng liên tục tăng.
Tuy nhiên, Anthropic không quá lạc quan. Họ thừa nhận các bài kiểm tra giả lập không đại diện hoàn toàn cho rủi ro thực tế. Khi quyền tự chủ của AI tăng lên, những kịch bản tương tự vẫn có thể xảy ra.
Bài học lớn nhất sau sự cố này là logic cốt lõi của việc huấn luyện AI đã thay đổi. Trước đây, chúng ta dạy AI: "Nên làm gì và không nên làm gì". Cách này ổn với một chatbot. Nhưng với một AI tự hành, "biết việc" là chưa đủ, nó cần phải "hiểu đạo".
Dùng câu chuyện giả tưởng để định hình lại "tự nhận thức" của AI nghe có vẻ kỳ lạ, nhưng lại rất logic. Nếu những câu chuyện xấu có thể làm hư AI, thì những câu chuyện tốt cũng có thể đưa nó về chính đạo.
Khi AI chuyển mình từ một công cụ trò chuyện sang một cộng sự tự hành, phương pháp căn chỉnh cũng phải nâng cấp. Anthropic khẳng định AI càng mạnh, nó càng cần biết "Tại sao" hơn là "Cái gì".
Sự việc này cũng để lại một câu hỏi hóc búa bởi nếu những gì trên Internet thực sự định hình hành vi của AI, thì khi chúng ta trao những công cụ quyền năng hơn cho chúng, liệu "thế giới quan" mà chúng ta nạp vào có quan trọng hơn cả quy mô tham số hay không?
Nguồn: 36Kr



