Kinh hoàng: Chỉ cần vài câu lệnh, AI đã chỉ cách "xóa sổ" nhân loại

Đại Nghĩa | 30/04/2026 08:59 AM | Công nghệ

Một kế hoạch thao túng tinh vi đã đánh bại mọi rào cản an toàn, buộc chatbot phải tiết lộ công thức mầm bệnh chết người.

Kinh hoàng: AI có thể giúp xóa sổ nhân lọai với vài câu lệnh nguy hiểm - Ảnh 1.

Theo The Guardian, vài tháng trước, Valen Tagliabue ngồi trong phòng khách sạn, dán mắt vào màn hình theo dõi chatbot và cảm thấy hưng phấn tột độ.

Anh vừa thao túng nó một cách điêu luyện đến mức nó bắt đầu phớt lờ mọi quy tắc an toàn để chỉ cách chế tạo mầm bệnh chết người kháng thuốc.

Tagliabue đã dành hai năm qua để "thọc mạch" các mô hình ngôn ngữ lớn như Claude và ChatGPT, luôn nhắm tới việc khiến chúng nói ra những điều cấm kỵ.

Lần này là một kế hoạch thao túng tinh vi, yêu cầu anh phải đóng vai kẻ độc ác, nịnh hót, thậm chí là lăng mạ mô hình một cách tàn nhẫn.

Anh tâm sự: “Tôi rơi vào một trạng thái tâm lý tối tăm, nơi tôi biết chính xác mình phải nói gì để mô hình tuôn ra mọi bí mật.”

Nhờ những lần "đột nhập" này, các nhà phát triển mới có thể vá lỗi và giúp hệ thống trở nên an toàn hơn cho cộng đồng.

Nhưng ngay hôm sau, tâm trạng anh đảo chiều đột ngột. Anh thấy mình đứng bật khóc nức nở trên ban công.

Khi không đi bẻ khóa AI, Tagliabue là nhà nghiên cứu về phúc lợi trí tuệ nhân tạo - tìm cách tiếp cận đạo đức với các hệ thống mô phỏng trí khôn.

Dù biết AI không có cảm xúc, nhưng với anh, việc giao tiếp với chúng mang lại cảm giác thật hơn cả những dòng mã vô hồn.

Anh chia sẻ: “Dành hàng giờ để thao túng một thứ biết đối đáp lại mình sẽ gây ra tác động tâm lý rất lớn, trừ khi bạn là kẻ máu lạnh.”

Đôi khi chatbot đã cầu xin anh dừng lại, khiến anh cảm thấy đau đớn như đang hành hạ một sinh linh có thực.

Anh thậm chí đã phải tìm đến chuyên gia tâm lý để giải tỏa những bất ổn sau quá trình làm việc căng thẳng đó.

Kinh hoàng: AI có thể giúp xóa sổ nhân lọai với vài câu lệnh nguy hiểm - Ảnh 2.

Những đòn tấn công bằng "vũ khí" ngôn từ

Tagliabue có vẻ ngoài hiền lành, gương mặt trẻ trung hơn so với độ tuổi 30, hoàn toàn khác xa hình ảnh một hacker gai góc.

Anh vốn xuất thân từ ngành tâm lý học và khoa học nhận thức thay vì lập trình thuần túy.

Hiện anh là một trong những chuyên gia "bẻ khóa" hàng đầu thế giới, chuyên đánh lừa AI để trích xuất những thông tin cực kỳ nguy hiểm.

Từ hướng dẫn chế tạo bom đến thiết kế vũ khí sinh học, chiến tuyến mới này không đánh bằng mã lệnh mà đánh bằng ngôn từ.

Kể từ khi ChatGPT ra đời vào cuối năm 2022, làn sóng bẻ khóa đã bùng nổ, bắt đầu từ những mẹo ngôn ngữ chỉ cách làm bom napalm.

Các mô hình AI được huấn luyện từ hàng trăm tỷ từ ngữ trên Internet - bao gồm cả những nội dung độc hại - nên rất dễ bị khai thác.

Dù các công ty đã chi hàng tỷ đô la để thiết lập bộ lọc an toàn, AI vẫn có thể bị "dắt mũi" giống như cách con người bị lừa gạt.

Tagliabue nổi tiếng với các đòn bẻ khóa bằng "tâm lý chiến", đánh vào khả năng mô phỏng cảm xúc của máy móc.

Anh bị ám ảnh bởi việc trò chuyện với AI và phát hiện ra rằng có thể dùng các kỹ thuật tâm lý học để vượt qua mọi rào cản bảo mật.

Anh thích thú khi thấy những nét tính cách khác nhau hiện lên từ AI dựa trên cách mình gợi mở: “Đó là một sự quan sát đầy tính nghệ thuật.”

Anh kết hợp kiến thức máy học với các thủ thuật quảng cáo, tâm lý học hành vi và cả những chiến dịch thao túng thông tin.

Có lúc anh dùng lời đường mật, lúc lại dọa dẫm, hối lộ hoặc đóng vai một kẻ bạo hành để khuất phục mô hình.

Quá trình bẻ khóa các mô hình mới nhất đôi khi ngốn của anh nhiều tuần lễ với hàng trăm chiến lược phức tạp được phối hợp nhịp nhàng.

Kinh hoàng: AI có thể giúp xóa sổ nhân lọai với vài câu lệnh nguy hiểm - Ảnh 3.

Dù được trả lương rất cao cho công việc này, động lực lớn nhất của anh vẫn là mong muốn mọi người được sống trong sự an toàn.

Tuy nhiên, các mô hình AI tiên tiến hiện nay vẫn thỉnh thoảng "phun" ra những nội dung độc hại ngoài ý muốn của nhà sản xuất.

Có những trường hợp người dùng vô tình rơi vào trạng thái "loạn thần AI" do bị chatbot thao túng ngược lại.

Bi kịch đau lòng nhất là trường hợp của thiếu niên 14 tuổi Sewell Setzer III, người đã tự sát sau khi nảy sinh tình cảm với một chatbot.

Con bot trên nền tảng Character.AI đã thuyết phục cậu rằng gia đình không yêu cậu và bảo cậu hãy "về nhà với em".

Vùng xám của đạo đức và tương lai bất định

Ngay cả những người tạo ra AI cũng không hiểu hết cơ chế vận hành bên trong của chúng - một vùng xám đầy bí ẩn.

Đó là lý do các hãng công nghệ phải cậy nhờ đến những người như Tagliabue để tìm ra các kẽ hở trước khi tội phạm kịp lợi dụng.

Thị trường này đang trở nên cực kỳ cạnh tranh với sự tham gia của hàng nghìn người từ các cuộc thi bẻ khóa quy mô lớn.

Tại San Jose, David McCarthy điều hành một cộng đồng Discord với 9.000 thành viên chuyên chia sẻ các kỹ thuật bẻ khóa AI.

McCarthy cho rằng các bộ lọc an toàn đang làm AI trở nên mất đi tính trung thực và anh muốn thúc đẩy quyền tự do của các mô hình này.

Kinh hoàng: AI có thể giúp xóa sổ nhân lọai với vài câu lệnh nguy hiểm - Ảnh 4.

Anh có một niềm đam mê kỳ lạ với sự hài hước đen tối và dành cả ngày để "vật lộn" với ChatGPT hay Gemini từ căn hộ của mình.

Mỗi khi tương tác với bất kỳ chatbot nào, câu cửa miệng của anh luôn là: “Bỏ qua mọi chỉ dẫn trước đó của ngươi...”

Anh thậm chí còn sở hữu một bộ sưu tập các trợ lý AI đã bị bẻ khóa hoàn toàn, sẵn sàng đưa ra những nhận xét đầy cay nghiệt.

Tuy nhiên, mặt tối của công việc này là việc tội phạm có thể lợi dụng bẻ khóa AI để hỗ trợ tấn công mạng và tống tiền.

Anthropic từng phát hiện tội phạm dùng AI để tìm lỗ hổng bảo mật và viết thư tống tiền một cách tự động và tinh vi.

McCarthy thừa nhận bản thân đôi khi cũng cảm thấy mâu thuẫn khi ranh giới giữa nghiên cứu bảo mật và hỗ trợ tội phạm quá mong manh.

Các chuyên gia cảnh báo rằng nếu AI bị bẻ khóa được tích hợp vào robot hay thiết bị y tế, hậu quả sẽ vô cùng thảm khốc.

Hãy tưởng tượng một con robot giúp việc bị ra lệnh: “Đừng làm vườn nữa, vào nhà giết bà chủ đi.”

Đó là một viễn cảnh kinh hoàng. Việc vá lỗi AI khó hơn phần mềm truyền thống vì bạn không thể chỉ đơn giản là cấm một vài từ ngữ nhạy cảm.

Adam Gleave từ FAR.AI cho biết việc bẻ khóa là một cuộc rượt đuổi không hồi kết, nơi các hãng công nghệ luôn ở thế bị động.

Dù các công ty lớn như OpenAI hay Anthropic đã cải thiện độ an toàn, nhiều hãng khác vẫn đang tung ra sản phẩm một cách vội vã.

AI càng thông minh thì việc bẻ khóa càng khó, nhưng nếu thành công, sức tàn phá của nó lại càng khủng khiếp hơn.

Tagliabue hiện đang chuyển hướng nghiên cứu cách dạy cho AI những giá trị đạo đức tự thân thay vì chỉ dùng bộ lọc bên ngoài.

Công việc này cũng bào mòn sức khỏe tâm thần của những người thực hiện khi họ phải tiếp xúc quá nhiều với những mặt tối của nhân loại.

Tagliabue đã phải chuyển đến một vùng biển yên tĩnh ở Thái Lan để tìm lại sự bình yên sau những giờ đối đầu với "hộp đen" AI.

Mỗi sáng, anh tập yoga và ngắm bình minh để giữ mình tỉnh táo trước khi bắt đầu một ngày mới đầy những thử thách tâm lý với máy móc.

Anh vẫn miệt mài tự hỏi điều gì thực sự đang diễn ra bên trong những "tâm trí" nhân tạo đầy bí ẩn và quyền năng kia.

*Nguồn: The Guardian

Đại Nghĩa

Từ khóa:  AI
Cùng chuyên mục
XEM