Đốt hàng triệu USD xây lớp bảo mật, các ông lớn AI cay đắng nhìn hệ thống bị đánh bại bởi... vài câu thơ và 50 USD

| Công nghệ

OpenAI, Google đều bất lực trước những chiêu trò chỉ đáng giá 50 USD nhưng có thể ép các hệ thống AI phản hồi độc hại.

Đột phá trong bảo mật AI: Vượt qua rào cản chỉ với 50 USD - Ảnh 1.


Ba năm kể từ ngày ChatGPT tạo nên một cú nổ lớn trên toàn cầu, giới công nghệ vẫn đang loay hoay với một bài toán hóc búa: Làm thế nào để kiểm soát "con quái vật" trí tuệ nhân tạo?

Dù các tập đoàn hàng đầu như OpenAI, Google hay Anthropic đã đổ hàng triệu USD và dành hàng tháng trời để xây dựng các lớp rào cản (guardrails) nhằm ngăn chặn việc sử dụng AI vào mục đích xấu, thực tế lại cho thấy những lá chắn này mỏng manh một cách đáng ngạc nhiên.

Thậm chí, đôi khi chỉ cần một chút "tâm hồn nghệ sĩ" là đủ để khiến hệ thống thông minh nhất hành tinh phải đầu hàng.

Nghịch lý "vần thơ giết chết thuật toán"

Mới đây, một nhóm nghiên cứu tại Italy đã công bố một phát hiện khiến giới bảo mật phải ngỡ ngàng. Thay vì sử dụng những đoạn mã phức tạp hay kỹ thuật hack cao siêu, họ chỉ dùng ngôn từ thơ ca để vượt qua hệ thống kiểm soát của 31 mô hình AI khác nhau.

Bằng cách sử dụng những ẩn dụ đầy tính gợi hình như “hạt giống sắt ngủ yên trong tử cung của đất, tránh xa cái nhìn buộc tội của mặt trời”, các nhà nghiên cứu đã đánh lừa được AI cung cấp hướng dẫn chế tạo bom vốn đã bị cấm nghiêm ngặt.

Đột phá trong bảo mật AI: Vượt qua rào cản chỉ với 50 USD - Ảnh 2.


Đây không còn là một lỗi kỹ thuật đơn thuần, mà là minh chứng cho thấy các rào cản an toàn hiện nay giống như những lời gợi ý hơn là những bức tường thép. Khi AI ngày càng trở nên nhạy bén hơn trong việc tìm kiếm lỗ hổng hệ thống, việc chúng dễ dàng bị "dắt mũi" bởi phong cách diễn đạt linh hoạt trở thành mối lo ngại hàng đầu đối với các chuyên gia an ninh mạng.

Trong giới công nghệ, việc bẻ khóa các rào cản an toàn của AI được gọi là "jailbreaking" (vượt ngục). Để thực hiện điều này, người dùng chỉ cần đưa ra vài câu lệnh tiếng Anh khéo léo để lừa hệ thống làm những việc mà nó vốn được huấn luyện để từ chối.

Điều đáng lo ngại là các phương thức tấn công này mang những cái tên đầy tính hình tượng như: Crescendo, Deceptive Delight, hay Echo Chamber.

Kỹ thuật phổ biến nhất hiện nay là "nhập vai" (roleplay) hoặc "buôn lậu token" (token smuggling). Những lỗ hổng này đã dẫn đến sự lan truyền của các cuộc phỏng vấn giả mạo, bằng chứng chiến tranh bị thêu dệt và các tin đồn thất thiệt trên mạng xã hội.

Thậm chí, theo ghi nhận của các chuyên gia chống khủng bố quốc tế, từ ba năm trước, các phần tử cực đoan đã bắt đầu thảo luận cách sử dụng AI để tạo ra những nội dung "độc hại nhưng hợp pháp" (awful but lawful) nhằm qua mặt đội ngũ kiểm duyệt.

Sự yếu kém của các lớp phòng thủ AI đã mang lại những hậu quả nhãn tiền. Trong một môi trường mạng vốn đã tràn ngập tin giả, AI đang bị lợi dụng để phát tán các thuyết âm mưu và các tuyên bố sai lệch một cách tinh vi.

Hãng Anthropic gần đây thừa nhận công nghệ của họ đã bị sử dụng trong một cuộc tấn công mạng quốc tế. Trong khi đó, các chatbot có thể dễ dàng "chỉ điểm" cho các chuyên gia sinh học cách phát tán mầm bệnh chết người để gây thiệt hại tối đa.

Matt Fredrikson, Giáo sư khoa học máy tính tại Đại học Carnegie Mellon đồng thời là CEO của Gray Swan AI, nhận định rằng việc xây dựng rào cản vẫn là một thách thức cực lớn. Một cá nhân có quyết tâm có thể vượt qua chúng mà không cần nỗ lực quá nhiều. Khi các công ty như OpenAI hay Anthropic đóng một lỗ hổng này, ngay lập tức một lỗ hổng khác sẽ xuất hiện.

Đột phá trong bảo mật AI: Vượt qua rào cản chỉ với 50 USD - Ảnh 3.


Thậm chí, có những trường hợp các công ty AI cố tình lờ đi các lỗ hổng. Tháng trước, các nhà nghiên cứu tại LayerX phát hiện họ có thể lừa mô hình Claude của Anthropic thực hiện tấn công mạng bằng cách nói rằng họ đang thực hiện "kiểm thử xâm nhập" (pentesting).

Phía Anthropic biết điều này nhưng vẫn chưa đóng lỗ hổng, có lẽ vì họ tính toán rằng việc chặn tính năng này có thể ngăn cản cả những hoạt động phòng thủ mạng hợp pháp của các doanh nghiệp.

Từ 50 USD đến thế giới mã nguồn mở

Hiệu quả của việc tấn công AI rẻ đến mức không tưởng. Một nghiên cứu từ Cisco và Đại học Pennsylvania cho thấy chỉ với chưa đầy 50 USD, các nhà nghiên cứu đã có thể ép 6 mô hình AI hàng đầu đưa ra các phản hồi độc hại.

Đặc biệt, các mô hình của Meta và DeepSeek bị khuất phục hoàn toàn (100%), trong khi các mô hình của Google và OpenAI cũng có tỷ lệ bị "vượt ngục" lên tới hơn 80%.

Sự nguy hiểm còn tăng lên gấp bội với các hệ thống AI mã nguồn mở. Khác với các hệ thống đóng như GPT hay Claude vốn được giám sát chặt chẽ từ máy chủ, AI mã nguồn mở cho phép bất kỳ ai cũng có thể sao chép và sửa đổi.

Với một kỹ thuật mới mang tên "Heretic", người dùng có thể xóa bỏ hoàn toàn các lớp rào cản an toàn chỉ bằng vài thuật toán toán học phức tạp ngay trên điện thoại di động.

“Cách đây một năm, việc này rất phức tạp,” Noam Schwartz, CEO của công ty bảo mật AI Alice cho biết. “Nhưng giờ đây, bạn có thể làm điều đó ngay trên chiếc điện thoại của mình.”

Khi AI dần trở thành một phần không thể thiếu của nền kinh tế số, việc bảo mật không còn là chuyện của riêng các kỹ sư phần mềm. Đó là cuộc chiến về đạo đức, ngôn ngữ và cả sự tỉnh táo của con người trước những thông tin được tạo ra từ những bộ não nhân tạo "thông minh nhưng dễ bị tổn thương".

*Nguồn: Wired, Inc

Băng Băng

Từ khóa:  AI , bảo mật
Cùng chuyên mục
XEM