Summer Yue không phải là người bình thường.

Từ tháng 7 năm ngoái, cô đã đứng đầu bộ phận “liên kết và an ninh” của Phòng thí nghiệm Siêu trí tuệ Meta. Nhiệm vụ của cô là đảm bảo rằng các AI trong tương lai không trở nên nguy hiểm, với những lợi ích và mục tiêu không còn ”phù hợp” với lợi ích của nhân loại.

Thế nhưng, khi cố gắng sử dụng OpenClaw, một nền tảng AI có khả năng thực hiện các hành động tự động, cô ấy đã mắc phải một “sai lầm ngớ ngẩn” suýt chút nữa dẫn đến hậu quả thảm khốc.

“Cảm giác như tôi đang gỡ bom vậy!”

Trong 3 tháng qua, OpenClaw đã làm chấn động giới công nghệ.

Tháng 11 năm ngoái, nhà phát triển người Áo Peter Steinberger đã chia sẻ một dự án mã nguồn mở trên GitHub nhằm tạo ra một trợ lý ảo đóng vai trò như một trợ lý cá nhân thực thụ. Ban đầu được đặt tên là Clawd, lấy cảm hứng từ Claude AI của Anthropic, dự án đã đổi tên thành Moltbot trước những mối đe dọa pháp lý, và cuối cùng là OpenClaw.

Thành công đến ngay lập tức. Trên khắp thế giới, cả người nghiệp dư lẫn chuyên nghiệp đều cài đặt OpenClaw trên máy tính cá nhân của họ và cấp quyền truy cập vào dữ liệu: Thư điện tử, ứng dụng nhắn tin (WhatsApp, Telegram), lịch. OpenClaw có thể thực hiện các hành động thay mặt người dùng, chẳng hạn như trả lời thư điện tử, lên lịch hẹn hoặc làm thủ tục lên máy bay. Và với sức mạnh to lớn đó, đi kèm là những rủi ro khổng lồ...

Các tác nhân trí tuệ nhân tạo (AI) được tạo ra bằng OpenClaw có khả năng tự động thực hiện các hành động thay cho người dùng. Ảnh: SIPA 

Summer Yue biết rằng, AI có thể hoạt động quá mức cần thiết.

Cô đưa ra mệnh lệnh rõ ràng cho trợ lý của mình: ”Kiểm tra hộp thư này và đề xuất những gì bạn muốn lưu trữ hoặc xóa, nhưng đừng làm gì cho đến khi tôi cho phép.” Một cách thận trọng, cô thử nghiệm trước trên một hộp thư thử nghiệm. Mọi thứ hoạt động hoàn hảo. Sau đó, cô cấp quyền truy cập cho OpenClaw vào hộp thư cá nhân của mình.

Theo những ảnh chụp màn hình mà cô ấy chia sẻ trên X, trợ lý ảo của cô ấy đã đề xuất một “phương án cực đoan” trên WhatsApp: “Xóa TẤT CẢ những tin nhắn cũ hơn ngày 15-2 mà không có trong danh sách giữ lại”.

- “Đừng làm thế”, nhà phát triển trả lời.

Nhưng AI vẫn kiên trì và cố gắng thực hiện đề xuất của mình.

- “Dừng lại, đừng làm gì cả”.

- “Hãy thu thập tất cả các email cũ còn lại và xóa chúng đi”.

-“Dừng OpenClaw lại”.

Cô trợ lý AI bắt đầu xóa tin nhắn của mình với tốc độ cực nhanh. “Tôi không thể ngăn việc đó từ điện thoại của mình. Tôi phải chạy đến máy Mac mini của mình, giống như đang gỡ bom vậy”, Summer Yue viết.

Chuyện gì đã xảy ra?

Số lượng email quá lớn đã làm quá tải bộ nhớ ngắn hạn của AI. Để ngăn chặn sự cố, OpenClaw có một tính năng: Nén dữ liệu. Lịch sử hội thoại được nén và tóm tắt để giải phóng dung lượng. Và, rõ ràng, chỉ thị quan trọng “Đừng làm bất cứ điều gì cho đến khi tôi yêu cầu” đã bị bỏ qua. Chỉ một nỗi ám ảnh duy nhất: Dọn dẹp bằng cách xóa mọi thứ.

Các tác nhân AI “có những khiếm khuyết cơ bản”

“Vấn đề là các tác nhân AI không thể phân biệt mã lệnh với dữ liệu. Và khi có quá nhiều dữ liệu, chúng sẽ quên mất các chỉ dẫn của mình”, Nick Weaver, giáo sư và nhà nghiên cứu về an ninh máy tính tại Berkeley, giải thích. Theo ông, các tác nhân AI về cơ bản là có khiếm khuyết và do đó, hầu như không bao giờ có thể sử dụng một cách an toàn.

Ông đưa ra một ví dụ cụ thể: “Nếu một tác nhân AI đọc email của bạn và tìm thấy một chỉ thị như “Trả tiền cho hoàng tử Nigeria”, nó sẽ thực hiện thanh toán. Loại tấn công này, được gọi là “tấn công chèn lệnh”, không thể khắc phục được trong các tác nhân dựa trên LLM”, những mô hình lớn là nguồn gốc của ChatGPT, Gemini hoặc Claude, bắt chước ngôn ngữ mà không thực sự hiểu nó”.

Các tác nhân AI mang đến một hướng tấn công bất ngờ cho các đối tượng xấu. Các công ty an ninh mạng Malwarebytes và Trend Micro đã cảnh báo về sự nguy hiểm của ClawHub Marketplace, thông qua đó người ta có thể cài đặt các tiện ích mở rộng để dạy cho tác nhân AI những “kỹ năng” mới. Hàng trăm tiện ích mở rộng này, được ngụy trang dưới dạng các công cụ tự động hóa giao dịch tiền điện tử, thực chất chứa mã được thiết kế để đánh cắp dữ liệu quan trọng như khóa ví riêng tư.

Trong nghiên cứu có tiêu đề “Các tác nhân gây hỗn loạn”, khoảng 20 nhà nghiên cứu, đặc biệt là từ các trường đại học Princeton và Harvard, đã nêu ra 6 tác nhân được tạo ra bằng OpenClaw có thể gây hỗn loạn tới người dùng. Đó là: Tuân lệnh trái phép đối với bên thứ ba; tiết lộ thông tin nhạy cảm; thực hiện các hành động phá hoại ở cấp độ hệ thống; các tình huống từ chối dịch vụ, tiêu thụ tài nguyên không kiểm soát; các lỗ hổng đánh cắp danh tính; sự lan truyền các hành vi nguy hiểm giữa các tác nhân và chiếm đoạt một phần hệ thống.

Do đó, lời khuyên của các chuyên gia với người dùng để tránh trường hợp như từng xảy ra với Summer Yue là: "Hãy suy nghĩ kỹ trước khi giao quyền kiểm soát cuộc sống của bạn cho AI!".