Meta bị nghi 'thổi phồng' kết quả thử nghiệm AI Llama 4

Theo Khánh Huyền | 09/04/2025 10:03 AM | Công nghệ » Công nghệ mới

Meta bác bỏ tin đồn điều chỉnh mô hình AI Llama 4 để đạt điểm cao bất thường trong bài đánh giá hiệu suất, khẳng định không dùng dữ liệu kiểm tra.

Một lãnh đạo cấp cao của Meta vừa lên tiếng bác bỏ tin đồn cho rằng công ty đã điều chỉnh các mô hình trí tuệ nhân tạo (AI) mới để đạt điểm cao bất thường trong các bài đánh giá chuẩn (benchmark), đồng thời che giấu các điểm yếu thực sự của mô hình.

Ahmad Al-Dahle, Phó Chủ tịch phụ trách mảng AI tạo sinh (generative AI) tại Meta, viết trên nền tảng X rằng việc Meta huấn luyện các mô hình Llama 4 Maverick và Llama 4 Scout bằng các bộ dữ liệu kiểm tra (test set) là “hoàn toàn không đúng sự thật”.

Meta bị nghi 'thổi phồng' kết quả thử nghiệm AI Llama 4- Ảnh 1. — Meta bị nghi “thổi phồng” kết quả thử nghiệm AI Llama 4. (Ảnh: Reuters)

Trong lĩnh vực AI, test set là tập dữ liệu dùng để đánh giá hiệu suất của mô hình sau khi huấn luyện. Nếu mô hình được huấn luyện trên chính bộ dữ liệu này, điểm số benchmark sẽ bị bóp méo, khiến mô hình có vẻ như hoạt động tốt hơn thực tế.

Cuối tuần qua, tin đồn chưa được xác thực về việc Meta gian lận điểm benchmark của các mô hình mới bắt đầu lan truyền trên X và Reddit. Nguồn gốc của tin đồn được cho là bắt nguồn từ một bài đăng trên mạng xã hội Trung Quốc, bởi một người dùng tự nhận là cựu nhân viên Meta đã nghỉ việc để phản đối cách công ty thực hiện các bài đánh giá mô hình.

Meta bị nghi 'thổi phồng' kết quả thử nghiệm AI Llama 4- Ảnh 2. — Bảng đánh giá Llama 4 của Meta cung cấp.

Một số báo cáo cho thấy Llama 4 Maverick và Scout hoạt động kém hiệu quả trong một số tác vụ nhất định, góp phần làm dấy lên nghi ngờ. Việc Meta sử dụng một phiên bản thử nghiệm, chưa công bố rộng rãi của Maverick để đạt điểm số cao hơn trên benchmark LM Arena cũng làm tin đồn thêm phần lan rộng. Một số nhà nghiên cứu trên X cho biết họ quan sát thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải về công khai và phiên bản được Meta triển khai trên LM Arena.

Al-Dahle thừa nhận rằng một số người dùng đang gặp phải chất lượng không đồng đều khi sử dụng Maverick và Scout thông qua các nhà cung cấp đám mây khác nhau.

“Kể từ khi chúng tôi phát hành các mô hình ngay khi hoàn tất, sẽ mất vài ngày để các phiên bản công khai được điều chỉnh tối ưu,” ông viết. “Chúng tôi sẽ tiếp tục xử lý lỗi và hỗ trợ các đối tác tích hợp.”

Theo Khánh Huyền

Theo vtcnews.vn Copy link

Link bài gốc Lấy link! https://vtcnews.vn/meta-bi-nghi-thoi-phong-ket-qua-thu-nghiem-ai-llama-4-ar936298.html?fbclid=IwY2xjawJhrGNleHRuA2FlbQIxMAABHiAgoxUHUGPO1EI0DHJwLM2NFBnBmCVty_CEFQPx0de-PJlTh-uwkSNW8iHj_aem_A4tVHCrz3nDuahUXPCMU2Q

Meta bị nghi 'thổi phồng' kết quả thử nghiệm AI Llama 4

Meta bác bỏ tin đồn điều chỉnh mô hình AI Llama 4 để đạt điểm cao bất thường trong bài đánh giá hiệu suất, khẳng định không dùng dữ liệu kiểm tra.

Đại diện Cục Thuế: Hộ kinh doanh dưới 500 triệu đồng không phải chịu thuế, không sử dụng hóa đơn 6k lượt xem

Nóng: Heineken sắp chấm dứt hoàn toàn hoạt động sản xuất bia tại một quốc gia ĐNÁ, nhiều vị trí việc làm sẽ bị cắt giảm 6k lượt xem

Trước khi bị công an kiểm tra tại loạt cửa hàng, Bảo Tín Minh Châu từng gây sốc về điều kiện tuyển dụng 6k lượt xem

Bảo Tín Minh Châu kinh doanh ra sao: Doanh thu nghìn tỷ - biên lợi nhuận chỉ 0,3% 6k lượt xem

Chân dung 10 Giám đốc, Phó Giám đốc, kế toán vừa bị Công an bắt khẩn cấp trong chuyên án đặc biệt lớn 6k lượt xem

Sản phẩm tốt là chưa đủ

Bình đẳng giới: Không chỉ là đạo đức, đó là chiến lược tăng trưởng trong kỷ nguyên AI

Chuyên gia giáo dục Tống Liên Anh: Luôn giữ tâm thế “tôi còn rất nhiều điều chưa biết”, chỉ ra 3 năng lực rất quan trọng trong thời đại AI