Chuyện gì đây: Viettel và NVIDIA “bắt tay” đưa tiếng Việt vào phục vụ huấn luyện cho trợ lý AI
Viettel và NVIDIA vừa chính thức công bố bộ dữ liệu Tiếng Việt chất lượng cao và quy mô lớn, phục vụ cho việc huấn luyện các trợ lý AI thông minh.
Chính phủ Việt Nam và NVIDIA vừa ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của NVIDIA và Trung tâm Dữ liệu AI của Viettel. Đáng chú ý, Viettel Solutions và NVIDIA đã công bố bộ dữ liệu tiếng Việt phục vụ huấn luyện cho trợ lý AI.
Việc hợp tác xây dựng bộ dữ liệu Tiếng Việt của hai tập đoàn nhằm cung cấp cho cộng đồng nghiên cứu một nguồn tài nguyên để phát triển các mô hình AI phù hợp với văn hóa và ngữ cảnh sử dụng Tiếng Việt.
Đại diện của Viettel Solutions, đơn vị trực tiếp tham gia vào thực hiện dự án cho biết, bộ dữ liệu này hiện đã được công bố trên trang chia sẻ công nghệ của NVIDIA và sẵn sàng cung cấp miễn phí cho cộng đồng nghiên cứu phát triển AI tại Việt Nam.
Về điểm khác biệt của bộ dữ liệu tiếng Việt này, nhóm kỹ sư tham gia vào nghiên cứu của Viettel Solutions tiết lộ, bộ dữ liệu Tiếng Việt do Viettel và NVIDA hợp tác nghiên cứu đã được xử lý và lọc qua NeMo Curator, giúp giảm kích thước bộ dữ liệu mà không làm giảm chất lượng. Đây cũng là bộ dữ liệu Việt Nam chất lượng cao đầu tiên được công bố tới cộng đồng nghiên cứu và phát triển trí tuệ nhân tạo Việt Nam.
Dựa trên sự hỗ trợ từ nền tảng NeMo Framework và hạ tầng tính toán GPU với nguồn tài nguyên lớn của NVIDIA, các kỹ sư của Viettel thu thập và xử lý dữ liệu từ nhiều nguồn khác nhau, thực hiện các bước chuẩn hóa, phân loại và làm sạch dữ liệu. Bộ dữ liệu này được xử lý một cách nhanh chóng và hiệu quả, giảm thiểu thời gian huấn luyện mô hình AI mà vẫn đảm bảo chất lượng.
Các kỹ thuật tối ưu hóa như loại bỏ dữ liệu trùng lặp, sử dụng GPU để xử lý song song, và áp dụng các công cụ như NeMo Curator đã giúp rút ngắn thời gian huấn luyện mô hình từ 80 ngày xuống còn 20 ngày, nhanh hơn gấp 4 lần so với trước đây.
Viettel Solutions cũng cho biết, bộ dữ liệu tiếng Việt chỉ là bước khởi đầu trong hành trình hợp tác dài hạn giữa Viettel Solutions và NVIDIA. Hai bên cam kết sẽ tiếp tục mở rộng hợp tác, phát triển các bộ dữ liệu phong phú hơn về chủ đề, nâng cao độ chính xác và sự đa dạng của các mẫu dữ liệu, đồng thời nghiên cứu các lĩnh vực ứng dụng AI chuyên sâu như y tế, giáo dục, thương mại và hành chính công.
Một trong những mục tiêu tiếp theo của dự án là ứng dụng công nghệ song song hóa và tối ưu phần cứng mới nhất của NVIDIA để xử lý các bộ dữ liệu rất lớn, nhằm giảm chi phí phần cứng và tiêu thụ điện năng. Điều này sẽ giúp các nghiên cứu và phát triển AI tiếp tục phát triển mạnh mẽ tại Việt Nam.
Kết quả hợp tác đầu tiên giữa Viettel Solutions và NVIDIA về lĩnh vực dữ liệu đã mở ra những cơ hội mới cho cộng đồng nghiên cứu và phát triển AI trong nước. Đồng thời, bộ dữ liệu Tiếng Việt chất lượng cao và quy mô lớn này sẽ mở ra cơ hội sáng tạo các sản phẩm AI tiên tiến, mang tính bản địa hóa cao cho các nhà phát triển và nghiên cứu viên tại Việt Nam, góp phần thúc đẩy quá trình chuyển đổi số, nâng cao năng lực nghiên cứu và phát triển AI trong nước.