Kỷ nguyên AI và những “nông trại bàn tay”: Nơi hàng nghìn công nhân đang tự tay mài giũa robot thay thế chính mình

Theo Tuấn Nguyễn | 14/04/2026 21:00 PM | Công nghệ

AI có thể học từ toàn bộ internet, nhưng để bước ra thế giới thực, nó vẫn cần con người dạy từng chuyển động nhỏ nhất. Đó là cách những “nông trại bàn tay” trở thành nền móng cho thế hệ robot mới.

Trong những ngày gần đây, đoạn video lan truyền trên mạng cho thấy các công nhân tại một nhà máy ở Ấn Độ đeo thiết bị gắn trên đầu, ghi lại toàn bộ chuyển động tay khi làm việc. Nội dung đi kèm cho rằng đây là dữ liệu được thu thập để huấn luyện AI.

Dù đến thời điểm hiện tại, tính xác thực của video này vẫn chưa được kiểm chứng. Không loại trừ khả năng đây chỉ là hệ thống camera phục vụ việc giám sát năng suất lao động – một thực tế vốn đã gây nhiều tranh luận về quyền riêng tư và điều kiện làm việc.

Đoạn video đang gây tranh cãi trên mạng xã hội.

Dù vậy, chính sự mơ hồ đó lại làm dấy lên một câu hỏi đáng chú ý hơn: Liệu cảnh dùng sức người thủ công, làm việc liên tục để "cầm tay chỉ việc" cho trí tuệ nhân tạo có tồn tại ngoài đời thực?

Câu trả lời, nếu nhìn sâu vào cách ngành công nghiệp robot đang vận hành, có thể khiến nhiều người bất ngờ. Bởi phía sau những tiến bộ tưởng như hoàn toàn tự động của AI, lại tồn tại một hệ thống phụ thuộc rất lớn vào chính những chuyển động cơ bản nhất của con người.

Đằng sau những cỗ máy hình người bóng bẩy, thông minh đang được ngợi ca tại Thung lũng Silicon, một ngành công nghiệp “đào tạo AI” đang bùng nổ mạnh mẽ tại các quốc gia đang phát triển. Đó chính là thế giới của những "nông trại bàn tay".

Hình hài của những "nông trại bàn tay"

Trí tuệ nhân tạo gần như đã xuất hiện mọi nơi trên không gian mạng, và cũng đang chập chững bước ra thế giới thực. Nhưng để những cỗ máy vô tri có thể học cách cầm nắm một chiếc cốc hay gấp một chiếc khăn, các ông lớn công nghệ đang phải cậy nhờ đến một đội quân "gia sư" bất đắc dĩ. Bức tranh về quá trình huấn luyện này đã được các trang truyền thông quốc tế lớn như Los Angeles Times phơi bày thông qua cuộc sống của những công nhân gán nhãn dữ liệu AI tại Nam Á.

Tại thị trấn Karur, nằm cách trung tâm công nghệ Bengaluru của Ấn Độ khoảng 300 dặm về phía nam, Naveen Kumar, một kỹ sư 28 tuổi, bắt đầu ca làm việc của mình. Anh không ngồi viết code hay thiết kế hệ thống. Công cụ của Naveen là một chiếc camera GoPro gắn chặt trên trán.

Nhiệm vụ của anh là đứng trước bàn và gấp khăn tắm hàng trăm lần với độ chính xác tuyệt đối. Anh phải thò tay phải vào rổ, giũ phẳng tấm vải bằng cả hai tay, gấp chính xác ba lần và đặt gọn gàng vào góc trái bàn. Tất cả phải hoàn thành dưới 60 giây. Chỉ một thao tác lỗi, anh phải làm lại từ đầu.

Công ty của Kumar, Objectways, với đội ngũ 2.000 nhân viên, chuyên thu thập những thước phim góc nhìn thứ nhất như vậy để gửi cho các khách hàng tại Mỹ. Naveen chia sẻ rằng đội ngũ thường xuyên phải xóa bỏ tới 150 đến 200 video chỉ vì những lỗi rất nhỏ trong cách cầm nắm đồ vật. Sau khi ghi hình, chính họ lại phải ngồi mổ xẻ các video này, vẽ các hộp viền quanh vật thể, gắn thẻ từng chiếc khăn, dán nhãn hướng di chuyển của cánh tay và phân loại từng cử chỉ nhỏ như lực vươn tay hay độ trượt của vải.

Đó là cách các thuật toán đang quan sát và sao chép sự khéo léo của con người. Mohammad Musa, nhà sáng lập Deepen AI, gọi các cơ sở thu thập dữ liệu này là những "nông trại cánh tay" hay "nông trại bàn tay", nơi quy tụ người lao động làm công việc của một cỗ máy lặp đi lặp lại, để dạy cho cỗ máy cách làm việc.

Nghịch lý Moravec: Trí tuệ nhân tạo "kí sinh" vào lao động thủ công

Để hiểu được tại sao các tập đoàn công nghệ nghìn tỷ đô la lại phải phụ thuộc vào những người công nhân gấp khăn ở một thị trấn xa xôi, chúng ta cần nhìn vào Nghịch lý Moravec. Được nhà nghiên cứu robot Hans Moravec đưa ra vào năm 1988, lý thuyết này khẳng định rằng AI có thể dễ dàng đánh bại con người ở môn cờ vua hay giải các phương trình phức tạp, nhưng lại vô cùng chật vật để thực hiện các kỹ năng vận động bản năng của một đứa trẻ một tuổi. Máy móc có thể phân tích dữ liệu thị trường chứng khoán trong chớp mắt, nhưng sẽ loay hoay khi được yêu cầu phết bơ lên bánh mì, nhặt rác hay xếp bát đũa vào máy rửa chén.

Theo đó, sự chênh lệch đáng kinh ngạc này bắt nguồn từ chính lịch sử tiến hóa hàng triệu năm của nhân loại. Những kỹ năng như di chuyển, cảm nhận không gian hay phối hợp tay mắt đã được tối ưu hóa đến mức gần như trở thành phản xạ tự nhiên. Ngược lại, tư duy logic hay xử lý dữ liệu lại là những năng lực trừu tượng xuất hiện muộn hơn, nhưng trớ trêu thay, đó lại chính là “ngôn ngữ mẹ đẻ” của máy tính. Điều này tạo ra một “gót chân Achilles” đặc trưng của ngành robot: làm việc trí óc ngày càng vượt trội, nhưng xử lý kỹ năng vật lý đời thường vẫn cực kỳ gian nan.

Robot được trưng bày tại gian hàng của Nvidia trong Triển lãm Chuỗi cung ứng Quốc tế Trung Quốc tổ chức tại Bắc Kinh hồi tháng 7. (Ảnh: Mahesh Kumar A. / Associated Press)

Các mô hình ngôn ngữ lớn như ChatGPT có thể quét toàn bộ internet để thu nạp kiến thức. Tuy nhiên, thế giới vật lý lại không tồn tại dưới dạng văn bản, trong khi hệ thống cảm biến của máy móc vẫn còn quá hạn chế so với sinh học con người. Việc xác định cần bao nhiêu lực để cầm một chiếc cốc mà không làm vỡ nó, độ ma sát của mặt bàn hay sự biến dạng của một tấm vải khi bị kéo căng là những dữ liệu vô hình. Chỉ một thao tác nhặt chiếc khăn tắm cũng đòi hỏi máy móc phải nhận diện đúng vị trí, ước lượng trọng lượng, độ mềm, hình dạng, rồi mới điều khiển "bàn tay" cơ khí uyển chuyển như người thật.

Các phần mềm giả lập không thể tính toán chính xác tuyệt đối sự phức tạp của thế giới thực. Do đó, cách duy nhất để AI vật lý (Physical AI) học được là thông qua "học bắt chước". Chúng cần dữ liệu thao tác trực tiếp từ con người, bao gồm cả những lần thành công và thất bại, để tự rút ra mô hình hành vi tối ưu nhất. Sự khiếm khuyết dữ liệu thực tế này chính là nguyên nhân cốt lõi buộc ngành công nghệ phải mượn đến "nông trại cánh tay", dùng sức lao động thủ công lặp đi lặp lại để khỏa lấp điểm yếu tiến hóa của máy móc.

Cuộc chạy đua định hình lại chuỗi cung ứng công nghệ

Ngành công nghiệp đào tạo AI đang phình to với một tốc độ chóng mặt. Theo dự báo từ Nvidia, thị trường robot hình người có thể chạm mốc 38 tỷ USD trong thập kỷ tới. Song song với đó, thị trường dữ liệu huấn luyện AI cũng được kỳ vọng đạt quy mô hàng chục tỷ USD. Các gã khổng lồ đang đổ những nguồn lực khổng lồ vào cuộc đua này.

Tesla liên tục phô diễn sức mạnh của robot Optimus, nhưng đằng sau đó là các chiến dịch thu thập dữ liệu yêu cầu công nhân đội mũ bảo hiểm gắn camera và vác trên lưng những chiếc balo nặng tới 18kg chứa hệ thống cảm biến, lặp lại các thao tác hàng trăm lần trong nhà máy để hệ thống ghi nhận phản xạ cơ thể.

Công ty khởi nghiệp Figure AI, sau khi huy động được 1 tỷ USD, đã bắt tay với đại gia bất động sản Brookfield - tập đoàn sở hữu hơn 100.000 bất động sản - để thu thập dữ liệu chuyển động con người từ các môi trường sống thực tế và mở rộng quy mô trong thời gian tới. Công ty Scale AI do Meta hậu thuẫn cũng được cho là đã tích lũy hàng chục nghìn, thậm chí lên tới khoảng 100.000 giờ dữ liệu thao tác tương tự tại phòng thí nghiệm ở San Francisco.

Robot hình người Figure 02 được định hướng cho nhiều ứng dụng khác nhau, bao gồm môi trường công nghiệp và gia đình.

Không chỉ dừng lại ở camera gắn đầu, ngành công nghiệp còn mở rộng sang phương thức điều khiển từ xa (teleoperation). Con người sử dụng tay cầm để điều khiển robot nhặt đồ vật, nạp cả dữ liệu lỗi vào hệ thống để AI tự rút kinh nghiệm. Các nhà kho khổng lồ đang được lên kế hoạch xây dựng tại Đông Âu, nơi hàng nghìn tổng đài viên sẽ ngồi ôm joystick điều khiển robot ở đầu kia thế giới.

Startup Micro1 thì mở rộng hoạt động trên quy mô toàn cầu, trả tiền cho người dân tại Brazil, Argentina, Ấn Độ và Mỹ để đeo kính thông minh, ghi lại toàn bộ những tương tác thường ngày với thế giới vật lý, biến chính cuộc sống hàng ngày của con người thành dữ liệu huấn luyện cho AI.

Hệ quả đạo đức và viễn cảnh tương lai

Sự bùng nổ của quy mô thị trường lại đang che giấu một thực tế không dễ bỏ qua về đạo đức kinh doanh và sự chênh lệch trong chuỗi giá trị toàn cầu. Dòng tiền hàng tỷ USD chảy vào các trung tâm công nghệ tại Thung lũng Silicon, trong khi những người trực tiếp tạo ra dữ liệu huấn luyện cho robot lại nhận mức thù lao tương đối thấp. Tại Ấn Độ, các nhân viên trong các cơ sở thu thập dữ liệu thường chỉ kiếm được khoảng 230 đến 250 USD mỗi tháng, theo Quasa, đổi lại là những áp lực kéo dài về thị lực, cổ tay và sự đơn điệu của công việc lặp lại.

Ngay cả các doanh nghiệp địa phương cũng gặp không ít khó khăn trong việc tồn tại. Dev Mandal, một doanh nhân trẻ tại Bengaluru, từng xây dựng công ty chuyên cung cấp dữ liệu chuyển động, nhưng cuối cùng phải đóng cửa khi không thể đáp ứng các yêu cầu kỹ thuật ngày càng khắt khe từ phía khách hàng quốc tế.

Những tiêu chuẩn về môi trường ghi hình, từ màu sắc bề mặt, ánh sáng cho đến cách bố trí không gian, được đặt ra với độ chính xác rất cao, khiến chi phí vận hành tăng lên đáng kể. Trong khi đó, biên lợi nhuận của mô hình gia công dữ liệu vốn đã không lớn, khiến nhiều đơn vị khó duy trì hoạt động lâu dài.

Hình ảnh minh họa cho quá trình ghi lại chuyển động tay trong các “nông trại bàn tay” - nơi con người cung cấp dữ liệu để huấn luyện AI.

Tuy nhiên, câu hỏi lớn hơn không chỉ nằm ở mức thu nhập, mà ở vai trò lâu dài của chính những người lao động trong hệ sinh thái này. Họ đang góp phần tạo ra dữ liệu giúp robot ngày càng hoàn thiện hơn trong các thao tác vật lý. Ở giai đoạn đầu, các hệ thống còn nhiều hạn chế, thao tác chưa chính xác và thường xuyên mắc lỗi. Nhưng theo thời gian, khi lượng dữ liệu tích lũy đủ lớn, khả năng của chúng cải thiện rõ rệt.

Kavin, một nhân viên 27 tuổi tham gia vào dự án gán nhãn hàng chục nghìn video robot phân loại quần áo, cho biết anh có thể thấy sự tiến bộ này diễn ra từng ngày. Từ những cử động vụng về ban đầu, hệ thống dần trở nên ổn định và chính xác hơn. Với tốc độ phát triển hiện tại, nhiều người trong ngành tin rằng trong vòng 5 đến 10 năm tới, robot có thể đảm nhận phần lớn các công việc mang tính lặp lại mà con người đang thực hiện.

Ảnh minh hoạ robot thực hiện các công việc chân tay của con người.

Nhìn theo một cách khác, họ đang dành cả thanh xuân giúp mài giũa những cỗ máy sinh ra để lấy đi sinh kế của con người.

Đó là một nghịch lý của kỷ nguyên AI. Những công nghệ được kỳ vọng sẽ giảm bớt gánh nặng lao động cho con người lại đang được xây dựng dựa trên chính công việc lặp lại của con người. Câu hỏi đặt ra không chỉ là công nghệ sẽ tiến xa đến đâu, mà còn là cách mà giá trị được phân bổ trong quá trình đó, và vai trò của con người sẽ thay đổi ra sao khi hệ thống dần hoàn thiện.

Tham khảo: LA Times, Quasa

Theo Tuấn Nguyễn

Cùng chuyên mục
XEM