Kho dữ liệu cũ tỷ đô đẩy các ông lớn công nghệ AI vào cuộc đua khốc liệt
Thị trường dữ liệu đang trở nên nhộn nhịp trong cơn sốt giành vị trí thống trị công nghệ AI, với giá trị ước tính có thể lên đến 30 tỷ USD vào thập kỷ tới.
Vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới. Là trụ cột truyền thông cho các dịch vụ hot một thời như Myspace và Friendster, nền tảng này tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.
Ngày nay, chỉ còn 2 triệu tài khoản vẫn sử dụng Photobucket, theo công cụ theo dõi phân tích Sameweb. Nhưng cuộc cách mạng AI có thể mang lại cho nền tảng này sức sống mới.
Giám đốc điều hành Ted Leonard nói với Reuters, ông đang đàm phán với nhiều công ty công nghệ để cung cấp 13 tỷ bức ảnh và video trên Photobucket cho họ đào tạo các mô hình AI có khả năng tạo ra nội dung mới. Ông đã thảo luận về mức giá từ 5 cent đến 1 USD cho mỗi bức ảnh và hơn 1 USD cho mỗi video, mức giá khác nhau tùy theo người mua và loại hình ảnh.
Leonard nói thêm: “Các công ty đã nói rằng họ cần nhiều hơn thế nữa, trong đó một người nói muốn có hơn một tỷ video". Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại.
Các cuộc đàm phán này cho thấy công ty có thể đang nắm giữ số nội dung trị giá hàng tỷ USD, và thị trường dữ liệu đang trở nên nhộn nhịp như thế nào trong cơn sốt giành vị trí thống trị công nghệ AI.
Những gã khổng lồ công nghệ như Google, Meta và OpenAI (với sự hỗ trợ của Microsoft) ban đầu sử dụng miễn phí hàng loạt dữ liệu được lấy từ Internet để đào tạo các mô hình AI có tính sáng tạo như ChatGPT, khiến các mô hình này có thể bắt chước khả năng sáng tạo của con người.
Họ nói rằng làm như vậy vẫn hợp pháp và đảm bảo đạo đức, mặc dù họ phải đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền về hành vi này.
Đồng thời, các công ty công nghệ này cũng đang âm thầm trả tiền cho những nội dung hạn chế sau màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm từ nhật ký trò chuyện đến các hình ảnh cá nhân bị lãng quên từ lâu trên ứng dụng mạng xã hội.
Edward Klaris từ công ty luật Klaris Law, cho biết: “Hiện có nhiều bên sốt sắng tìm kiếm những người nắm giữ bản quyền các nội dung riêng tư”. Công ty này đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD, những người cấp phép truy cập vào kho lưu trữ ảnh, phim và sách của họ để đào tạo AI.
Reuters đã nói chuyện với hơn 30 người có kiến thức về các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để cung cấp thông tin về thị trường non trẻ này.
OpenAI, Google, Meta, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể, trong đó Microsoft và Google đã giới thiệu các quy tắc ứng xử của nhà cung cấp bao gồm các điều khoản về quyền riêng tư dữ liệu.
Google nói thêm rằng họ sẽ "có hành động ngay lập tức, lên đến mức và bao gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện ra hành vi vi phạm.
Nhiều công ty nghiên cứu thị trường lớn cho biết họ thậm chí còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI, nơi các công ty thường không tiết lộ các thỏa thuận. Một số ước tính, như Business Research Insights, cho rằng thị trường hiện ở mức khoảng 2,5 tỷ USD và dự đoán nó có thể tăng gần 30 tỷ USD trong vòng một thập kỷ.
Cơn sốt "vàng dữ liệu"
Cuộc đua chiếm đất dữ liệu diễn ra khi các nhà sản xuất mô hình AI có tính tổng hợp lớn phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo", đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.
Các công ty cho biết công nghệ này sẽ rất tốn kém nếu họ không thể sử dụng kho lưu trữ khổng lồ được thu thập miễn phí. Tuy nhiên, cách tiếp cận của họ đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.
Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và thông qua ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.
Ví dụ, trong những tháng sau khi ChatGPT ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh thô Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc trong thư viện của mình cho mục đích đào tạo.
Những thương vụ đầu tiên với các gã khổng lồ công nghệ này dao động từ 25 triệu USD đến 50 triệu USD mỗi vụ, và hầu hết sau đó còn tăng thêm. Và những công ty công nghệ nhỏ hơn cũng đã bắt đầu làm theo.
Một đối thủ cạnh tranh của Shutterstock, Freepik, nói với Reuters rằng họ đã đạt được thỏa thuận với hai công ty công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 xu cho mỗi hình ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết có thêm 5 giao dịch tương tự đang được thực hiện và từ chối xác định người mua.
OpenAI, một khách hàng đầu tiên của Shutterstock, cũng đã ký thỏa thuận cấp phép với ít nhất bốn tổ chức tin tức, bao gồm The Associated Press và Axel Springer. Thomson Reuters, chủ sở hữu của Reuters News, cho biết đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn AI, nhưng không tiết lộ chi tiết.
Chuẩn mực đạo đức
Một ngành công nghiệp gồm các công ty dữ liệu AI chuyên dụng cũng đang nổi lên, nhằm đảm bảo quyền đối với nội dung trong thế giới thực như podcast, video dạng ngắn và tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói, giống như Uber dành cho dữ liệu.
Công ty Defined.ai có trụ sở tại Seattle cấp phép dữ liệu cho một loạt công ty bao gồm Google, Meta, Apple, Amazon và Microsoft, giá cả khác nhau tùy theo người mua và loại nội dung. Giám đốc công ty này cho biết các công ty thường sẵn sàng trả từ 1 đến 2 USD cho mỗi hình ảnh, 2 đến 4 USD cho mỗi video dạng ngắn và 100 đến 300 USD mỗi giờ cho video dài hơn.
Giá thị trường cho văn bản là 0,001 USD mỗi từ. Những hình ảnh khỏa thân, đòi hỏi phải xử lý nhạy cảm nhất, có giá từ 5 đến 7 USD.
Defined.ai cho biết họ cũng chia những khoản thu nhập đó với các nhà cung cấp nội dung. Công ty tiếp thị các tập dữ liệu của mình là "có nguồn gốc hợp đạo đức" vì nó nhận được sự đồng ý từ những người có dữ liệu và loại bỏ thông tin nhận dạng cá nhân.
Một trong những nhà cung cấp của công ty, doanh nhân có trụ sở tại Brazil, cho biết ông trả cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế mà ông bán ra khoảng 20% đến 30% tổng số tiền giao dịch. Nhà cung cấp này nói những hình ảnh đắt giá nhất trong danh mục đầu tư của anh là những hình ảnh được sử dụng để đào tạo các hệ thống AI chặn nội dung như hình ảnh bạo lực bị các công ty công nghệ cấm.
Để thực hiện những yêu cầu đó, anh ta thu thập các hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật - chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa - thường ở những nơi ở Nam Mỹ và châu Phi. Người này đã nhận được hình ảnh từ các nhiếp ảnh gia tự do ở Gaza kể từ khi cuộc chiến bắt đầu, cộng với một số hình ảnh từ Israel.
Ông nói thêm, công ty của ông thuê các y tá đã quen với việc chứng kiến những vết thương bạo lực để chú thích những hình ảnh gây khó chịu.
"Vẫn thấy rủi ro"
Theo nhiều người trong ngành, mặc dù việc cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, nhưng việc phục hồi kho lưu trữ của các nền tảng cũ như Photobucket làm nhiên liệu cho các mô hình AI mới sẽ nâng cao những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng.
Các hệ thống AI đã bị phát hiện đang lấy lại các bản sao chính xác dữ liệu nguồn, chẳng hạn như hình của Getty Images, các đoạn văn nguyên văn của các bài báo trên New York Times và hình ảnh của người thật.
Điều đó có nghĩa là những bức ảnh riêng tư hoặc những suy nghĩ riêng tư của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng.
Giám đốc điều hành Photobucket, Leonard cho biết có cơ sở pháp lý vững chắc, trích dẫn bản cập nhật các điều khoản dịch vụ của công ty vào tháng 10, cấp cho công ty "quyền không hạn chế" để bán bất kỳ nội dung nào được tải lên nền tảng nhằm mục đích đào tạo hệ thống AI. Leonard coi việc bán dữ liệu đã được cấp phép là một giải pháp thay thế cho việc bán quảng cáo.
“Chúng tôi cũng cần thanh toán các hóa đơn của mình và điều này có thể mang lại cho chúng tôi khả năng tiếp tục cung cấp tài khoản miễn phí”.
Đại diện Defined.ai, Braga cho biết cô tránh mua nội dung từ các công ty như Photobucket mà thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng, những người có yêu cầu rõ ràng hơn về quyền cấp phép.
Braga nói về nội dung trên Photobucket: “Tôi thấy điều đó rất rủi ro. Nếu có AI nào đó tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận thứ đó thì đó là một vấn đề”.
Photobucket không phải là nền tảng duy nhất trong số các nền tảng chấp nhận cấp phép. Công ty mẹ của Tumblr, Automattic, cho biết vào tháng trước rằng họ đang chia sẻ nội dung với "các công ty AI được chọn lọc". Vào tháng 2, Reuters đưa tin Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung cho việc đào tạo các mô hình AI của Google.