Hiểu đúng (để bớt sợ) về màn trình diễn giọng nói "y như người thật" của Google Assistant
Google Assistant đã có thể nói chuyện như người thật. Khán giả trong sân khấu Google Build thì vỗ tay nồng nhiệt, báo giới thì lên tiếng e ngại. Liệu kịch bản Kẻ Hủy Diệt đã đến gần?
Tại sự kiện Build, Google đã một lần nữa chứng tỏ vị thế tuyệt đối của mình trong lĩnh vực AI. Nhưng một "thành tựu" của Google đã khiến rất nhiều người phải nhíu mày: trợ lý ảo Google Assistant đã có khả năng trò chuyện giống như con người! Màn demo của Google cho thấy, khi nhận cuộc gọi của Google Assistant, nhân viên các nhà hàng hoàn toàn không nhận ra mình đang nói chuyện với máy móc.
Google Duplex trên sân khấu Google I/O 2018: màn trình diễn khiến khán giả "đứng hình".
Những tranh cãi đã nhanh chóng nổ ra. Rất nhiều người đã ngay lập tức lên tiếng tỏ ra lo lắng, liệu kịch bản của Terminator (hay Her) đã tới gần? Ở mức độ vĩ mô hơn, nhiều chuyên gia công nghệ tại các trang báo lớn cũng bày tỏ lo ngại. Ví dụ, TechCrunch không ngần ngại cáo buộc: "Duplex (công nghệ giọng nói đằng sau Assistant) cho thấy Google đang thất bại trong việc thiết kế AI có đạo đức và sáng tạo".
Màn trình diễn khiến thế giới trầm trồ vì ngữ điệu giọng nói không khác gì con người.
Đáng tiếc rằng những mối lo sợ này có phần vô cớ. Đầu tiên, cần phải chỉ ra rằng Google đã lên tiếng xác nhận rằng Google Assistant sẽ luôn tự động nhận diện là AI mỗi lần thực hiện cuộc gọi. Kịch bản con người bị "lừa" nói chuyện với máy móc sẽ không xảy ra.
Khi đã gạt bỏ được mối lo ngại này, chúng ta sẽ phải lý giải câu hỏi tiếp theo: vậy Google cố cho Assistant có thể trở nên "người" hơn để làm gì?
Trí thông minh
Trước hết, hãy cùng bàn lại bản chất của các loại thiết bị/phần mềm thông minh. Bất cứ một tính năng "thông minh" nào cũng đều có 2 phần, phần "trí thông minh" và phần "trình bày". Phần "trí thông minh" có thể coi là phức tạp hơn, là nơi ẩn chứa các luật lệ rối rắm, các logic nghiệp vụ được "dịch" thành các thuật toán phức tạp. Phần "trình bày" có thể vẫn phức tạp, nhưng nhiệm vụ chính của phần này là làm thế nào để con người có thể tương tác với máy móc một cách dễ dàng nhất có thể.
Với trợ lý ảo, cán cân về độ phức tạp giữa phần "trí thông minh" và phần trình bày bớt chênh lệch đi một chút. Do ngôn ngữ nói của con người là một cách "trình bày" không đơn giản, các nhà phát triển sẽ phải dành rất nhiều công sức để có thể tạo ra các trợ lý ảo có khả năng hỏi-đáp với chúng ta. Thế nhưng, một khi đã có thể dạy smartphone/loa Bluetooth/PC có thể "trình bày" (và tương tác) bằng giọng nói, chúng ta lại phải trở về với vấn đề "thông minh". Thế giới AI vẫn tập trung để phát triển trí thông minh, để AI có thể thực hiện nhiều tác vụ hơn trước
Thực chất là ngữ cảnh ở đây rất giới hạn, không khác gì chatbot "thường".
Đây chính là mấu chốt của vấn đề với Google Assistant. Màn trình diễn tại I/O quả thật rất đáng kinh ngạc, nhưng nếu nhìn kỹ thì bạn sẽ thấy "trí thông minh" ở đây vẫn chỉ dừng ở mức độ của một trợ lý ảo/chatbot thông thường. Hãy để ý rất kỹ rằng, nội dung trình diễn chỉ gói gọn trong tính năng đặt lịch hẹn với các cửa hàng/tiệm dịch vụ thay cho người dùng. Mỗi lần bạn đặt chỗ tại cửa hàng, bạn sẽ hỏi và nhận bao nhiêu thông tin? Rõ ràng là không nhiều, chủ yếu vẫn chỉ là thời gian và số người mà thôi.
Tương lai xa
Từ 2 năm trước, Microsoft đã có thể trình diễn các tính năng đặt lịch khách sạn tại Build 2016. Điểm khác biệt của Google nằm ở chỗ, Google Assistant sẽ dùng giọng nói để giao tiếp với nhân viên nhà hàng, còn chatbot của Microsoft sẽ gọi đến API (hoặc dùng một cách nào đó, về mặt kỹ thuật) để tương tác với hệ thống IT của các nhà hàng, cửa tiệm. Theo Google, phần lớn các cửa hàng đều không có hệ thống hay chuyên môn về IT, do đó giao tiếp giữa thiết bị cá nhân và các cửa hàng bằng giọng nói sẽ là một bước tiến lớn về độ tiện dụng.
Nhưng về trí thông minh thì, xét qua tình huống trình bày (đặt lịch), Google vẫn chưa có bước tiến mang tính cách mạng nào cả. "Trí thông minh" của Google Assistant hay các trợ lý ảo khác hiện vẫn chỉ dừng ở mức độ chatbot, vẫn là các bộ luật kiểu "khách nói A thì tôi kết hợp với những gì tôi 'biết' để chọn câu trả lời B hoặc C".
Google Assistant mới biết "ừ à", mới học ngữ điệu thôi chứ chưa biết suy nghĩ hay yêu ghét đâu!
Quan trọng hơn nữa, hãy nhớ rõ rằng dù Google có thể giả lập được cách nói của con người, hiện tại ngay cả các mạng neuron vẫn chưa học được cách hiểu ngôn ngữ của con người. Lĩnh vực NLP (xử lý ngôn ngữ tự nhiên) vẫn còn một chặng đường dài phải đi. Chừng nào não người vẫn còn là ẩn số, các trợ lý ảo về bản chất vẫn là những trí thông minh... hạng ruồi đặt dưới những giọng nói giống người mà thôi.