Công nghệ nhận diện giọng nói của IBM xác lập kỷ lục mới, khả năng nghe hiểu đã ngang ngửa con người

10/03/2017 05:01 PM | Công nghệ

Đây được coi là tín hiệu đầu tiên cho một màn thắng lớn về một trí tuệ nhân tạo có thể sống trên smartphone hay những trợ lý ảo giọng nói như Siri, Alexa, Google Assistant.

Công nghệ nhận diện giọng nói của IBM xác lập kỷ lục mới, khả năng nghe hiểu đã ngang ngửa con người

Trong giới phần mềm nhận diện giọng nói, tỷ lệ nhận diện sai 5,1% đã là con số “thần thánh” đáng mơ ước.

Về cơ bản, các phần mềm với tỷ lệ sai sót ở mức này đã có thể sánh ngang với tai người – cũng thường bỏ lỡ/nghe nhầm khoảng 5% lời thoại trong một cuộc trò chuyện bất kỳ.

Ngày 7/3 vừa qua, IBM đã ghi dấu ấn đầu tiên trong việc đạt được thành tựu này: Phần mềm của hãng có tỷ lệ lỗi chỉ 5,5%. Đây được coi là tín hiệu đầu tiên cho một màn thắng lớn về một trí tuệ nhân tạo có thể sống trên smartphone hay những trợ lý ảo giọng nói như Siri, Alexa, Google Assistant.

Giáo sư Khoa học máy tính Julia Hirschberg của ĐH Columbia New York nhận định: “Khả năng nhận diện giọng nói tốt ngang con người trước nay vẫn là một thách thức lớn, bởi lời thoại của con người, đặc biệt là trong các cuộc trò chuyện ngẫu hứng, luôn rất phức tạp khó đoán.”

Trong suốt năm qua, IBM đã nỗ lực phá bỏ kỷ lục 6,9% của chính mình. Để đạt được 1,4% này, công ty đã phải thay đổi nhiều khía cạnh âm vị học để phần mềm có thể bắt đúng nhiều dạng lời thoại khác nhau.

Tuy các chuyên gia như giáo sư Hirshberg luôn cho rằng máy tính vẫn sẽ không thể nhận diện được một số sắc thái trò chuyện đặc biệt như tông giọng, ẩn dụ,... nhưng phần mềm của IBM đã đạt được nhiều bước tiến đáng kể trong việc chép chính tả lại lời người nói.

Các thử nghiệm dành cho phần mềm nhận diện giọng nói của IBM cũng không hề đơn giản. Trong bài đánh giá gần đây nhất, phần mềm được yêu cầu nhận diện những câu thoại được nói trong ngữ cảnh hàng ngày, chẳng hạn như đi mua xe, với hàng loạt từ nói lắp, những tiếng lầm bầm hay “ờ, à,…” liên tục.

IBM cho biết tỷ lệ 5,5% thực sự là một cột mốc quan trọng trong lĩnh vực mà người ta vẫn chưa tin là có thể bắt kịp được khả năng con người.

Chuyên gia nghiên cứu George Saon của công ty cũng không quên nhắc lại rằng: “Các đối thủ trong ngành đang nỗ lực theo kịp thành tựu này của chúng tôi; một số gần đây đã khẳng định đạt tỷ lệ 5,9%."

Để tiện so sánh, năm 2016, các nhà nghiên cứu của Microsoft từng khẳng định họ đã xây dựng được một máy tính có thể đánh bại cả con người về khả năng nghe hiểu. Tuy nhiên, tỷ lệ sai của phần mềm lại lên đến 6,3%, vẫn cao hơn rất nhiều so với kỷ lục mới thiết lập của máy tính “nhà” IBM.

Theo Ngocmiz

Trí Thức Trẻ

Cùng chuyên mục
XEM

NỔI BẬT TRANG CHỦ

Token trên Lotus là gì và Token sinh ra để làm gì?

Ngày 16/9, mạng xã hội Lotus đã chính thức đưa vào hoạt động giai đoạn open beta và token là điểm nhấn thú vị dành cho trải nghiệm của người dùng.

Trước phiên phúc thẩm, tài sản Trung Nguyên được chia thế nào?

Phiên xử phúc thẩm vụ án ly hôn giữa bà Lê Hoàng Diệp Thảo và ông Đặng Lê Nguyên Vũ dự kiến diễn ra vào ngày 18-20.9. Cuộc ly hôn nghìn tỉ kéo dài gần 4 năm này đã tốn không ít giấy mực của báo chí và nhận được sự quan tâm lớn của dư luận.

Google nói về sức nóng TMĐT Việt Nam: Lượng tìm kiếm từ khóa về Tiki, Sendo, Shopee, Adayroi tăng gấp 8 lần trong 3 năm qua

Trong 3 năm vừa qua, số lượng tìm kiếm Google các từ khóa về các sàn thương mại điện tử tăng gấp 8 lần.

Đọc thêm