Baidu tuyên bố vượt mặt Google và Apple trong công nghệ nhận dạng giọng nói

19/12/2014 12:16 PM | Công nghệ

Khi chuyên gia về trí thông minh nhân tạo Andrew Ng gia nhập Baidu vào tháng 5 dưới cương vị giám đốc khoa học, ông và các chuyên gia đã âm thầm phát triển dự án công nghệ nhận diện giọng nói trên smartphone.

Hôm nay, Baidu, công ty được mệnh danh là Google của Trung Quốc, đã chính thức công bố những kết quả đầu tiên của dự án công nghệ này, đây cũng là công nghệ mà các nhà nghiên cứu của Google đang triển khai nhưng chưa hoàn thiện được.

Trong một bài báo xuất bản bởi trường ĐH Cornell, Andrew Ng và 10 thành viên thuộc nhóm nghiên cứu của Baidu, đứng đầu là nhà nghiên cứu khoa học Awni Hannun, cho biết họ đã tìm ra một phương pháp mới để nhận biết chính xác hơn giọng nói, một tính năng quan trọng được sử dụng trong các sản phẩm của Apple - Siri và Dictation cũng như tính năng tìm kiếm bằng giọng nói của Google.

"Deep Speech của Baidu đánh bại các phương pháp khác của Google và Apple dựa trên các tiêu chuẩn đo lường tỷ lệ lỗi của hệ thống nhận dạng giọng nói", tờ báo dẫn lời của Andrew Ng.

Đặc biệt, phương pháp của Deep Speech hoạt động tốt hơn so với các ứng dụng khác trong môi trường ồn ào, chẳng hạn như trong một chiếc xe hơi hay giữa đám đông. Đó là chìa khóa thành công, tất nhiên, khiến cho công nghệ nhận dạng giọng nói thực sự hữu ích trong thế giới thực.

Trong môi trường có nhiều tiếng ồn, Andrew Ng cho biết, thử nghiệm cho thấy Deep Speech vượt trội so với một số hệ thống, như Google Speech API, wit.ai , Microsoft’s Bing Speech , và Apple Dictation trên 10% về tỷ lệ lỗi từ.

Andrew Ng, trưởng ban dự án khoa học của Baidu

Ông Andrew Ng, trưởng ban dự án khoa học của Baidu

"Nghiên cứu gần đây của Baidu là bước đột phá trong công nghệ nhận dạng giọng nói sẽ được thực hiện trong tương lai", Ian Lane, trợ lý giáo sư nghiên cứu về kỹ thuật tại Đại học Carnegie Mellon, cho biết trong một thông cáo báo chí.

Cũng giống như các hệ thống nhận dạng giọng nói khác, hệ thống của Baidu dựa trên một nhánh của AI gọi là "deep learning". Phần mềm này cố gắng để bắt chước các hoạt động trong lớp tế bào thần kinh ở vỏ não, dưới hình thức rất sơ khai. Từ đó, hệ thống tiến hành quá trình "học tập", tìm hiểu để nhận biết các hình mẫu âm thanh, hình ảnh, và các dữ liệu khác.

"Thế hệ đầu tiên của nhận dạng giọng nói "deep learning" đã đạt tới giới hạn", Andrew Ng cho biết trong một cuộc phỏng vấn.

Baidu không tiết lộ một cách chi tiết trong thông báo sáng nay, vì vậy Google, Apple, và các hãng công nghệ khác cũng chưa đưa ra nhận xét nào.

>> Không phải Alibaba, Baidu mới là cổ phiếu công nghệ Trung Quốc tốt nhất

Thái Nam

Nguyễn Trung Anh

Cùng chuyên mục
XEM