AI của Google có thể vừa dịch chuẩn ngữ nghĩa, vừa giữ nguyên chất giọng người nói, tương lai không cần học ngoại ngữ vẫn "chém" tiếng Anh như gió là đây chứ đâu

17/12/2019 08:39 AM | Công nghệ

"Chị Google" sẽ được nâng cấp đáng kể khi có thể dịch chuẩn cả về ngữ nghĩa lẫn ngữ âm.

Trong những năm gần đây, các phần mềm, ứng dụng biên/phiên dịch tự động của Google đúng là đã có rất nhiều cải tiến đáng kể, nhưng mới chỉ dừng lại ở việc dịch chuẩn ngữ nghĩa chứ chưa chinh phục được ngữ điệu.

Điều đó có nghĩa là khi bạn sử dụng những phần mềm này, như Google Translate chẳng hạn, bạn có thể tra cứu, dịch nghĩa từ, cụm từ hay thậm chí là cả 1 câu dài với độ chính xác khá cao. Tuy nhiên khi bấm vào biểu tượng phát âm thì những gì bạn nghe được lại không khớp với giọng điệu, cách nhấn nhá của câu thoại gốc. Thế nên chúng ta mới từng có một “chị Google” huyền thoại là vì thế, với chất giọng đơ đơ đều đều đậm chất máy tính, dù bây giờ “chị” cũng khá hơn rất nhiều rồi.

AI của Google có thể vừa dịch chuẩn ngữ nghĩa, vừa giữ nguyên chất giọng người nói, tương lai không cần học ngoại ngữ vẫn chém tiếng Anh như gió là đây chứ đâu - Ảnh 1.

"Chị Google" dịch ngữ nghĩa thì khá chuẩn rồi, nhưng về ngữ âm thì chị vẫn còn nhiều hạn chế.

Mới đây, đội ngũ nghiên cứu của Google đã tiến hành thử nghiệm tương đối thành công một hệ thống dịch tự động mới, giữ nguyên lại chất giọng, độ trầm bổng của người nói. Nói một cách dễ hiểu, giả sử bạn nói tiếng Việt cho một người Mỹ nghe chẳng hạn, hệ thống này sẽ thu lại và dịch sang tiếng Anh mà vẫn giữ nguyên giọng của bạn, như thể bạn đang trực tiếp nói tiếng Anh chứ không cần thông qua “chị Google” nữa. Thế là không cần học ngoại ngữ, bạn cũng có thể “chém” tiếng Anh như gió vậy.

Trước khi tìm hiểu kĩ hơn thì mới bạn cùng xem video thử nghiệm nhỏ của họ đã.

Bài thử nghiệm phiên dịch giữ nguyên chất giọng của người nói.  

Tất nhiên là kết quả ban đầu có thể chưa được hoàn hảo, chính xác 100%, nhưng ít nhất là hệ thống dịch mới của Google đã có thể tái tạo lại giọng điệu cũng như tone nói của câu thoại gốc. Thành tựu này có được là nhờ hệ thống này đã dịch trực tiếp luôn nguồn âm thanh đầu vào, thay vì thông qua bất cứ bước trung gian nào khác.

Để dễ hình dung hơn, hãy cùng nhìn lại phương thức hoạt động của hệ thống dịch tự động cũ: Thu âm câu thoại, chuyển nó sang dạng văn bản, dịch đoạn văn bản, rồi cho máy “đọc” lại đoạn văn bản đã dịch. Điều này khiến cho toàn bộ những đặc điểm trong giọng nói của câu thoại gốc bị loại bỏ hoàn toàn. Với hệ thống mới, quá trình này trở nên đơn giản hơn rất nhiều: Thu âm câu thoại, dịch câu thoại, phát ra câu thoại đã dịch.

Đội ngũ nghiên cứu đặt tên cho hệ thống mới này là Translatotron, với bản chất hoạt động xoay quanh ảnh phổ (spectrogram). Đây là một dạng biểu đồ tần số âm thanh, thể hiện sóng âm trong quá trình nói. Translatotron có 3 bộ phận chính: Bộ phận đầu tiên sử dụng một mạng lưới neural để vẽ lại spectrogram của ngôn ngữ gốc và ngôn ngữ dịch; Bộ phận thứ hai biến spectrogram mới thu được thành dạng sóng âm mà con người có thể nghe thấy; Bộ phận cuối cùng sẽ chèn những đặc điểm trong giọng nói gốc vào giọng nói đã dịch.

AI của Google có thể vừa dịch chuẩn ngữ nghĩa, vừa giữ nguyên chất giọng người nói, tương lai không cần học ngoại ngữ vẫn chém tiếng Anh như gió là đây chứ đâu - Ảnh 3.

Hệ thống mới sẽ biến quá trình phiên dịch trở nên dễ dàng và chính xác hơn, cả về mặt ngữ nghĩa lẫn ngữ điệu.

Về mặt lý thuyết, hệ thống mới này sẽ dịch chuẩn hơn và hay hơn, vì quá trình dịch trải qua ít bước hơn so với hệ thống truyền thống trước đây. Tuy nhiên, vì mới chỉ là những bài thử nghiệm đầu tiên nên Translatotron mới chỉ hoạt động ổn định giữa tiếng Tây Ban Nha (ngôn ngữ gốc) và tiếng Anh (ngôn ngữ đích). Nhưng từ đoạn video trên, ta có thể thấy rõ ràng đây là một dự án rất tiềm năng và có thể sẽ được ứng dụng rộng rãi trong tương lai.

Bạn có thể theo dõi nhiều ví dụ hơn về Translatotron tại trang web này.

Theo DG

Cùng chuyên mục
XEM