Đột phá mới: Trí tuệ nhân tạo biến tín hiệu não thành giọng nói, giúp người khiếm thanh "nói" được
Các nhà khoa học làm việc cật lực, với một lượng dữ liệu giới hạn, để tìm ra cách cho những người khiếm thanh một giọng nói.
Với những người mất khả năng nói, tín hiệu truyền từ não bộ xuống miệng. cổ họng để tạo thành âm mãi mãi bị kẹt lại trong đầu họ. Chưa ai có thể giải mã những tín hiệu đó để cho người khiếm thanh, cho họ một giọng nói. May mắn thay, có những nhà khoa học tận tụy với những dự án nghiên cứu, mong muốn khắc phục thiếu sót đó.
Ba đội ngũ nghiên cứu vừa đạt được một bước đột phá: họ phẫu thuật đặt lên vỏ não người bệnh những điện cực, thông qua hệ thống máy tính biến dữ liệu nhận được thành giọng nói. Sử dụng mạng neural network – một mạng máy tính hoạt động dựa trên cơ chế của một bộ não, chính là một trí tuệ nhân tạo - họ có thể tái tạo từ và câu để người bình thường có thể nghe được.
Trong những nỗ lực nghiên cứu được đăng tải, không có nhóm nghiên cứu nào có khả năng tạo được giọng nói theo cách thông thường như bạn tưởng. Thay vào đó, họ theo dõi hoạt động của những phần não cụ thể khi một người nói to, nói thầm hay nghe giọng khác nói. Mục tiêu của nghiên cứu là tái tạo được giọng nói từ tín hiệu từ não, họ đã làm được và theo lời Stephanie Martin, kĩ sư thần kinh thuộc Đại học Geneva, thành công này "chắc chắn rất lý thú".
Đa phần, cách giao tiếp của những người mất khả năng nói là sử dụng mắt hoặc những đầu ngón tay để điều khiển một hệ thống chọn chữ cái, tạo thành câu hoàn chỉnh. Có thể kể tới Stephen Hawking và chiếc ghế đặc biệt của ông. Nhưng với một giao diện não bộ - máy tính tạo ra được giọng nói trực tiếp, người khiếm thanh sẽ giao tiếp dễ dàng hơn nhiều: họ có thể điều chỉnh được cao độ của giọng nói, tốc độ giao tiếp. Họ sẽ có thể tham gia vào những cuộc tranh luận có tốc độ cao chẳng hạn.
"Chúng tôi đang tìm khuôn mẫu của các neuron bật và tắt ở những thời điểm khác nhau khi não bộ xử lý thông tin, và ảnh hưởng của chúng tới âm thanh phát ra", Nima Mesgarani, nhà khoa học máy tính tại Đại học Columbia nói. "Việc vẽ bản đồ neuron không dễ dàng gì". Trên mỗi người khác nhau, quá trình biến tín hiệu não thành âm thanh cũng khác nhau, nên trí tuệ nhân tạo phải được "huấn luyện riêng" để thích ứng với từng người. Hệ thống đạt được hiệu quả cao nhất với những đầu vào dữ liệu chính xác nhất, để có dược điều đó, cần phải mẫu thuật mở võ não và gắn điện cực lên não.
Các nhà nghiên cứu chỉ làm vậy trong những trường hợp hiếm có. Một là trong quá trình cắt bỏ u não, tín hiệu điện từ não được mở sẽ giúp các bác sĩ phẫu thuật tìm được những khu vực não chịu trách nhiệm điều khiển những chức năng nhất định. Một trường hợp khác là khi một người bệnh mắc chứng động kinh, phải theo phác đồ điều trị liên quan tới mở não, nhằm tìm nguồn gốc những cơn co giật.
Một nhà khiên cứu ước tính "chỉ có khoảng 20, có thể là 30 phút" cho việc thu thập dữ liệu. Vậy nên cơ sở dữ liệu cho những nghiên cứu chuyên sâu khá ít ỏi.
Với số dữ liệu ít ỏi nhưng đáng quý, họ thực hiện thử nghiệm: đưa dữ liệu vào mạng máy tính neural network. Hệ thống trí tuệ nhân tạo sẽ học bằng cách cân chỉnh kết nối giữa các điểm, dựa trên những dữ liệu là giọng nói được ghi âm, những âm thanh giọng nói một người có thể nghe được bằng tai.
Đội ngũ của giáo sư Mesgarani thử nghiệm dựa trên dữ liệu của 5 người mắc chứng động kinh. Hệ thống sẽ phân tích các bản ghi âm lấy được từ phần vỏ não điều khiển thính giác (điều khiển cả việc nghe và nói), lúc mà bệnh nhân nghe một bản ghi âm về một câu chuyện và nghe các bác sĩ đếm rõ ràng từ 0 đến 9.
Chỉ dựa trên dữ liệu lấy từ não, máy tính sẽ tái tạo những con số, biến chúng thành giọng nói. Một nhóm người nghe thử có thể nhận ra được các con số từ "zero – không" cho tới "nine – chín" với độ chính xác lên tới 75%.
Bạn nghe thử xem mình có nhận ra được các con số do máy tính tạo ra không?
Một đội ngũ nghiên cứu khác, được nhà khoa học máy tính Tanja Schultz tới từ Đại học Bremen dẫn dắt, sử dụng dữ liệu từ 6 cá nhân đang phẫu thuật não. Họ sử dụng microphone để thu giọng nói của chính mình, trong lúc đó điện cực gắn lên vùng não phụ trách vận động cơ bắp và sắp xếp từ ngữ thành tiếng sẽ thu lại những tín hiệu điện xuất hiện.
Hai nhà khoa học máy tính là Miguel Angrick và Christian Herff huấn luyện một mạng neural network để vẽ lên bản đồ điện cực dựa trên các bản ghi âm, rồi tái tạo từ ngữ từ những tín hiệu não thu được. Dựa trên một hệ thống tính điểm tự động, khoảng 40% từ ngữ trong đoạn ghi âm dưới đây được đánh giá là "hiểu được".
Đội ngũ nghiên cứu cuối cùng, với người chịu trách nhiệm là nhà phẫu thuật não Edward Chang từ Đại học California, tái tạo một câu hoàn chỉnh từ hoạt động não của ba bệnh nhân động kinh, khi họ được yêu cầu đọc lớn những từ cho trước. Trong bài thử kết quả, khoảng 166 người được nghe 1 câu và chọn ra đáp án đúng từ 10 lựa chọn. Có những câu nói có tỉ lệ chọn đúng tới 80%.
Các nhà nghiên cứu đẩy dự án xa thêm một bước nữa: họ sử dụng dữ liệu tín hiệu não thu được khi bệnh nhân nói thầm để tạo nên những câu hoàn chỉnh. Theo lời nhà nghiên cứu Christian Herff nói, thì đây là "một bước gần hơn tới hệ thống tạo ra giọng nói chúng ta đều đang nghĩ tới".
Tuy nhiên, vẫn cần phải xem hệ thống này sẽ hoạt động ra sao trên não bộ của những người mất khả năng nói. Những tín hiệu não của hoạt động "đọc thầm, nghĩ thầm" trong đầu rất khác với những tín hiệu của nghe và nói thông thường. Nếu không có âm thanh ngoài để khớp với hoạt động não, máy tính sẽ không biết phân biệt đâu là tín hiệu nghĩ thầm trong đầu.
Việc giải mã được suy nghĩ cần "một cú đột phá lớn", kĩ sư thần kinh học Gerwin Schalk công tại tại Trung tâm Ứng dụng Kĩ thuật não bộ Quốc gia Hoa Kỳ nói. "Chưa rõ phải làm điều đó thế nào".
Nhà nghiên Herff cho rằng có cách thực hiện điều đó. Có thể dựa trên cảm nhận của chính những người sử dụng hệ thống giao diện não bộ - máy tính: Nếu họ có thể nghe những ngôn ngữ được máy móc tạo ra trên thời gian thực, họ có thể căn chỉnh dòng suy nghĩ của mình để có được kết quả như mong muốn. Chỉ cần có đủ dữ liệu để cho máy học và người học, khoảng cách giữa não bộ và máy tính sẽ thu hẹp lại nhiều.