Sử dụng trí tuệ nhân tạo của Google, một nông trang dưa chuột tại Nhật Bản tự động hóa thành công

01/09/2016 21:02 PM | Công nghệ

Một kỹ sư ở Nhật Bản đã nảy ra ý tưởng dùng AI để xây dựng hệ thống phân loại dưa chuột cho trang trại của mình.

Khoảng một năm trước đây, mộ cựu nhân viên thiết kế hệ thống nhúng cho ngành công nghiệp ô tô ở Nhật Bản tên là Makoto Koike bắt đầu phụ việc tại trang trại dưa chuột của ba mẹ mình. Anh đã rất ngạc nhiên bởi số lượng công việc cần thiết để sắp xếp dưa chuột theo kích thước, hình dạng, màu sắc và các thuộc tính khác.

Cha của Makoto rất tự hào về loại dưa chuột gai do mình trồng và đã dành cả cuộc đời để cung cấp loại dưa này. Với hình dạng thẳng, phần thịt dày, màu sắc sống động và có gai, loại dưa chuột tại trang trại của gia đình Makoto là một sản phẩm cao cấp với giá bán cao hơn nhiều so với dưa chuột bình thường.

Nhưng Makoto nhận ra rằng việc phân loại dưa chuột khó khăn và phức tạp cũng giống như sự phát triển của chúng. Anh nói: "Mỗi trái dưa chuột có màu sắc khác nhau, hình dạng, chất lượng và độ tươi không giống nhau".

Ở Nhật Bản, mỗi trang trại có tiêu chuẩn phân loại riêng của mình và không có tiêu chuẩn chung nào cho vấn đề này. Tại trang trại Makoto, họ sắp xếp chúng thành 9 loại khác nhau. Mỗi khi vào cao điểm thu hoạch, mẹ của Makoto phải dành 8 giờ một ngày để làm công việc này.

Makoto tiết lộ: "Công việc phân loại không phải là một nhiệm vụ dễ dàng. Bạn không chỉ phải nhìn vào kích thước, độ dày, màu sắc, kết cấu, vết trầy xước nhỏ mà còn phải xem chúng thẳng hay cong và có gai hay không. Phải mất vài tháng để tìm hiểu hệ thống phân loại này, thậm chí chúng tôi phải thuê người làm việc bán thời gian trong những lúc bận rộn nhất. Bản thân tôi cũng vừa học được cách sắp xếp dưa chuột".

Trên thị trường có một số máy phân loại tự động nhưng lại có nhiều hạn chế về hiệu suất và chi phí khiến các trang trại nhỏ khó lòng trang bị.

Tuy nhiên, Makoto nghĩ rằng phân loại dưa chuột không phải là công việc cần thiết với nông dân. Anh nói: "Nông dân muốn tập trung và dành nhiều thời gian của họ vào việc phát triển rau ngon. Tôi muốn tự động hóa việc sắp xếp trước khi tiếp nhận việc kinh doanh trang trại từ cha mẹ của mình".

Sử dụng công nghệ học sâu

Makoto lần đầu tiên nảy ra ý tưởng sử dụng máy học để phân loại dưa chuột khi chứng kiến sức mạnh của Google AlphaGo. Anh nói: "Khi tôi nhìn thấy AlphaGo của Google, tôi nhận ra điều thực sự quan trọng trong đó. Đó là khởi nguồn ý tưởng của tôi để bắt đầu thiết kế các máy phân loại dưa chuột với công nghệ học tập sâu".

Bằng cách sử dụng công nghệ học tập sâu, các máy tính sẽ được nạp vào các bức ảnh về dưa chuột để nhận diện các đặc điểm quan trọng của chúng. Sử dụng một hệ thống phân cấp với nhiều tế bào thần kinh nhân tạo, công nghệ học tập sâu có thể tự động phân loại hình ảnh với độ chính xác cao. Với một số công việc nhất định, mạng lưới thần kinh này thậm chí có thể vượt qua hiệu suất của con người.

TensorFlow hiện thực hóa sức mạnh của công nghệ học sâu

"Google cung cấp mã nguồn TensorFlow vì vậy tôi cố gắng khiến nó học tập từ hình ảnh những trái dưa chuột của mình. Đây là lần đầu tiên tôi cố gắng sử dụng công nghệ học sâu và ngay lập tức nó cho độ chính xác cao hơn dự đoán. Từ đó tôi tin tưởng rằng công nghệ này có thể giải quyết vấn đề của mình".

Với TensorFlow, bạn không cần phải có kiến thức về các mô hình toán học tiên tiến và tối ưu hóa các thuật toán cần thiết để thực hiện mạng lưới thần kinh sâu. Chỉ cần tải về các đoạn code mẫu, đọc hướng dẫn và bắt đầu thử nghiệm. Thư viện mã nguồn sẽ làm giảm thời gian đáng kể cho máy học và kể từ khi Google mở cửa TensorFlow, nhiều kỹ sư đã bắt đầu xây dựng các ứng dụng của riêng họ dựa trên công nghệ này.

Thiết kế hệ thống phân loại dưa chuột

Hệ thống mà Makoto xây dựng sử dụng Raspberry Pi 3 như bộ điều khiển chính để chụp ảnh hình ảnh của dưa chuột (qua camera). Trong giai đoạn đầu tiên, nó cũng sẽ điều hành mạng lưới thần kinh nhỏ trên TensorFlow để phát hiện có hay không hình ảnh một trái dưa chuột. Sau đó, nó sẽ chuyển hình ảnh vào một mạng lưới thần kinh TensorFlow lớn hơn chạy trên một máy chủ Linux để thực hiện phân loại chi tiết hơn.

Thúc đẩy các giới hạn của công nghệ học sâu

Một trong những thách thức hiện tại của công nghệ học sâu là bạn cần có một số lượng lớn các tập dữ liệu để huấn luyện cho trí thông minh nhân tạo. Để đào tạo các mô hình, Makoto dành khoảng ba tháng để chụp 7000 bức ảnh dưa chuột đã được sắp xếp bởi mẹ của mình nhưng như thế có vẻ vẫn chưa đủ.

Anh cho biết: "Tôi đã kiểm chứng với hình ảnh thử nghiệm, độ chính xác nhận vượt quá 95%. Tuy nhiên, nếu bạn áp dụng hệ thống vào thực tế tỷ lệ chính xác giảm xuống còn 70%. Tôi cho rằng mô hình mạng thần kinh có vấn đề "overfitting"(hiện tượng mạng lưới thần kinh của mô hình được đào tạo chỉ phù hợp với bộ dữ liệu huấn luyện nhỏ) vì không đủ số lượng hình ảnh đào tạo".

Hệ thống phân loại dưa chuột dựa trên AI

Thách thức thứ hai của học sâu là nó tiêu tốn rất nhiều sức mạnh tính toán. Trong khi đó, máy phân loại hiện tại sử dụng máy tính Windows bình thường để đào tạo mạng thần kinh. Mặc dù nó chuyển đổi hình ảnh dưa chuột thành 80 x 80 pixel nhưng độ phân giải này về cơ bản vẫn còn thấp, phải mất 2 đến 3 ngày để đào tạo các mô hình với 7000 bức ảnh.

Makoto giải thích: "Ngay cả với hình ảnh độ phân giải thấp này, hệ thống chỉ có thể phân loại dưa chuột dựa trên hình dạng, độ dài và mức độ biến dạng của nó. Hệ thống không nhận ra màu sắc, kết cấu và gai. Tăng độ phân giải hình ảnh để phóng to quả dưa chuột sẽ cho kết quả chính xác hơn nhiều nhưng cũng tốn nhiều thời gian hơn để đào tạo hệ thống".

Để cải thiện các mô hình học sâu, một số doanh nghiệp đã bắt đầu thực hiện phân phối quy mô đào tạo lớn với những máy chủ có chi phí khổng lồ. Google cung cấp Cloud Machine Learning (Cloud ML) – một nền tảng đám mây chi phí thấp cho đào tạo. Với Cloud ML, Google xây dựng một cụm đào tạo quy mô lớn và bạn chỉ bỏ tiền để sử dụng mà không phải tốn chi phí để đầu tư cả hệ thống.

Makoto đang háo hức chờ đợi đám mây ML: "Tôi có thể sử dụng đám mây ML thử đào tạo các mô hình với hình ảnh độ phân giải cao hơn và nạp vào nhiều dữ liệu hơn để huấn luyện. Ngoài ra, tôi có thể thay đổi các cấu hình, thông số và các thuật toán của mạng thần kinh để xem làm thế nào cải thiện được độ chính xác của hệ thống. Tôi không thể chờ đợi thêm để thử nó".

Tham khảo: Google

Billvn

Cùng chuyên mục
XEM