Yahoo nghiên cứu 16 tỷ email để tìm cách dẫn đầu hệ thống email thế hệ mới

08/05/2015 08:48 AM | Công nghệ

Vì hành vi gửi e-mail của con người rất dễ đoán nên các nhà khoa học máy tính đã tạo ra một thuật toán có thể tính toán khi nào một e-mail chuẩn bị chấm dứt mạch nội dung của nó.

Nội dung nổi bật:

- Thư điện tử đóng một vai trò vô cùng quan trọng trong đời sống của phần đông dân số thế giới. Tuy vậy còn nhiều câu hỏi về email mà mọi người cần lời giải đáp.

- Ngày hôm nay, chúng ta đã có được câu trả lời cho một loạt những câu hỏi như thế nhờ vào công trình của những nhà nghiên cứu tại Yahoo Labs ở Barcelona và California và tại Đại học Nam California.

- Kết quả là những mẫu e-mail rất đáng tin cậy đến mức cho ra đời một thuật toán máy tính có thể dự đoán trước độ dài của một lá thư điện tử và khi nào cuộc hội thoại có vẻ sẽ chấm dứt.


Thật dễ dàng để tưởng tượng rằng những nhà nhân chủng học điện toán đã phải tốn thời gian nghiền ngẫm những cơ sở dữ liệu e-mail khổng lồ để xác định sự tác động của hình thức nhắn tin tương đối mới này đến lối sống thông thường.

Nhưng sự thật không như vậy. Tương đối ít những nghiên cứu đã được hoàn thành dựa trên những mẫu e-mail nhỏ và cho ra đời những khám phá khá đơn giản. Chúng bao gồm sự thật về việc một số người trả lời e-mail theo thứ tự thư đến trong khi những người khác chọn những thư quan trọng nhất để trả lời đầu tiên.

Để khắc phục lổ hỗng kiến thức này, Farshad Kooti tại Đại học Nam California và bạn bè đã nghiên cứu một cơ sở dữ liệu chứa 16 tỷ thư điện tử trong Yahoo Mail từ những người đã đồng ý cho phép thông tin của họ sẽ được sử dụng cho mục đích nghiên cứu.

Vì phần lớn mọi người thường nhận được các e-mail là thư rác hoặc thư trả lời tự động, nên nhóm nghiên cứu đã chọn chỉ những e-mail được hai cá nhân trao đổi trong một cuộc hội thoại kéo dài ít nhất là năm lần gửi thư.

16 tỷ e-mail này lấy từ tài khoản của hai triệu người sử dụng độc nhất và chỉ bao gồm thư từ các lĩnh vực thương mại và từ những tài khoản Yahoo khác mà đã chọn tham gia vào nghiên cứu. Trong số 16 tỷ e-mail này, 187 triệu thư đã được trao đổi giữa các cặp người sử dụng trong chính cơ sở dữ liệu. Đây là những thư tâm điểm của sự quan tâm.

Sau đó, những nhà nghiên cứu đã có thể tìm hiểu bản chất thống kê của hình thức giao tiếp theo cặp qua việc sử dụng những thông tin như ID người gửi, ID người nhận, thời gian gửi, chủ đề thư, nội dung thư và số lượng file đính kèm.

Nhằm đảm bảo sự riêng tư, những nhà nghiên cứu đã ẩn danh người gửi và người nhận và không phân tích nội dung trong phần thân của những e-mail. Thay vào đó, họ sử dụng các thuật toán để trích xuất số liệu thống kê từ những phần thân e-mail, như độ dài thư, số lượng ID e-mail trong một mạch nội dung, và những đặc điểm khác.

Những nhà nghiên cứu đã nhóm e-mail giữa những cá nhân đã chia sẻ cùng một chủ đề, (dù tất cả, nhưng mỗi thư phải bắt đầu với "Re:") và sắp xếp chúng theo dấu thời gian.

Sau đó họ nghiên cứu các tính năng đa dạng của các chuỗi e-mail, chẳng hạn như thời gian cần để trả lời một e-mail, độ dài của thư trả lời cũng như những yếu tố này khác nhau như thế nào căn cứ vào độ tuổi và giới tính của người gửi và nhiều thứ khác.

Các kết quả thực sự rất thú vị. Nó chỉ ra rằng những người trẻ tuổi gửi những thư trả lời nhanh hơn, ngắn hơn và đàn ông trả lời hơi nhanh hơn ngắn hơn so với phụ nữ.

Thời gian viết thư cũng là một yếu tố. "Chúng tôi đã tìm ra rằng vào những ngày trong tuần và trong giờ làm việc thì người ta trả lời thư nhanh hơn, và thư trả lời có xu hướng ngắn hơn khi trả lời thư vào những ngày cuối tuần," – Kooti và nhóm cho biết.

Và các thiết bị di động cũng có phần ảnh hưởng. "Thư trả lời từ các thiết bị di động được viết nhanh hơn và ngắn hơn từ máy tính để bàn, và những e-mail không có file đính kèm thường được trả lời nhanh hơn," - họ nói thêm.

Một hiện tượng ngày càng quan trọng là quá tải hộp thư. Nhóm Kooti thấy rằng khi người ta nhận được nhiều e-mail, họ sẽ tăng tốc độ trả lời nhưng vẫn không đủ để bù đắp cho số lượng thư nhiều hơn.

Nói cách khác, khi mọi người càng bị quá tải hộp thư, họ sẽ chỉ trả lời một phần nhỏ những e-mail với thư trả ngắn. "Tuy nhiên, tốc độ hồi đáp của họ vẫn giữ nguyên và thậm chí có thể nhanh hơn" - các nhà nghiên cứu kết luận.

Nhóm nghiên cứu cũng đã xem xét sự khác biệt giữa một e-mail và thư trả lời của nó, chẳng hạn như số lượng từ được sử dụng và thời gian giữa những thư trả lời. Điều thú vị là, trong nửa đầu của một cuộc hội thoại, những thư trả lời càng trở nên giống nhau cả trong thời gian trả lời và độ dài thư trả lời. Tuy nhiên, tất cả đều thay đổi sau khi hành vi trả lời càng lúc càng khác biệt.

Những mẫu nghiên cứu đã giúp nhóm xây dựng nên một thuật toán máy tính để phát hiện các giai đoạn khác nhau của những cuộc hội thoại qua e-mail và dự đoán khi nào chúng có vẻ sẽ kết thúc. Họ đã lập trình thuật toán này để dự đoán thời gian và độ dài của thư trả lời và xác định khi nào một e-mail sẽ trở thành tin cuối cùng của mạch hội thoại.

Mặc dù những dự đoán này không mang tính tuyệt đối, nhưng chúng đủ tốt để có một tác động đối với những hệ thống e-mail sẽ được thiết kế trong tương lai. "Khả năng dự đoán chính xác những lá thư mà một người sẽ trả lời có thể được e-mail khách hàng sử dụng để xếp thứ tự e-mail trong hộp thư theo ưu tiên của họ, do đó giúp giảm bớt gánh nặng từ việc quá tải thông tin" – nhóm nghiên cứu giải thích.

Đó là một công việc thú vị có thể giúp xác định cách mà những thuật toán xử lý hộp thư của chúng ta trong tương lai. Bất cứ điều gì hữu ích giúp giảm bớt gánh nặng từ việc quá tải hộp thư đều có thể trở thành một phần quan trọng ẩn sau bộ máy quan liêu của giới truyền thông

Yahoo rõ ràng có lợi ích trong những kiểu công trình nghiên cứu thế này, vì vậy thật đáng ngạc nhiên là loại hình nghiên cứu này hiện tại mới được thực hiện lần đầu tiên. Với tất cả may mắn, quá trình hợp nhất những kết quả nghiên cứu vào những hệ thống e-mail trong tương lai sẽ không tốn quá nhiều thời gian.

>> Yahoo có một quý đáng quên, CEO Mayer lại đau đầu

Thanh Phương

CTV Thinh OrientVN

Cùng chuyên mục
XEM