Một ngày của chúng ta diễn ra như thế nào trên Google?
Seth Stephens-Davidowitz là Tiến sĩ Kinh tế của Đại học Harvard. Công trình của ông tập trung vào việc sử dụng các nguồn dữ liệu lớn (Big Data) để phát hiện ra các hành vi và thái độ ẩn của con người.
Ông từng là một chuyên gia phân tích định lượng tại Google. Ông đang viết một cuốn sách dựa trên nghiên cứu của mình. Dưới đây là bài viết của ông cho New York Times:
Chúng ta tìm kiếm bác sĩ lúc 8:20 sáng, công thức nấu ăn lúc 4:52 chiều và tìm sự khai sáng lúc 3:16 sáng. Cho đến giờ dữ liệu Google mà các nhà phân tích làm việc thường được lưu trữ ở dạng hàng ngày, hàng tuần, hàng năm. Nhưng mới đây Google đã phát hành dữ liệu xuống đến tận từng phút và tôi đã xem dữ liệu của bang New York trong 4 ngày, chỉ một phần nhỏ nhưng vô cùng sắc nét.
Tỉ lệ tìm kiếm cho “mở khóa game” đối với những học sinh mà mạng ở trường không chặn chơi game, được lên đỉnh điểm lúc 8:04 sáng và ở mức cao cho đến 1:30 chiều rồi rơi xuống nhanh chóng.
Tỉ lệ tìm kiếm của “thời tiết”, “cầu nguyện”, “tin tức” cao nhất trước 5:30 sáng, bằng chứng cho thấy nhiều người dậy sớm hơn tôi. Tìm kiếm về “tự tử” lên đỉnh điểm lúc 12:36 sáng và ở mức thấp nhất lúc 9 giờ sáng, bằng chứng cho việc nhiều người cảm thấy ít đau khổ vào buổi sáng hơn tôi cảm thấy.
Các dữ liệu cho thấy rằng khoảng thời gian giữa 2 và 4 giờ sáng là thời gian chính cho các câu hỏi lớn: “Ý nghĩa của ý thức là gì?” “Tự do có tồn tại?” “Liệu có sự sống trên các hành tinh khác?” Sự phổ biến của những câu hỏi này vào ban đêm có thể là một phần kết quả của việc sử dụng cần sa vì tỉ lệ tìm kiếm cho "Làm thế nào để cuộn cần sa?" luôn cao điểm giữa 1 và 2 giờ sáng.
Đêm khuya cũng là khoảng thời gian phong phú với sự lo lắng. Đó là thời gian với tỉ lệ cao nhất của tìm kiếm bao gồm từ "triệu chứng", một loạt lo ngại tìm kiếm cho các cơn đau tim, ung thư ruột kết, đột quỵ, u não, HIV và các bệnh khác.
Một điểm yếu quan trọng trong dữ liệu này: Google phát hành tỉ lệ tìm kiếm, không phải tổng số lượng tìm kiếm. Nếu một tỉ lệ tìm kiếm cho một từ cao nhất vào lúc 3 giờ sáng, nó có nghĩa là tất cả các tìm kiếm tại thời điểm đó, có một tỉ lệ lớn bất thường bao gồm từ ngữ đó.
Một điểm yếu nữa của dữ liệu là: tìm kiếm của Google chắc chắn không nắm bắt hết mọi hoạt động. Ví dụ: Nếu bạn có một cuộc hẹn yoga thường xuyên vào buổi trưa, bạn sẽ không cần phải thực hiện bất kỳ tìm kiếm về nó.
"Phim khiêu dâm", Có tỉ lệ gấp ba lần phổ biến ở nam giới hơn phụ nữ, là từ tìm kiếm phổ biến nhất từ nửa đêm đến 2 giờ sáng. "truyện khiêu dâm" xuất hiện tìm kiếm chủ yếu từ phụ nữ, có một sự hiện diện đáng kể buổi sáng sớm (nó phổ biến nhất từ 3 đến 5 sáng). Tỉ lệ tìm kiếm cho "dụng cụ hỗ trợ tình dục" cao nhất vào khoảng 4 giờ sáng. Tìm kiếm liên quan đến bao cao su, chẳng hạn như "làm thế nào để mang bao cao su" đạt đỉnh lúc 10:28 tối.
Câu hỏi: “Sao phân của tôi màu xanh lá cây” thường được tìm kiếm vào giữa 5 và 6 giờ sáng cùng với giữa 6 và 7 giờ tối.
Có một số hiện tượng mà chúng tôi nhận được không rõ ràng trong những ngày quan sát như sau: Từ 2 đến 3 giờ sáng, tỉ lệ tìm kiếm cho "quên mật khẩu" là cao hơn 60% so với trung bình. Chúng ở mức thấp nhất khoảng 9 giờ sáng. Giữa 2 và 3 giờ sáng, chúng ta có nhiều hơn gấp hai lần việc đánh sai "facebook" thành "facbook" và gần gấp đôi khả năng viết sai chính tả "thời tiết" thành "tời tiết".
Trong khi phân tích chính của tôi dùng dữ liệu của bang New York, tôi cũng thử nghiên cứu một số khu vực khác. Hầu hết mọi người dân của nước Mĩ và thế giới đều có điểm tương đồng trong cách chúng ta tìm kiếm. Ví dụ như toàn bộ thế giới đều tìm kiếm và đọc tin tức đâu tiên vào buổi sáng hơn là khoảng thời gian nào khác trong ngày.
Một điểm khác biệt văn hóa khá thú vị là những gì tôi tìm thấy khi chúng ta ăn trưa. Với việc gia tăng tìm kiếm đột biến vào 12:30 trưa hàng ngày. Ở Mĩ, sẽ không có một hoạt động phù hợp nào vào giờ ăn trưa nhưng ở các nước khác lại rất khác biệt: Ở Anh, mọi người đọc tin tức. Ở Nhật có sự gia tăng đáng chú ý với các kế hoạch du lịch. Ở Bỉ thì bất cứ điều gì liên quan đến mua sắm.
Không có một phát hiện nào trên đây làm rung chuyển nền tảng hiểu biết của chúng ta về tâm lý con người nhưng chúng ta không nên đánh giá thấp dữ liệu mà Google đã cung cấp. Phân tích theo từng phút như trên là một vốn quý, nó vô cùng có ích với các nhà nghiên cứu.
Họ đã phân tích dữ liệu tội phạm theo từng phút và thấy rằng khiếu nại bạo lực gia đình tăng lên ngay lập tức sau khi đội tuyển bóng đá một thành phố đã thua trong một trận đấu mà họ tin rằng sẽ giành chiến thắng.
Một trong những sức mạnh của Big Data thật ra rất đơn giản. Giống như kính hiển vi giúp chúng ta nhìn vào những phần nhỏ hơn của một đối tượng vật lý thì Big Data sẽ giúp chúng ta phóng đại, len lỏi vào tâm trí của con người.