Home Uncategorized Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu...

Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in

https://i0.wp.com/www.infovis-wiki.net/images/thumb/5/55/DIR.jpg/600px-DIR.jpg?resize=286%2C137Chỉ số dối (lie factor) phản ảnh mức độ ảnh hưởng thể hiện trên biểu đồ so với mức độ ảnh hưởng thể hiện qua dữ liệu. Dĩ nhiên, đó chỉ là hiệu ứng thị giác, chứ trong thực tế thì con số vẫn là … con số, không thể thay đổi được. Một khía cạnh khác trong việc trình bày biểu đồ là lượng dữ liệu và lượng mực in. Một biểu đồ có quá nhiều mực in mà quá ít dữ liệu không chỉ là một sự phí phạm mà còn là một biểu đồ tồi. Để đo sự tương quan giữa lượng mực in và lượng mực dành cho biểu đồ, Edward Tufte đề nghị dùng chỉ số dữ liệu trên mực in (data – ink ratio). 


Để cảm nhận được vấn đề, chúng ta có thể xem qua biểu đồ dưới đây:

Biểu đồ trên mô tả mối liên hệ giữa hai biến số (thể hiện qua trục hoành và trục tung). Nhìn qua thì cũng không có vấn đề gì nghiêm trọng, nhưng nếu nhìn kĩ chúng ta dễ dàng thấy biểu đồ quá nghèo nàn. Tất cả biểu đồ thật ra chỉ có 2 số liệu. Nhưng những “thông số” của biểu đồ thì rất nhiều. Màu nền là màu xám, tốn rất nhiều mực. Biểu đồ có 8 lằn ngang, 13 chữ số cho trục tung và trục hoành. Nếu tính diện tích mực in của biểu đồ thì chắc cũng phải 60 cm^2! Ấy thế mà chỉ có 2 số liệu trên ngần ấy diện tích. Biểu đồ này có vấn đề.

Một nguyên tắc quan trọng trong thiết kế biểu đồ là sử dụng mực in để trình bày dữ liệu chứ không phải để trang trí cho biểu đồ. Do đó, Tufte đề nghị dùng tỉ số mực in dành cho dữ liệu trên tổng số lượng mực in để đánh giá một biểu đồ. Nói cách khác, gọi DIR (data-ink ratio) là tỉ số dữ liệu và mực in, DIR được định nghĩa như sau:

DIR = (số mực dùng cho dữ liệu) / (tổng số mực dùng trong biểu đồ)

Tỉ số này cũng có thể hiểu như là tỉ số của tín hiệu trên nhiễu (signal over noise ratio). Tỉ số này cũng nên gần bằng 1. Theo đó, nên xoá bỏ những mực in không dùng cho dữ liệu hay thừa thải. Để minh hoạ cho khái niệm DIR, chúng ta có thể xem qua biểu đồ dưới đây:

Hình 7: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên 

Trong biểu đồ trên, chúng ta dễ dàng thấy có quá nhiều mực dành cho trang trí. Thứ nhất là màu nền (màu xám nhạt) là không cần thiết. Tại sao cần màu nền? Thứ hai là legend, “Time (min)”, cũng không cần thiết. Thứ ba là những đường ngang cũng không cần thiết. Ngay cả cách viết “Group A”, “Group B”, v.v. lặp lại chữ “Group” đến 4 lần! Biểu đồ trên có thể thiết kế lại như sau, bằng cách bỏ màu nền:  

Hình 8: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên (vẽ lại) 

Thật ra, cách chọn biểu đồ thanh cũng có thể phải thảo luận thêm, bởi vì biểu đồ này không phản ảnh đầy đủ dữ liệu. Biểu đồ thanh trên đây chỉ phản ảnh có thể là số trung vị hay trung bình, và 4 chữ số này có thể mô tả bằng chữ chứ không cần đến biểu đồ. Tuy nhiên, nếu chọn biểu đồ, chúng ta cần phải chọn biểu đồ khác để thể hiện dữ liệu. Tôi nghĩ biểu đồ hộp sẽ thích hợp hơn. Với biểu đồ hộp, chúng ta có thể trình bày số trung bình, trung vị, cự li, độ lệch chuẩn, v.v. Do đó, ngay cả cách thiết kế trên cũng chưa tối ưu.

Dưới đây là một ví dụ về biểu đồ có quá nhiều mực cho trang trí:

Hình 9: Mối tương quan giữa hai biến số

Biểu đồ này có quá nhiều gridlines dễ làm cho người xem mất tập trung. Có thể đơn giản thành:

Hình 10: Mối tương quan giữa hai biến số (biên tập lần 1)

Thật ra, nếu mục tiêu là chỉ ra mối tương quan thì những đường ngang đó cũng không cần thiết, và biểu đồ có thể đơn giản hơn nữa:

Hình 11: Mối tương quan giữa hai biến số (biên tập lần 2)

Ngay cả những đường enclosed cũng không cần. Do đó, biểu đồ có thể cải tiến thành:

Hình 12: Mối tương quan giữa hai biến số (biên tập lần 3) 

Nói tóm lại, khi thiết kế biểu đồ, ngoài việc tối thiểu hoá chỉ số dối, tác giả cần phải tối đa hoá chỉ số dữ liệu trên lượng mực in. Để tối đa hoá chỉ số này, tác giả phải đặt câu hỏi “nếu tôi xoá bỏ những vết mực này, lượng thông tin có giảm không?” Nếu câu trả lời là không, thì tác giả có thể thẳng tay xoá bỏ những chỗ không cần thiết. Nên nhớ rằng dữ liệu là tín hiệu, và lượng mực không dùng cho dữ liệu là nhiễu; do đó, thiết kế biểu đồ chúng ta cần tối đa hoá lượng tín hiệu và tối thiểu hoá độ nhiễu.

(Còn tiếp …)