
Tufte định nghĩa mật độ dữ liệu (data density index hay DDI) là số số liệu tính trên diện tích của biểu đồ. Nguyên tắc chung là tối đa hoá DDI, vì mục tiêu chính của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt.
Biểu đồ dưới đây trình bày số đối tượng nghiên cứu cho nhóm nam và nữ. Trong thực tế, biểu đồ này rất vô dụng vì tất cả chỉ có 2 số liệu mà thôi, nhưng chiếm rất nhiều không gian. Nếu chúng ta đo chiều cao và chiều ngang của biểu đồ (có thể tính bằng cm) thì sẽ có diện tích. Nhưng giả dụ như diện tích của biểu đồ là 10 cm^2, thì mật độ dữ liệu chỉ 2 / 10 = 0.2, tức rất thấp. Trong trường hợp này, tác giả không cần đến biểu đồ, mà chỉ đơn giản mô tả bằng chữ là đủ.

Biểu đồ dưới đây thể hiện mối tương quan giữa chiều cao (trục hoành) và trọng lượng (trục tung). Tác giả còn dùng màu để phân biệt dữ liệu cho nam và nữ. Biểu đồ có rất nhiều dữ liệu và thông tin. Đây là biểu đồ có mật độ dữ liệu cao, và có thể xem là rất tốt.

Edward Tufte làm một nghiên cứu nhỏ để so sánh mật độ dữ liệu của các tạp chí khoa học phổ thông và khoa học chuyên môn. Kết quả cho thấy tập san khoa học như Nature có mật độ dữ liệu cao nhất (7.4) so với Scientific American (0.8) và Times (2.8). Bài học ở đây là để tăng cao xác suất công bố trên những tập san lớn, cần chú ý đến tối ưu hoá mật độ dữ liệu trong biểu đồ.
Nhất quán trong cách thể hiện dữ liệu
Một nguyên tắc quan trọng khác trong thể hiện dữ liệu là trình bày những biến đổi của dữ liệu, chứ không phải thay đổi hình thức (như màu) để thể hiện một dữ liệu. Biểu đồ dưới đây là một ví dụ cho sự “vi phạm” nguyên tắc vừa đề cập:

Tác giả dùng hai màu xanh một cách luân phiên để chỉ mô tả tỉ lệ hút thuốc ở Anh. Năm thì không rõ ràng, đáng lẽ phải là 1974, 1978, 1982, …, 1994, nhưng tác giả để cho người đọc phải suy đoán. Đó là một điều đại kị trong phương pháp trình bày dữ liệu. Ngoài ra, những con số phần trăm (45%, 40%, v.v.) hình như được đặt vào những vị trí rất tuỳ tiện, chứ chẳng theo một qui luật nào cả. Có thể xem đây là một biểu đồ rất kém. Biểu đồ này có thể thiết kế lại tốt hơn, nhưng tôi để cho bạn đọc suy nghĩ và thử làm :-).
Tránh biểu đồ rác rưởi (Chart junk)!
Thuật ngữ “Chart Junk” cũng là một sáng kiến của Edward Tufte. Ông gọi biểu đồ rác rưởi là cách thể hiện dữ liệu một cách “hoa hoè” hay loè loẹt. Đây là cách thể hiện dữ liệu của giới báo chí hay nghệ sĩ. Những người này vì không am hiểu khoa học, nên hay lạm dụng những hình ảnh làm độc giả thiếu tập trung vào thông điệp chính của dữ liệu. Cần tránh những biểu đồ rác rưởi.
Một ví dụ tiêu biểu về biểu đồ rác rưởi mà Edward Tufte lấy ra để làm minh hoạ là biểu đồ dưới đây. Biểu đồ trình bày giá của kim cương từ năm 1978 đến 1982. Thay vì đường biểu diễn màu đỏ là đủ, người thiết kế biểu đồ cho thêm hình ảnh một cô gái trong tư thế gợi cảm. Với biểu đồ này, chắc chắn làm cho phần lớn người đọc không chú ý vào dữ liệu mà chăm chú nhìn vào cô gái, và thế là tác giả không đạt được mục tiêu của mình.

- Ai là độc giả của biểu đồ, hay ai sẽ dùng?
- Chọn hình thức thể hiện (biểu đồ thanh, biểu đồ tán xạ, v.v.)
- Sắp xếp dữ liệu thích hợp cho trục tung và trục hoành.
- Thêm vào các biến cần thiết.
- Biên tập nhiều lần để tăng mật độ dữ liệu.

Biểu đồ 17 sau khi thiết kế lại:
Biểu đồ 18 (trước):
Biểu đồ 18 (sau):
Biểu đồ 19 (trước):
Biểu đồ 19 (sau):
Biểu đồ 20 (trước):
Biểu đồ 20 (sau):
Biểu đồ 21 (trước):
Biểu đồ 21 (sau):
Một số biểu đồ “junk” trên báo chí VN