Biểu đồ trong bài báo khoa học 4: mật độ dữ liệu

https://i2.wp.com/ed-informatics.org/wp-content/uploads/2010/03/Tufte-Chartjunk.png?resize=168%2C176Nguyên tắc số 3 trong trình bày biểu đồ là tối đa hoá mật độ dữ liệu (data density index). Hai bài trước đã bàn về tỉ số dữ liệu trên mực inchỉ số dối. Trong bài này tôi sẽ bàn về mật độ dữ liệu và sự nhất quán trong cách trình bày. Ngoài ra, tôi cũng chia sẻ một loại biểu đồ mà Edward Tufte đặt tên là junk chart (biểu đồ rác rưởi) rất phổ biến trong báo chí. Đây là bài cuối cùng trong loạt bài viết về cách trình bày dữ liệu bằng bảng đồ. 

 
Tufte định nghĩa mật độ dữ liệu (data density index hay DDI) là số số liệu tính trên diện tích của biểu đồ. Nguyên tắc chung là tối đa hoá DDI, vì mục tiêu chính của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt.

Biểu đồ dưới đây trình bày số đối tượng nghiên cứu cho nhóm nam và nữ. Trong thực tế, biểu đồ này rất vô dụng vì tất cả chỉ có 2 số liệu mà thôi, nhưng chiếm rất nhiều không gian. Nếu chúng ta đo chiều cao và chiều ngang của biểu đồ (có thể tính bằng cm) thì sẽ có diện tích. Nhưng giả dụ như diện tích của biểu đồ là 10 cm^2, thì mật độ dữ liệu chỉ 2 / 10 = 0.2, tức rất thấp. Trong trường hợp này, tác giả không cần đến biểu đồ, mà chỉ đơn giản mô tả bằng chữ là đủ.

Hình 13: Số học sinh phân chia theo giới tính

Biểu đồ dưới đây thể hiện mối tương quan giữa chiều cao (trục hoành) và trọng lượng (trục tung). Tác giả còn dùng màu để phân biệt dữ liệu cho nam và nữ. Biểu đồ có rất nhiều dữ liệu và thông tin. Đây là biểu đồ có mật độ dữ liệu cao, và có thể xem là rất tốt.

Hình 14: Mối tương quan giữa chiều cao và cân nặng cho nam và nữ

Edward Tufte làm một nghiên cứu nhỏ để so sánh mật độ dữ liệu của các tạp chí khoa học phổ thông và khoa học chuyên môn. Kết quả cho thấy tập san khoa học như Nature có mật độ dữ liệu cao nhất (7.4) so với Scientific American (0.8) và Times (2.8). Bài học ở đây là để tăng cao xác suất công bố trên những tập san lớn, cần chú ý đến tối ưu hoá mật độ dữ liệu trong biểu đồ.

Nhất quán trong cách thể hiện dữ liệu
 
Một nguyên tắc quan trọng khác trong thể hiện dữ liệu là trình bày những biến đổi của dữ liệu, chứ không phải thay đổi hình thức (như màu) để thể hiện một dữ liệu. Biểu đồ dưới đây là một ví dụ cho sự “vi phạm” nguyên tắc vừa đề cập:

Hình 15:Phần trăm hút thuốc lá qua trong thời gian 1974 đến 1994

Tác giả dùng hai màu xanh một cách luân phiên để chỉ mô tả tỉ lệ hút thuốc ở Anh. Năm thì không rõ ràng, đáng lẽ phải là 1974, 1978, 1982, …, 1994, nhưng tác giả để cho người đọc phải suy đoán. Đó là một điều đại kị trong phương pháp trình bày dữ liệu. Ngoài ra, những con số phần trăm (45%, 40%, v.v.) hình như được đặt vào những vị trí rất tuỳ tiện, chứ chẳng theo một qui luật nào cả. Có thể xem đây là một biểu đồ rất kém. Biểu đồ này có thể thiết kế lại tốt hơn, nhưng tôi để cho bạn đọc suy nghĩ và thử làm :-).

Tránh biểu đồ rác rưởi (Chart junk)! 

Thuật ngữ “Chart Junk” cũng là một sáng kiến của Edward Tufte. Ông gọi biểu đồ rác rưởi là cách thể hiện dữ liệu một cách “hoa hoè” hay loè loẹt. Đây là cách thể hiện dữ liệu của giới báo chí hay nghệ sĩ. Những người này vì không am hiểu khoa học, nên hay lạm dụng những hình ảnh làm độc giả thiếu tập trung vào thông điệp chính của dữ liệu. Cần tránh những biểu đồ rác rưởi.  

Một ví dụ tiêu biểu về biểu đồ rác rưởi mà Edward Tufte lấy ra để làm minh hoạ là biểu đồ dưới đây. Biểu đồ trình bày giá của kim cương từ năm 1978 đến 1982. Thay vì đường biểu diễn màu đỏ là đủ, người thiết kế biểu đồ cho thêm hình ảnh một cô gái trong tư thế gợi cảm. Với biểu đồ này, chắc chắn làm cho phần lớn người đọc không chú ý vào dữ liệu mà chăm chú nhìn vào cô gái, và thế là tác giả không đạt được mục tiêu của mình.

Hình 16: Biểu đồ biến động giá kim cương
Biểu đồ có thể giúp cho chúng ta “dấn thân” vào chủ đề nghiên cứu mà có khi chữ không làm được. Thiết kế biểu đồ tốt cũng đòi hỏi nỗ lực cao như viết một bài báo khoa học. Một biểu đồ tốt có thể đi vào lịch sử và tồn tại với thời gian rất lâu. Chúng ta hay thấy có nhiều sách giáo khoa hay những bài giảng có những biểu đồ thuộc vào hạng cổ điển, vì những biểu đồ đó chuyển tải thông tin đầy đủ và đạt những chuẩn mực về thiết kế biểu đồ mà tôi trình bày trên đây. Do đó, cần phải đầu tư thời gian và công sức vào cách trình bày dữ liệu và thiết kế biểu đồ.
Trước khi soạn một biểu đồ, cần phải trả lời những câu hỏi sau đây:
  • Ai là độc giả của biểu đồ, hay ai sẽ dùng?
  • Chọn hình thức thể hiện (biểu đồ thanh, biểu đồ tán xạ, v.v.)
  • Sắp xếp dữ liệu thích hợp cho trục tung và trục hoành.
  • Thêm vào các biến cần thiết.
  • Biên tập nhiều lần để tăng mật độ dữ liệu.
Sau đó là tuân thủ theo 4 nguyên tắc vừa mô tả trên. Xin nhắc lại đó là nguyên tắc tối ưu hoá yếu tố dối, tỉ số dữ liệu trên mực in, tỉ số dữ liệu trên diện tích biểu đồ, và tránh những hình thức màu mè (rác rưởi) dễ làm cho người đọc xa rời thông điệp chính của số liệu. Hi vọng rằng những nguyên tắc và chỉ dẫn trên đây sẽ giúp cho các bạn có được một bài báo khoa học tốt và những biểu đồ đi vào lịch sử. 🙂
N.V.T
Xem các bài trước:
TB. Sau đây là vài biểu đồ trước và sau khi biên tập / thiết kế lại:
Biểu đồ 17 trước:

Biểu đồ 17 sau khi thiết kế lại:

Biểu đồ 18 (trước):

Biểu đồ 18 (sau):
 
Biểu đồ 19 (trước):

Biểu đồ 19 (sau):

Biểu đồ 20 (trước):

Biểu đồ 20 (sau):
 
Biểu đồ 21 (trước):

Biểu đồ 21 (sau):


Một số biểu đồ “junk” trên báo chí VN