Kết quả PISA 2015: một cách hiểu khác

Điểm trung bình và độ lệch chuẩn (trong ngoặc) trong kì kiểm định PISA 2012 và 2015 của Việt Nam, Singapore, Australia và Mĩ.

Hạng 8 về khoa học của Việt Nam còn cao hơn Úc (hạng 10). Về môn toán VN (hạng 17) cũng cao hơn Úc (hạng 20). Riêng về đọc & hiểu của Việt Nam năm nay (hạng 17) thì thấp hơn Úc (hạng 12). Úc thì than rằng hạng PISA của họ “don’t look good” (xem ra không tốt), nhưng Việt Nam thì vui mừng. Nhưng đối với các chuyên gia về giáo dục Úc thì họ lạnh lùng, nhún vai chẳng quan tâm. Và, họ có lí do để không quan tâm.
Lí do 1: Tỉ lệ trả lời (response rate) khá thấp
Theo qui định của PISA, mỗi học sinh tiêu ra 3 giờ trong chương trình kiểm định. Nhưng không phải học sinh cũng cũng trả lời tất cả các câu hỏi. Theo một báo cáo trước đây thì chỉ có khoảng 50% học sinh trả lời bất cứ một câu hỏi nào về đọc, trong khi đó 40% học sinh chỉ được kiểm định 14 trong số 28 câu hỏi về đọc. Do đó, chỉ có ~10% học sinh tham gia chương trình test được kiểm định tất cả 28 câu hỏi. Ngay cả học sinh có điểm trung bình của khối OECD (tức 500 điểm) thì em này cũng chỉ trả lời được 46% câu hỏi mà thôi, còn em nào có điểm 400 chỉ trả lời 23% tổng số câu hỏi.
Vấn đề response rate ảnh hưởng rất lớn đến xếp hạng. Điều này có nghĩa là khi PISA so sánh giữa các nước thì chẳng khác gì so sánh giữa trái cam và trái táo. Một ví dụ [cực đoan] để minh họa: học sinh Việt Nam có thể trả lời câu hỏi 1-20, còn học sinh Tàu có thể trả lời câu hỏi 15-28. Như vậy thì làm sao so sánh giữa hai nhóm được. Do đó, bảng xếp hạng của PISA có thể chẳng nói lên điều gì cả.
Lí do 2: Phương pháp thống kê
Trong tình huống “missing data” như mô tả trên, các nhà phân tích của PISA làm gì? Trả lời: họ sử dụng một mô hình thống kê có tên là Rasch, với giả định rằng 10 giá trị cho mỗi học sinh được xác định bằng một xác suất hậu định (posterior probability). Vấn đề của mô hình Rasch là nó giả định rằng độ khó khăn của câu hỏi và khoảng cách về khó khăn trong mỗi câu trả lời là đồng đều nhau giữa các nước. Giả định này rất “mạnh” (hiểu theo nghĩa thiếu tính thực tế), bởi vì câu trả lời hay khả năng trả lời có thể còn tuỳ thuộc vào văn hoá của từng nước. Nói tóm lại, mô hình Rasch có nhiều điều cần phải bàn thêm, chứ không hẳn là mô hình tối ưu nhất trong trường hợp có quá nhiều câu hỏi bỏ trống.
Ngoài ra, họ sử dụng một phương pháp thống kê khác có tên là “imputation” để lấp vào những câu hỏi mà học sinh bỏ trống. Nói cách khác, khi một học sinh trả lời ví dụ như 50% câu hỏi, thì họ dùng phương pháp imputation để điền vào những câu hỏi mà em học sinh không trả lời. Nói cách khác, họ biến “không” thành “có”! Phương pháp imputation là một phương pháp khoa học hợp lí, nhưng với điều kiện giá trị trống (missing values) thấp cỡ dưới 5-10%. Nhưng khi giá trị trống quá cao như PISA thì phương pháp này có vấn đề.
Lí do 3: Phương sai
Về mặt kĩ thuật, tất cả những câu hỏi của PISA rất tương quan với nhau. Phân tích yếu tố (factor analysis) cho thấy một yếu tố duy nhất có thể giải thích từ 75% (Hi Lạp) đến 92% (Hà Lan) phương sai của các câu hỏi. Điều này có nghĩa gì? Nó có nghĩa là khi PISA xếp hạng giữa các nước chủ yếu là dựa vào yếu tố này, nhưng yếu tố này không đồng đều giữa các nước. Nói cách khác, thứ hạng của một nước trong bảng xếp hạng có thể thay đổi nếu xem xét đến yếu tố thứ 2 hay thứ 3. Nói cách khác nữa, bảng xếp hạng của PISA không nói gì về sự thông minh của học sinh VN, càng không phản ảnh chất lượng giáo dục của VN vốn đang rất cần cải cách.
Lí do 4: PISA không đánh giá toàn diện
Điều quan trọng cần phải biết là chương trình kiểm định PISA này không phản ảnh toàn bộ khả năng học tập của học sinh. PISA chỉ đánh giá cho một nhóm học sinh ở mộtđộ tuổi (15) và chỉ tập trung vào 3 môn học (toán, khoa học, và đọc hiểu). Ở độ tuổi 15 thì khả năng suy luận và lí giải trừu trượng vẫn đang hình thành chứ chưa hoàn chỉnh. Kết quả của PISA do đó chỉ là một snapshot ở một thời điểm nhất định, chứ không phản ảnh điểm lâu dài của học sinh.
Kết quả PISA càng không phản ảnh được môi trường học tập vốn được xem là quan trọng hơn 3 môn học đó. Có lẽ kết quả PISA cho thấy các em học sinh Việt Nam tham gia đã thuộc bài tốt, và ngoài cái đó thì chúng ta không biết các em còn tốt/dở khía cạnh nào khác.
Lí do 4: Hiệu chỉnh
PISA cho biết mỗi quốc gia họ lấy mẫu tối thiểu là 4500 học sinh tuổi 15 (dĩ nhiên nước nhỏ như Iceland thì số học sinh ít hơn). Theo nguyên tắc thì học sinh xuất thân từ nhiều thành phần kinh tế xã hội khác nhau, nhưng tôi không thấy họ hiệu chỉnh kết quả cho những khác biệt về thành phần kinh tế xã hội. Nếu không hiệu chỉnh cho yếu tố này thì khác biệt giữa các nước là có thể do thành phần kinh tế chứ chẳng phải do khả năng của học sinh. Việt Nam có thể có hạng cao nếu Việt Nam chỉ chọn học sinh từ thành thị và một phần nhỏ từ nông thôn. Đây cũng là một điểm yếu mà rất nhiều nhà nghiên cứu giáo dục chỉ ra trong quá khứ.
Tuy rằng cách lấy mẫu là ngẫu nhiên, và điều này chúng ta có thể tin vào PISA. Nhưng phía Việt Nam có vẻ tốn khá nhiều công sức để chuẩn bị cho kì kiểm định. Một bài báo trên Vietnamnetcho chúng ta biết rằng “Để giới thiệu về các lĩnh vực Toán, Khoa học, Đọc hiểu, VN đã nghiên cứu kỹ tất cả các dạng bài thi PISA đã công bố, tóm tắt và khái quát các dạng bài thi với các yêu cầu kỹ thuật làm từng dạng bài thi, từng loại câu hỏi để giáo viên nắm được kỹ thuật về giới thiệu cho học sinh. Tiếp đó, ngành GD-ĐT tổ chức tập huấn cho cán bộ cốt cán từ trung ương đến địa phương. Để đưa PISA vào trường phổ thông, Bộ chỉ đạo trên toàn quốc các giáo viên đã được tập huấn PISA thông qua các buổi sinh hoạt chuyên môn hàng tuần, thảo luận từng dạng bài thi và các dạng câu hỏi thi PISA. Giáo viên giới thiệu cho học sinh một số câu hỏi thi PISA được in trong tài liệu tập huấn. Có trường xây dựng được mạng nội bộ đã đưa lên mạng các dạng bài thi PISA cho học sinh làm, mở cuộc thi nhỏ tìm hiểu về PISA.”
Sự chuẩn bị tốt này phản ảnh qua độ lệch chuẩn và hệ số biến thiên (coefficient of variation — CV). Chẳng hạn như số liệu năm 2015 cho thấy CV ở học sinh Việt Nam là thấp nhất so với các nước khác như Singapore, Úc và Mĩ. Ví dụ như môn khoa học, độ lệch chuẩn ở học trò Việt Nam chỉ 75 điểm, so với 105 điểm ở Singapore và 104 điểm ở học sinh Úc:

Điểm trung bình (mean), độ lệch chuẩn (SD) và hệ số biến thiên (CV) của môn toán, đọc & hiểu, và khoa học trong kì kiểm định PISA 2015
Không nên lạc quan về bảng xếp hạng!
Theo tôi thì kết quả PISA năm nay, cũng như lần trước, có thể xem là thú vị và chỉ dừng ở đó. Trong khoa học có câu “garbage in, garbage out” (số liệu đầu vào là rác, thì kết quả đầu ra cũng chỉ là rác). Như tôi trình bày trên, đằng sau kết quả PISA là một phương pháp xử lí số liệu rất mong manh, nên độ chính xác của kết quả cũng là một câu hỏi lớn.
Không nên dựa vào đó mà đánh giá học sinh Việt Nam hơn ai (hay kém ai). Nên nhớ rằng so sánh thứ hạng giữa các nước rất dễ bị lầm, vì mức độ khác biệt về điểm trung bình giữa các nước có khi rất thấp. Xin nêu một ví dụ tiêu biểu: điểm trung bình về đọc & hiểu của Việt Nam là 490, chỉ cao hơn Úc 1 điểm (491), nhưng khi xếp hạng thì hạng của Việt Nam năm nay là 17, thấp hơn Úc đến 5 hạng (Úc với hạng 12). Nói cách khác, điểm trung bình của Việt Nam và Úc gần như bằng nhau, nhưng xếp hạng thì khác nhau! Thật ra, xếp hạng chỉ dựa vào số trung bình đã là sai về nguyên tắc, vì không tính đến phương sai.
Một ví dụ khác: điểm trung bình môn toán của Việt Nam cao hơn Úc 13 điểm; nếu chỉ mới thoạt đọc qua thì ấn tượng đấy, nhưng nếu so sánh với độ lệch chuẩn thì chẳng là bao. Độ lệch chuẩn của môn toán là 103 điểm; do đó, 13 điểm là tương đương với 0.13 độ lệch chuẩn mà thôi. Nếu muốn tính toán xác suất overlap thì kết quả là 96%. Nếu chọn ngẫu nhiên một học sinh Việt Nam và một học sinh Úc, thì xác suất học sinh Việt Nam có điểm toán cao hơn học sinh Úc là ~53%. Cái xác suất 53% (tức là gần 50/50) đó không thể làm cho chúng ta tự hào là học trò Việt Nam giỏi toán hơn học trò Úc. (Bạn nào biết khái niệm “effect size” thì biết tôi đang nói gì).
Nhưng hơn hết, tôi nghĩ không thể hay rất khó so sánh điểm của học sinh trong một hệ thống học vẹt (kiểu VN, Hàn Quốc và China) với điểm của học trong một hệ thống học “free” ở các nước phương Tây. Càng không thể so sánh khi những nước bị “bệnh thành tích” nên dồn tài lực để cải tiến điểm PISA và mấy nước phương Tây vốn không đầu tư vào việc nâng điểm trong bảng xếp hạng của PISA. Chạy theo những bảng xếp hạng như thế này chỉ làm chúng ta xao lãng vấn đề lớn hơn trong giáo dục – đó là cải cách.
====
(1) http://dantri.com.vn/giao-duc-khuyen-hoc/giao-su-my-ngac-nhien-ve-ket-qua-pisa-cua-viet-nam-20161215152639559.htm
(2) Bạn nào muốn phân tích dữ liệu PISA thì có thể download toàn bộ dữ liệu từ website sau đây: http://www.oecd.org/pisa/data/2015database/
Sau đó, các bạn có thể dùng R để đọc điểm của toàn bộ 519,334 học sinh. Dữ liệu này khá lớn, vì có đến 921 biến số! Dữ liệu về điểm của học sinh là 1.2 Gb. Máy MacBook của tôi phải tốn 5 phút mới đọc hết nửa triệu dữ liệu. Sau khi đọc thì việc phân tích rất nhanh. Một mô hình hồi qui tuyến tính cho nửa triệu học sinh chỉ tốn 2 giây. Sau đây là các bước cần thiết:
# Sau khi download dữ liệu, gọi các package cần thiết
library(foreign); library(intsvy); library(ggplot2); library(“dplyr”)
# đọc từ SPSS sav file
pisa = read.spss(CY6_MS_CMB_STU_QQQ.sav”, use.value.labels=T, to.data.frame=T)
# trích dữ liệu của VN
vn = subset(pisa, CNT==”Vietnam”)
Sau đó là phân tích theo câu hỏi của mình đặt ra. Bạn nào ghi danh học lớp Machine Learning, tôi sẽ chỉ cho các bạn cách phân tích các dữ liệu này bằng Machine Learning.
Mối tương quan giữa điểm môn toán (trục tung) và điểm trung bình của môn khoa học và đọc & viết của các nước tham gia PISA 2015. Các bạn thấy gì từ biểu đồ này?

Độ lệch chuẩn của điểm đọc & hiểu. Việt Nam có độ lệch chuẩn thấp nhất trong số những nước tham gia PISA 2015. 

Mối tương quan giữa số trung bình (trục trung) và độ lệch chuẩn (trục hoành) của điểm môn khoa học (PISA 2015). Việt Nam là nước trong số ít có độ lệch chuẩn thấp, nhưng điểm trung bình cao, gần như “ngoại vi” trong số những nước có độ lệch chuẩn thấp.