"Biases" trong kiểm định giáo dục

Câu hỏi tại sao học sinh Việt Nam có điểm tương đối tốt trong kì kiểm định PISA 2012 và 2015 vẫn còn ám ảnh nhiều người. Cách hiểu đơn giản nhất là học sinh Việt Nam mình giỏi. Nhưng trước khi tự mình khen mình, tôi nghĩ đến vấn đề mà thuật ngữ khoa học hay gọi là “bias”. Trong bất cứ nghiên cứu nào, trong bất cứ kiểm định đánh giá nào cũng đều có bias. Nếu chúng ta không cẩn thận với bias thì rất dễ đi đến diễn giải sai hay kết luận sai.

Bias là một khái niệm hơi khó dịch một cách gọn gàng sang tiếng Việt. Chúng ta có thể hiểu bias là sự sai lệch giữa giá trị quan sát và giá trị thật. Nếu giá trị thật là T, và giá trị quan sát là O thì hiệu số giữa T và O được gọi là bias. Khái niệm bias áp dụng cho một chỉ số thống kê (như trung bình, độ lệch chuẩn), nhưng cũng áp dụng cho các qui luật tự nhiên. Khi chúng ta nói một chỉ số thống kê là biased, chúng ta ám chỉ rằng ước số của chỉ số này lệch so với giá trị thật. Tương tự, nếu một nghiên cứu cho ra kết quả lệch so với thực tế (có nghĩa là từ quần thể) thì nghiên cứu đó được xem là biased.
Liên quan đến kiểm định PISA, tôi nghĩ có nhiều bias lắm. Tôi nghĩ đến những bias tương đối hiển nhiên sau đây:
1. Survival bias
Trong nghiên cứu y khoa, survival bias có nghĩa là nghiên cứu chỉ tuyển dụng được những người khoẻ mạnh và còn sống, còn những người kém khoẻ mạnh thì đã chết. Do đó, ước số của mẫu nghiên cứu có xu hướng lạc quan hơn thực tế. Trong kiểm định giáo dục tôi cũng nghĩ có hiện tượng survival bias, vì chúng ta chỉ đánh giá được những em còn theo đuổi việc học, chứ không đánh giá được những em đã bỏ học. Tỉ lệ bỏ học ở Việt Nam ngày càng cao như báo chí hay đề cập đến. Những em bỏ học có thể do học lực kém và do tình hình kinh tế gia đình không tốt. Ngoài tình trạng bỏ học, còn có tình trạng ghi danh cấp trung học. Theo một số liệu tôi đọc được trước đây của Ngân hàng Thế giới, tỉ lệ học sinh ghi danh lên trung học cấp I dao động trong khoảng 90-92%, còn đến cấp II thì giảm còn 65% mà thôi. Tỉ lệ ghi danh trung học cấp II ở Mĩ và Úc là khoảng 90-98%. Do đó, kết quả kiểm định PISA cũng bị bias hướng lạc quan hơn thực tế.
2. Bias trong cách lấy mẫu
Đây là một bias phổ biến và rất khó tránh khỏi. Theo báo cáo của PISA thì họ chọn mẫu phân tầng, và theo đó, họ chọn trường một cách ngẫu nhiên, và mỗi trường được chọn họ ngẫu nhiên chọn học sinh. Đó là cách chọn mẫu hợp lí và khoa học. Nhưng cái khó khăn ở đây là phải cân đối vùng miền (Nam, Trung, Bắc), nơi cư trú (nông thôn, thành thị), loại trường công và trường bán công, v.v. Dĩ nhiên, ai cũng biết lấy mẫu đại diện thì kết quả sẽ đáng tin cậy hơn là lấy mẫu thiếu đại diện.
Có tất cả 188 trường tham gia vào chương trình kiểm định PISA 2015. Nhưng số học sinh không cân đối giữa vùng miền. Chẳng hạn như tỉ lệ học sinh vùng thành thị ở các trường miền Bắc là 48%, và tỉ lệ này cao hơn miền Trung (43%), nhưng thấp hơn miền Nam (56%). Tương tự, tỉ lệ trường công cũng không đồng đều giữa các miền. Tỉ lệ học sinh trường bán công ở miền Bắc là 12%, cao gần gấp 2 lần so với miền Trung (6.7%) và miền Nam (7%). Bởi vì học sinh thành thị và học sinh trường công có khả năng học tập tốt hơn học sinh vùng nông thôn và trường bán công, nên cách lấy mẫu thiếu cân đối như trên có thể dẫn đến bias.
3. Hawthorne bias
Trong y khoa, thuật ngữ Hawthorne bias (còn gọi là Hawthorne effect) thường được dùng để đề cập đến hiện tượng bệnh nhân hay đối tượng nghiên cứu tự điều chỉnh trong môi trường bị quan sát / theo dõi. Trong kiểm định giáo dục hay thi cử, khi học sinh ý thức được tầm quan trọng của cuộc thi nên họ có thể thay đổi thói quen học tập để đạt được điểm tốt. Tình trạng này dĩ nhiên cũng dẫn đến bias một cách lạc quan.
4. Horse-racing bias
Hiện tượng “đua ngựa” này cũng hay xảy ra trong nghiên cứu y khoa. Đây là hiệu ứng được dùng để giải thích các số liệu của nghiên cứu quan sát. Trong điều kiện không có sai số đo lường, các yếu tố ảnh hưởng đến sự tăng trưởng nhanh trước khi tham gia PISA cũng là những người có xu hướng có năng lực tốt trong kì thi. Chúng ta biết rằng khi trường hay học sinh được chọn tham gia thì họ được chọn để huấn luyện và cho làm bài tập thử trước. Do đó, có thể đoán tại sao phương sai trong điểm PISA của Việt Nam nằm trong nhóm thấp nhất so với các nước khác. Đó cũng là một dạng bias làm lệch kết quả của kì thi.
5. Regression-toward-the-mean bias (Hồi qui về trung bình)
Đây là một hiện tượng được quan sát từ thế kỉ 18 bởi Francis Galton. Lúc đó, ông Galton làm nghiên cứu về ảnh hưởng của yếu tố di truyền đến trí thông minh, và ông lấy chiều cao làm chỉ số đo lường thông minh. Ông phát hiện rằng chiều cao của người con có xu hướng tương quan cao với chiều cao trung bình của cha và mẹ. Sau này, người ta cũng quan sát hiệu ứng này trong nhiều lĩnh vực khác như tâm lí học và giáo dục. Trong tâm lí học, Gs Daniel Kahneman (giải Nobel kinh tế 2002) giải thích trong cuốn “Thinking Fast, Thinking Slow” rất hay rằng hiện tượng “Hồi qui về trung bình” có thể giải thích tại sao trừng phạt có hiệu quả tăng khả năng, nhưng khen thưởng có thể gây phản tác dụng. Trong giáo dục, những học sinh khởi đầu với điểm thấp thường có xu hướng tăng về hướng trung bình quần thể sau khi thi vài kì; ngược lại, học sinh có điểm khởi đầu cao lại có xu hướng giảm về điểm trung bình quần thể. Nhưng đây là tác động chủ yếu do sai số trong đo lường, và nó có ảnh hưởng trực tiếp đến cách tính điểm trung bình cho một quần thể.
Đó chỉ là những bias tôi có thể nghĩ đến, chứ trong thực tế còn có nhiều bias khác mà chúng ta không kiểm soát được. Chẳng hạn như bias về văn hoá, phong tục, cách học, v.v. cũng có thể ảnh hưởng đến điểm PISA. Một số bias có thể điều chỉnh, những một số bias thì không thể điều chỉnh, và chúng ta phải chấp nhận như là những điểm yếu. Đó là chưa kể đến những vấn đề nghiêm trọng về phương pháp thống kê mà đã có nhiều người chỉ ra trong quá khứ. Những bias này nói lên rằng chúng ta rất khó xếp hạng các nước dựa vào điểm PISA, và chúng ta cần phải cẩn thận trong diễn giải kết quả PISA.
Có lẽ Nhà nước không nên tốn tiền triệu USD để tham gia vào một chương trình kiểm định có nhiều vấn đề về phương pháp. Đã qua 2 kì kiểm định, và chúng ta đã có chút dữ liệu cho biết học trò Việt Nam đang ở đâu trên bản đồ học thế giới. Nếu tham gia lần nữa thì có lẽ kết quả cũng chẳng khác gì, nhất là hai lần kiểm định tốn kém đều cho ra kết quả gần như giống nhau. Chúng ta cần những nghiên cứu qui mô theo thời gian (longitudinal research) để đánh giá học sinh theo thời gian, chứ không phải những loại kiểm định mang tính cắt ngang như PISA. Nghiên cứu theo thời gian có giá trị hơn nghiên cứu cắt ngang, và điều này thì ai cũng biết.
Tôi nghĩ các quan chức giáo dục có lí do để theo đuổi PISA, vì kết quả kiểm định làm cho họ cảm thấy an lòng. Nó cũng giống như các đại học phương Tây chạy theo các bảng xếp hạng, vì họ làm thế là để củng cố cái ghế của hiệu trưởng và ban quản lí đại học. Nhưng nếu chúng ta muốn xây dựng một nền giáo dục với ba đặc điểm dân tộc, nhân bản, khai phóng, thì về lâu dài chúng ta không có lí do phải tham gia vào PISA. Tôi không cần phải chi ra vài triệu USD để có vài con số hay một thứ hạng làm cho tôi cười hài lòng, trong khi hàng trăm ngàn con em phải đi tị nạn giáo dục ở các nước có hạng thấp hơn mình.