Cập nhật lớp học về "Machine Learning" tháng 1/2017

Chỉ còn khoảng 4 tuần nữa là khai mạc lớp học về “Machine Learning” (ML). Đến hôm nay thì bài giảng đã soạn xong. Có tất cả 31 bài giảng (1 bài giảng bổ sung khi có thì giờ). Hơn 1000 slides, với nhiều phương pháp và dữ liệu sẽ giúp cho các bạn rất nhiều trong tương lai. Trong cái note này tôi sẽ nói sơ qua về nội dung lớp học.

Chủ đề lớp học lần này dĩ nhiên là machine learning hay statistical learning. Nhưng cách mà tôi thiết kế nội dung bài giảng sẽ đáp ứng nhu cầu của đồng nghiệp trong nước, và do đó có lẽ khác một chút so với các lớp học ở nước ngoài. Trong lớp học 10 ngày này chúng tôi sẽ tập trung vào một số đề tài như sau:
1.  Phân tích mô tả và biểu đồ
Tôi nghĩ rằng dữ liệu nghiên cứu, nhất là dữ liệu lớn, cần phải được khai thác một cách có hệ thống. Cách đơn giản nhất nhưng hữu hiệu nhất là dùng các kĩ thuật phân tích biểu đồ. Các học viên sẽ học các biểu đồ cơ bản, sau đó dùng ggplot2 để soạn các biểu đồ chất lượng cao, biểu đồ có thể dùng cho công bố quốc tế. Ngoài ra, sẽ có một ôn tập về các phương pháp phân tích mô tả như t-test và Ki bình phương. 
2.  Mô hình (data modeling)
Sau phần phân tích mô tả, chúng tôi sẽ bắt đầu với phân tích tương quan và mô hình hồi qui tuyến tính. Học viên sẽ học cách ước tính tham số của mô hình, cách diễn giải ý nghĩa của tham số, cách mô hình các mối ảnh hưởng tương tác (interaction effects).  Học viên sẽ học về ý nghĩa của chỉ số R-square và mean square error (MSE).
Sau phần mô hình hồi qui tuyến tính, học viên sẽ học về mô hình hồi qui logistic. Các đề tài trong phần này bao gồm ước tính tham số, diễn giải ý nghĩa (nhất là odds ratio), và hiểu các chỉ số liên quan đến mô hình hồi qui logistic như Brier score, likelihood ratio, pseudo R-square, AUC, v.v. Qua bài học này, có lẽ nhiều bạn sẽ thấy những gì mình làm trong quá khứ là … sai.
3.  Cách chọn mô hình (và biến số) tối ưu
Một trong những vấn đề làm nhiều nhà nghiên cứu “nhức đầu” là trong số hàng trăm, thậm chí hàng trăm ngàn, biến tiên lượng (predictor variables), thì biến nào có liên quan đến outcome. Những phương pháp được dạy trong đại học (như stepwise) mà rất nhiều bạn đã học thật ra là sai. Trong lớp học này, học viên sẽ làm quen với những phương pháp hiện đại như Bayes, LASSO, cross-validation, random forest, v.v.  Các phương pháp này cũng rất hữu hiệu cho các nghiên cứu với dữ liệu lớn, với số biến tiên lượng lên đến hàng ngàn, có khi nửa triệu, so với số đối tượng chỉ vài chục người.
4.  Xây dựng mô hình tiên lượng
Mô hình hồi qui (tuyến tính và logistic) có thể sử dụng để đánh giá mối liên quan giữa biến tiên lượng và biến outcome. Nhưng các mô hình này cũng có thể sử dụng cho tiên lượng (prediction) tương lai. Học viên sẽ học phương pháp xây dựng mô hình tiên lượng, bao gồm bootstrap, cross-validation, k-fold validation, v.v.
5.  Mô hình tiên lượng “hiện đại”
Các mô hình hồi qui logistic và phân định tuyến tính (linear discriminant) có thể sử dụng để xây dựng mô hình cho các mối liên quan tuyến tính và tương đối “sạch”. Nhưng đối với các mối liên hệ phi tuyến tính (non-linear) hay rất phức tạp, thì các mô hình “truyền thống” có thể sẽ thất bại. Đối với các vấn đề phức tạp này, học viên sẽ học các phương pháp “hiện đại” như K nearest neighbours (KNN), random forest, support vector machines,   neural network, v.v.  để xây dựng mô hình tiên lượng.
6.  Mô hình phân loại 
Các mô hình trên (linear regression, logistic regression, KNN, v.v.) dùng để mô hình mối liên quan giữa nhiều biến tiên lượng và biến outcome. Nhưng trong thực tế, chúng ta KHÔNG có biến outcome, mà chỉ có hàng loạt biến số. Các biến số này có thể phản ảnh những đặc điểm mà chúng ta không quan sát hay đo lường được (gọi là latent trait). Học viên sẽ học các phương pháp phân tích đa biến như principal component analysis, cluster analysis (rất phổ biến trong di truyền học). Trong ngôn ngữ machine learning, đó là những phương pháp có tên là “unsupervised learning.”
7.  Xử lí số liệu trống (missing values)
Nghiên cứu khoa học thường có dữ liệu trống vì chúng ta không đo lường được hay thí nghiệm thất bại. Người không có kinh nghiệm thường loại bỏ các số liệu này, và đó là điều đáng tiếc. Trong lớp học này, học viên sẽ học phương pháp xử lí số liệu trống bằng các mô hình đa biến. Các mô hình này rất hiệu quả và giúp cho dữ liệu hoàn chỉnh hơn.
Ngoài ra, các học viên sẽ có cơ hội thực hành các phương pháp trên với những dữ liệu nghiên cứu thật. Lần này, chúng tôi tăng cường thêm một trợ giảng để hướng dẫn học viên thực hành.
Như vậy, trong lớp học này học viên sẽ học hàng loạt phương pháp mà có lẽ ít khi nào hay chưa được giới thiệu trước đây trong đại học. Ngay cả ở nước ngoài, các phương pháp trong lớp học này cũng rất mới và rất ít người am hiểu. Do đó, học viên sẽ được tiếp cận những phương pháp và kĩ năng mới trong nghiên cứu khoa học với dữ liệu lớn. Tôi kì vọng khi hoàn tất lớp học, các học viên sẽ là những người giới thiệu các phương pháp hiện đại cho các bạn không có dịp tham gia lớp học. Cũng có thể xem lớp học là một cách chuyển giao công nghệ vậy.
Danh sách bài giảng:
1.          Giới thiệu chương trình học và “machine learning”
2.          Giới thiệu ngôn ngữ R 
3.          Cú pháp, input và output 
4.          Phân tích mô tả với R 
5.          Xây dựng biểu đồ dùng R: biểu đồ cơ bản 
6.          Xây dựng biểu đồ dùng R: biểu đồ chất lượng cao
7.          Phân tích mô tả
8.          Phân tích tương quan
9.          Mô hình hồi qui tuyến tính đơn biến 
10.       Diễn giải mô hình hồi qui tuyến tính
11.       Phân tích dao động dư (residual analysis) 
12.       Mô hình hồi qui tuyến tính đa biến 
13.       Mô hình hồi qui tuyến tính với biến phân loại và tương tác
14.       Vấn đề đa cộng tuyến
Các phương pháp “supervised” machine learning
15.       Phương pháp chọn biến số trong mô hình hồi qui tuyến tính
16.       Mô hình hồi qui logistic đơn biến 
17.       Mô hình hồi qui logistic đa biến 
18.       Phương pháp chọn biến số trong mô hình hồi qui logistic 
19.       Đánh giá mô hình hồi qui logistic
20.       Các mô hình chính trong machine learning
21.       Giới thiệu package “caret” cho machine learning
22.       Phương pháp bootstrap và ứng dụng 
23.       Phương pháp K nearest neighbours (KNN)
24.       Phương pháp random forest
25.       Phương pháp support vector regression 
26.       Phương pháp neural network
27.       Phân tích phân định (Linear discriminant analysis)
Các phương pháp “unsupervised” machine learning
28.       Phân tích thành tố (principal component analysis)
29.       Phân tích cụm (cluster analysis)
30.       Phương pháp xử lí dữ liệu trống (missing values)
31.       Phương pháp ước tính cỡ mẫu
Ngày khoá sổ ghi danh sắp tới. Các bạn có ý định tham dự lớp học nên đăng kí với Trường ĐH TĐT càng sớm càng tốt. Sau ngày hết hạn, ban tổ chức sẽ không nhận thêm học viên. 
Liên lạc ThS. Nguyễn Hoàng Nam, 
Điện thoại: (08) 37755 037,