Cấp quản lý hoặc Chuyên gia muốn hiểu chi tiết về AI & các ứng dụng của nó
Sinh viên hoặc người đi làm muốn phát triển chuyên sâu trong lĩnh vực Data Science và AI
Yêu cầu đầu vào: đã vững kiến thức lập trình Python
141 giờ - 71 buổi
50 giờ lý thuyết - 91 giờ thực hành
Lịch học 2 đến 3 buổi/ tuần
o Data Mining Pipeline
o Data Mining Cleansing Missing Data: Value Imputation, Group-Based Imputation, Model-Based Imputation, Multiple Imputation of Chained Equations (MICE)
o Data Mining Cleansing Noise: Cross Validation, Fixed-Width Binning, Adaptive Binning, Model-based Approach và Clustering trên các loại nhiễu khác nhau gồm Noise as an Item, Noise as a Feature và Noise as a Record
o Data Mining Cleansing Outlier: Zscore, Interquatile Range (IQR), IForest, Group-based Imputation, Density-based Approach (DBSCan, LOF)
o Data Mining Handling Imbalanced Data: Under Sampling, Over Sampling, Penalized Models (with Boosting Learning), Hybrid Sampling, Focal Loss Implementation
o Data Mining Feature Engineering: Logistic Regression, Random Forest, XGBoost, Sequential Feature Selection và Recursive Feature Elimination theo hướng Model-Based, và Factor Analysis
o Data Mining Regression ML: Linear Regression, Logistic Regression, Ridge/Lasso/Elastic Net Regression, Polynomial Regression, Random Forest Regression, Support Vector Regression v.v và các cách trực quan hoá dữ liệu trong bài toán dự đoán Univariate, Bivariate và Multivariate Anaysis bằng Visualization
o Data Mining Classification ML: K-Nearest Neigbours, Naive Bayes, Gaussian Mixture Model, Expectation Maximization, Support Vector Machine, Decision Tree, và Random Forest; mô hình máy học dự đoán bằng GridSearchCV và cách đánh giá performance thuật toán bằng Accuracy, Precision, Recall, F1-Score và AUC-ROC Curve.
o Data Mining Clustering ML: K-means & K-medoids Clustering, Hierarchical Clustering, Density Clustering (DBScan), Local Outlier Factor, Grid-Based Clustering, Model-Based Clustering
o Data Mining Ensemble ML: Bagging (Random Forest) , Boosting (Adaboost, CatBoost), Gradient Boosting (LightGBM) và Blending & Stacking (Voting Ensemble, Weighted Average Ensemble, Blending Ensemble, Super Learner Ensemble)
o Data Mining Association ML: Apriori, Eclat, hay FP Growth
o Unsupervised Clustering
o Association Anaysis và ANN
o CNN, RNN,GRU
o LSTM Learning
o Biến hình, xử lý , trích xuất đặc trưng và phân đoạn ảnh truyền thống
o Xây dựng mạng ConvNet phân loại hình ảnh
o Xây dựng mạng Two-Stage Detectors (RCNN, Fast RCNN, Faster RCNN, MaskRCNN)
o Xây dựng mạng One-Stage Detectors (Yolo, SSD)
o Các thuật toán State-of-the-Art trong Thị Giác Máy Tính
o Mạng Encoder Decoder dạng Sequence to Sequence có kết hợp với cơ chế Attention
o Transformer (Sinusoidal Positional Embedding, Mask MultiHead Attention, Mask Language Modelling)
o Các thư viện NLTK, TextBlob, Spacy, Genism, Pattern, CoreNLP
o Phân tích chuỗi thời gian bằng mạng học sâu
o Phân tích dữ liệu âm thanh bằng học sâu
o Xây dựng hệ thống đề xuất thông tin (các mô hình của mạng đề xuất gồm Content-Based Filtering, Collaborative Filtering và Hybrid System) ...
o SQL Server
o MySQL
o PosgreSQL
o BigQuery
o Thiết lập báo cáo Report/Dashboard thông qua KPIs bằng Power BI
o Data Sources
o Collection (Data Ingestion)
o Processing (Validation, Cleaning and Transformation)
o Storage (Data Warehouse, Data Mart, Data Lakes)
o Consumption (Advanced analytics, machine learning)
o Data Governance (Monitoring)
o ETL (Extract Transform Load) vs. ELT (Extract Load Transform)
o Xử lý Big Data (Spark & Hadoop) và Batch/Stream Processing (Spark & Kafka & Zoopkeeper)
....
o Reinforcement Learning
o Model-based Learning
o Model-Free Learning
o Offline Reinforcement Learning
o Off-policy TD Control (Q Learning)
o On-Policy TD Control (SARSA)
....
o Toán
o Kỹ năng lập trình
o Tensorflow
o Pytorch