o Data Mining Pipeline
o Data Mining Cleansing Missing Data: Value Imputation, Group-Based Imputation, Model-Based Imputation, Multiple Imputation of Chained Equations (MICE)
o Data Mining Cleansing Noise: Cross Validation, Fixed-Width Binning, Adaptive Binning, Model-based Approach và Clustering trên các loại nhiễu khác nhau gồm Noise as an Item, Noise as a Feature và Noise as a Record
o Data Mining Cleansing Outlier: Zscore, Interquatile Range (IQR), IForest, Group-based Imputation, Density-based Approach (DBSCan, LOF)
o Data Mining Handling Imbalanced Data: Under Sampling, Over Sampling, Penalized Models (with Boosting Learning), Hybrid Sampling, Focal Loss Implementation
o Data Mining Feature Engineering: Logistic Regression, Random Forest, XGBoost, Sequential Feature Selection & Recursive Feature Elimination theo hướng Model-Based, Factor Analysis
o Data Mining Regression ML
o Data Mining Classification ML
o Data Mining Clustering ML: K-means & K-medoids Clustering, Hierarchical Clustering, Density Clustering (DBScan), Local Outlier Factor, Grid-Based Clustering, Model-Based Clustering
o Data Mining Ensemble ML
o Data Mining Association ML: Apriori, Eclat, hay FP Growth
o Các loại mạng thần kinh nhân tạo
o Cấu trúc mạng thần kinh nhân tạo gồm Nút Neuron, Hidden layer, Activation v.v…
o Các hàm Activation hiệu quả : Sigmoid, Tanh, Relu, Leaky relu, ELU, Swish
o Các vấn đề về mạng học sâu như : Vanishing Gradient, Exploding Gradient, Dead Neurons, Saturation, Xavier Weight Initialization v.v…
o Các hàm mất mát được sử dụng trong mạng thần kinh nhân tạo như : L1&L2 Loss, Binary Cross-Entropy Loss, Categorical Cross-Entropy, Focal Loss, hay Relative Entropy (Kullback–Leibler divergence)
o Cách thức hoạt động của Back Propagation, Overfitting và Early Stopping trong Neural Network
o Các khái niệm Batch Size, Epoch, Iteration
o Cách tối ưu hoá mạng Neural Network bằng Batch Normalization, Drop out, và Drop Link
o Cách tối ưu hoá việc học của mạng Neural Network bằng Momentum, RMProp, Adam, và SGD
o Cách thức sử dụng các tool TensorBoard và Neptune AI để quan sát và đánh giá quá trình huấn luyện của mạng Neural Network
o Cách thức sử dụng Model Checkpoints để lưu trữ các kết quả huấn luyện
o Mạng thần kinh nhân tạo hồi quy và sự khác biệt so với mạng neural network thông thường
o Các loại mạng hồi quy : One-To-One, One-To-Many, Many-To-One, Many-To-Many
o Cách thức lan truyền ngược theo thời gian (Back Propagration Through Time) của mạng hồi quy
o Cách thức hoạt động và áp dụng mạng RNN, LSTM, BiLSTM, GRU
o Các ứng dụng thực tế về xử lý ảnh, ngôn ngữ tự nhiên & âm thanh có dùng mạng hồi quy
o Traditional Computer Vision Filtering Kernel
o Traditional Computer Vision Feature Extraction: Trích xuất đặc trưng từ một bức ảnh như Circle and Line Features (Hough Transform), Interest Points (Haar–Features), Feature Descriptor (HoG, DoG, LoG, Gabor Features, LoG), Corner Descriptor (Harris và Shi Tomashi), Keypoint Descriptor (SIFT, SURF, ORB, BRIEF), Frequency Domain (DCT, DFT and Wavelet), và Edge Detecter (Convolution&Pooling)
o Traditional Computer Vision Segmentation: Phân đoạn theo ngưỡng (Thresholding Segmentation : Local and Global Threshold, Otsu Threahold, Adaptive Threshold), Phân đoạn theo gom nhóm (Clustering Segmentation : Kmeans, Fuzzy Cmeans, Meanshift, Hierachical Clustering), Phân đoạn theo vùng (Region Segmentation : Watershed, Superpixels), và Phân đoạn theo đồ thị (Graph Based Segmentation : Min-Cuts, Normalized Cuts, GrabCut)
o Modern Computer Vision Convolution Neural Network
o Modern Computer Vision Two-Stage Object Detection
o Modern Computer Vision One-Stage Object Detection
o Modern Computer Vision State Of The Art Applications
o Xây dựng pipeline cho bài toán ngôn ngữ tự nhiên (NLP Pipeline) : Phân đoạn câu văn (Sentence Segmentation), Trích xuất các từ (Word Tokenization), làm sạch văn bản (Text Cleaning), Xác định các từ dừng không quan trọng (Identifying Stop Words), Chuẩn hoá từ (Text Lemmatization), Phân tích sự phụ thuộc cú pháp (Dependency Parsing – POS Tagging và Phase Chunking), Tìm các cụm từ (Finding Noun Phrases : N-Grams), Nhận dạng thực thể từ (Named Entity Recognition (NER)).
o Xây dựng bài toán nhận diện ngôn ngữ tự nhiên bằng TFIDF (Term Frequency Inverse Document Frequency) kết hợp với các thuật toán máy học SVM, Logistic Regression hay RandomForest
o Xây dựng Word Embedding hướng Word2Vec (CBOW & SkipGram)
o Xây dựng Word Embedding hướng Glove
o Xây dựng Word Embedding hướng fastText
o Hiểu và nắm vững cơ chế hoạt động của mạng Sequence to Sequence
o Hiểu và nắm vững cơ chế hoạt động của Attention
o Hiểu rõ cách thức hoạt động của các yêu tố QKV (Query, Key, Value) trong hoạt động của Attention
o Phân tích và hiểu rõ hai ví dụ về Attention là Luong Attention và Bahdanau Attention
o Tìm hiểu về mạng Encoder Decoder cho Neural Machine Translation (NMT)
o Tìm hiểu về BLEU Score trong NLP
o Hiểu và biết cách sử dụng các thư viện có sẵn trong NLP như NLTK, TextBlob, Spacy, Genism, Pattern, CoreNLP
o Hiểu rõ các khái niệm về Transformer (Sinusoidal Positional Embedding, Mask MultiHead Attention, Mask Language Modelling) trong các mô hình học sâu
o Vận dụng mô hình học sâu NLP RoBert, BERT, PhoBERT
o Vận dụng mô hình học sâu NLP BART, BARTPho
o Vận dụng các bài toán thực tế NLP như Image Captioning, Text Summarization, Question&Answering, Name Entity & Keyword Extraction, Auto-Correct Grammar, Search Engine, Voice Assistants (Alexa, Siri)
o Các khái niệm của Time Series gồm không gian Hilbert Spaces và Chuỗi thời gian Stationary và các đặc trưng TCSI (Secular Trend, Seasonal Variation, Cyclical variation, Irregular variation)
o Biết cách trích xuất các đặc trưng chuỗi thời gian như Lag, Rolling Means và Differencing Operation
o Hiểu và áp dụng được các biến đổi chính trong time series gồm Exponential Smoothing, Autoregressive Series (AR) và Moving Average Series (MA)
o Vận dụng mô hình phân tích chuỗi thời gian ARIMA (Autoregressive Moving Average Series)
o Vận dụng mô hình phân tích chuỗi thời gian Seasonal Autoregressive Integrated Moving Average (SARIMA)
o Biết cách tối ưu hoá các tham số trong mô hình bằng cách chọn hệ số bằng ACF và PACF Estimation
o Áp dụng các phương pháp máy học trong mô hình dự đoán chuỗi thời gian bằng ANN, SVM, LSTM, Deep Autoencoders (AEs), Restricted Boltzmann Machines (RBM), Deep Belief Networks (DBNs), State Space Model and Kalman Filter, và ConvNet
o Các đặc trưng trong Audio Features trong miền thời gian Time Domain (Zero crossing rate, amplitude envelope, and RMS energy)
o Các đặc trưng trong Audio Features trong miền tần số Frequency Domain (Fourier Transform : Band energy ratio, spectral centroid, and spectral flux)
o Các đặc trưng trong Audio Features trong miền kết hợp Time-frequency representation (Short-Time Fourier Transform (STFT) : Spectrogram, mel-spectrogram, constant-Q transform, và Mel-Frequency Cepstral Coefficients (MFCCs))
o Nhận diện giọng nói tự động Automatic Speech Recognition (ASR) với các phương pháp từ đơn giản đến học sâu : Gaussian Mixture Models (GMM), Dynamic Time Warping (DTW), HMM (Hidden Markov Model), Autoencoder, CNN-BiLSTM, Listen-Attend-Spell (LAS - Attention with LSTM), Deep Belief Network (DBN), ConvNet
o Hàm mất mát Connectionist Temporal Classification (CTC) loss và mô hình Wav2Vec
o Vận dụng lọc nhiễu âm thanh bằng Spectral Subtraction, Wiener Filter, Spectral Gating và Deep Learning based Models (Facebook Denoiser)
o Hiểu và phân biệt giữa các loại Content-Based Filtering, Collaborative Filtering và Hybrid System
o Phân tích các cách tiếp cận của Content-Based Filtering
o Phân tích các cách tiếp cận của Collaborative Filtering gồm Model-based Collaborative Filtering (Neutral Collaborative Filtering) và Memory-Based Collaborative Filtering (Item và User-based Approaches)
o Phân tích các cách tiếp cận của Hybrid System thì gồm Weighted Hybridization, Switching Hybridization, Cascased Hybridization, Mixed Hybridization, Feature Combination, Feature Augmentation hay Meta-Level Approach
o Vận dụng các kỹ thuật Text Mining, KNN, Clustering, Matrix Factorization hay Neural Network trong việc xây dựng các hệ thống đề xuất
o Phân tích một vài mạng đề xuất thông tin theo hướng học sâu như mạng Asymmetric Hierachical Network (AHN with Attention), Attention-based CNNs, Deep Factorization Machine, Neural Matrix Factorization, Sequence aware Recommendation, Deep and Cross Network, Graph Neural Networks
o Hiểu cách thức hoạt động của GANs : Discriminator và Generator
o Các khái niệm cơ bản trong GANs : Generative Models, Direct Estimation, Latent Variable Models, Normalizing flows, Variational Autoencoder (VAEs) , Adversarial Learning (Discriminator và Generator Network), MinMax Game, Saddle-Point Optimization
o Các vấn đề của GANs như Vanishing Gradients, Non-Convergence, Mode Collapse và Model Dropping
o Các giải pháp trong GANs như Alternative Divergences, Wasserstein GANs, Unrolled GANs.
o Học tăng cường trong các ứng dụng Automation Robot hay Autonomous Car hay các Smart Device ngày nay
o Các khái niệm cơ bản trong học tăng cường : Tác nhân (Agent), Môi trường (Enviroment), Trạng Thái (State), Hành Động (Actions), Quan Sát (Observation), Phần thưởng (Rewards), Chiến thuật (deterministic vs stochastic Policy),
o Các khái niệm chuyên sâu về học tăng cường: Đường giới hạn (Horizon), Chuỗi hành động trạng thái (Episode) , thành phần khấu hao (Discount Factor), Phương pháp Monte Carlo, Temporal-Difference Learning, MDP (Markov Decision Process với S - State Space, A – Action Space, P – Transition Function, R – Reward Function), Khai Thác(Exploitation) và Khám Phá (Exploration), Dynamic Programming, Actor-Critic Methods, Experience Replay và Bellman Equations
o Phương pháp học Model-based Learning : I2A, MBMF và MBVE
o Phương pháp học Model-free Learning : Policy-based Learning (Policy Gradient, PPO, TRPO, A2C, A3C) và Value-based Learning (TD, SARSA, Q Learning, DQN, QR-DQN, C-51)
o Phân biệt giữa Offline Reinforcement Learning, Off-policy TD Control (Q Learning) và On-Policy TD Control (SARSA)
o Vận dụng các câu truy vấn SQL căn bản : SELECT, FROM, WHERE, ORDER BY, GROUP BY, HAVING, EXISTS, LIKE, IN and NOT IN, BETWEEN, TOP, DISTINCT, JOIN (LEFT, INTER, RIGHT, FULL), CAST and CONVERT, AGGREGATE (MIN, MAX, COUNT, SUM, AVG), SET OPERATION (UNION, INTERSECTION, EXCEPT)
o Vận dụng xây dựng View, Store Procedured và Fucntions trong các hệ quản trị Cơ Sở Dữ Liệu như SQL Server, MySQL, PosgreSQL, hay BigQuery
o Tìm hiểu về Big Query Analytics Platform Features : BigQuery SQL, BigQuery ML, BigQuery BI Engine, BigQuery Omni, BigQuery GIS
o Cách thiết kế một CSDL với mô hình thực thể quan hệ Entity Relationship Diagram (ERD), mô hình UML UseCase, mô hình luồng dữ liệu Data Flow Diagram, State Model từ 1 bài toán bất kỳ với Khoá Chính, Khoá Ngoại hay Trigger, Index
o Xây dựng dashboard bằng PowerBI với các chức năng Data Connection, Data Transform, DAX and Measure Metrics, Data Relationships, Power Query, Power Pivot Access, Built-in Charts and Custom Visualization, Report Sharing, Mobile App
o Quy trình xây dựng Data Pipeline gồm Data Sources (Batch and Streaming Data), Collection (Data Ingestion), Processing (Validation, Cleaning and Transformation), Storage (Data Warehouse, Data Mart, Data Lakes), Consumption (Advanced analytics, machine learning), Data Governance (Monitoring)
o Phân biệt giữa ETL (Extract Transform Load) vs. ELT (Extract Load Transform) trong các hệ thống
o Vận dụng xây dựng Data Pipeline với Docker & Apache Airflow với DAGs (Directed Acyclic Graph), Jobs, Scheduler, Webserver, Executer, Backend (Hive, MySQL, HDFS, Postgres, S3 Hooks).
o Phân biệt và so sánh Kubeflow và Airflow
o Phân biệt và so sánh quy trình dữ liệu của các mô hình lớn ngày nay AWS, Azure và Google Cloud
o Cách xử lý Big Data (Spark & Hadoop) và Batch/Stream Processing (Spark & Kafka & Zoopkeeper)