Machine Learning Operations (MLOps)

I. Giới thiệu khóa học:

Trong bối cảnh các hệ thống trí tuệ nhân tạo ngày càng được ứng dụng rộng rãi, việc xây dựng mô hình Machine Learning chỉ là một phần của bài toán. Thách thức lớn hơn nằm ở việc đưa các mô hình này vào vận hành thực tế một cách ổn định, có thể mở rộng và dễ bảo trì. Đó chính là lý do MLOps (Machine Learning Operations) trở thành một kỹ năng thiết yếu đối với kỹ sư AI và Data Scientist hiện đại.

Khóa học MLOps trong 5 ngày (10 buổi) được thiết kế nhằm cung cấp cái nhìn toàn diện và thực tiễn về toàn bộ vòng đời của một hệ thống Machine Learning – từ xây dựng dữ liệu, huấn luyện mô hình, quản lý thực nghiệm cho đến triển khai và tối ưu hệ thống trong môi trường production.

Lộ trình học gồm 10 buổi, đi từ cơ bản đến nâng cao, kết hợp giữa lý thuyết và thực hành:

Buổi 1–2: Tổng quan ML, MLOps và kiến trúc hệ thống MLOps
Buổi 3–4: Xây dựng và quản lý dữ liệu
Buổi 5–6: Lựa chọn mô hình và quản lý thực nghiệm
Buổi 7–8: Thiết kế hệ thống ML scalable và tối ưu hiệu năng
Buổi 9: Tối ưu suy luận với độ trễ thấp
Buổi 10: Dự án thực tế triển khai sản phẩm ML end-to-end

Sau khóa học, học viên sẽ có đủ kiến thức và kỹ năng để xây dựng, vận hành và triển khai các hệ thống Machine Learning một cách chuyên nghiệp trong môi trường doanh nghiệp.

II. Thời lượng: 40 giờ (5 ngày)

III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Mục tiêu khóa học:

Trong khóa học, học viên sẽ:

Nắm vững các khái niệm nền tảng về Machine Learning và MLOps
Hiểu rõ kiến trúc tổng thể của một hệ thống MLOps hiện đại
Thực hành xây dựng và quản lý dữ liệu hiệu quả
Làm chủ quy trình lựa chọn, theo dõi và quản lý mô hình
Thiết kế hệ thống ML có khả năng mở rộng và hiệu năng cao
Tối ưu hóa suy luận mô hình cho các ứng dụng yêu cầu độ trễ thấp
Áp dụng toàn bộ kiến thức vào một dự án thực tế cuối khóa

V. Đối tượng tham gia

Software Engineer, Backend Engineer, DevOps Engineer muốn chuyển sang AI/ML production
Machine Learning Engineer, AI Engineer cần triển khai và vận hành hệ thống ML
Data Engineer làm việc với data pipeline và ML systems
Data Scientist (có kinh nghiệm) muốn đưa mô hình vào production
Sinh viên năm cuối ngành CNTT/AI đã có nền tảng Python và Machine Learning

VI. Nội dung khóa học:

Buổi 1 – 2: Tổng quan ML, MLOps và kiến trúc hệ thống MLOps

1. Tổng quan về Machine Learning (ML)

Machine Learning là gì? Phân biệt với AI và Deep Learning
Các loại bài toán ML phổ biến:
- Học có giám sát (Supervised Learning)
- Học không giám sát (Unsupervised Learning)
- Học tăng cường (Reinforcement Learning)
Quy trình xây dựng mô hình ML truyền thống (ML lifecycle cơ bản)
Những thách thức khi đưa mô hình ML vào thực tế

2. Giới thiệu về MLOps

MLOps là gì? Tại sao cần MLOps?
So sánh:
- MLOps vs DevOps
- MLOps vs Data Engineering
Các thành phần chính trong MLOps lifecycle:
- Data → Training → Evaluation → Deployment → Monitoring
Lợi ích của MLOps trong doanh nghiệp:
- Tự động hóa
- Tái lập (reproducibility)
- Mở rộng (scalability)
- Giảm thời gian đưa sản phẩm ra thị trường

3. ML Lifecycle nâng cao (End-to-End)

Thu thập và xử lý dữ liệu
Feature engineering
Huấn luyện và đánh giá mô hình
Triển khai (deployment)
Giám sát (monitoring) và cập nhật mô hình
Feedback loop trong hệ thống ML

4. Kiến trúc tổng thể của hệ thống MLOps

Tổng quan kiến trúc MLOps end-to-end
Các tầng chính:
- Data layer (data sources, data lake, data warehouse)
- Training layer (training pipeline, experiment tracking)
- Serving layer (model serving, API, batch/real-time inference)
- Monitoring layer (logging, metrics, alerting)

5. Các thành phần quan trọng trong kiến trúc MLOps

Data pipeline & ETL/ELT
eature store
Model registry
Experiment tracking system
CI/CD cho ML (CI/CT/CD)
Model serving & inference system

6. Các mô hình triển khai ML phổ biến

Batch inference vs Real-time inference
Online vs Offline learning
Edge deployment vs Cloud deployment

7. Các công cụ phổ biến trong MLOps

Quản lý dữ liệu: DVC, LakeFS
Tracking & registry: MLflow
Orchestration: Airflow, Kubeflow
Deployment: Docker, Kubernetes, FastAPI
Monitoring: Prometheus, Grafana

8. Best practices & pitfalls trong MLOps

Versioning (data, model, code)
Reproducibility
Data leakage và concept drift
Quản lý môi trường (environment consistency)
Các lỗi phổ biến khi triển khai ML vào production

Buổi 3: Xây dựng dữ liệu (Data Annotation với Label Studio)

1. Tổng quan về Data Annotation

Vai trò của dữ liệu trong Machine Learning
Data annotation là gì?
Các loại annotation phổ biến:
- Classification (phân loại)
- Object Detection (bounding box)
- Segmentation
- Text annotation (NER, sentiment, etc.)
Thách thức trong việc gán nhãn dữ liệu:
- Chi phí, thời gian
- Consistency và quality

2. Giới thiệu về Label Studio

Label Studio là gì? Use cases
Kiến trúc cơ bản và workflow
Cài đặt (local/server)

3. Thực hành với Label Studio

Tạo project và cấu hình labeling interface
Import dữ liệu (image/text/audio)
Thiết lập schema label
Thực hiện annotation
Export dữ liệu đã gán nhãn

4. Quản lý chất lượng dữ liệu

Guidelines cho annotator
Kiểm tra chất lượng (review, consensus)
Inter-annotator agreement
Làm sạch và chuẩn hóa dữ liệu

Buổi 4: Quản lý dữ liệu (Data Management với DVC)

1. Tổng quan về Data Management trong MLOps

Tại sao cần quản lý dữ liệu?
Data versioning vs code versioning
Các vấn đề phổ biến:
- Dữ liệu lớn, khó lưu trữ trong Git
- Không tái lập được thí nghiệm

2. Giới thiệu về DVC

DVC là gì?
Cách DVC hoạt động với Git
Khái niệm:
- Data versioning
- Pipeline
- Remote storage

3. Thực hành với DVC

Khởi tạo DVC trong project
Track dữ liệu với DVC
Lưu trữ dữ liệu remote (Google Drive, S3, local, etc.)
Pull/push dữ liệu
Versioning dataset

4. Xây dựng pipeline dữ liệu với DVC

Tạo pipeline (dvc.yaml)
Các stage trong pipeline:
Data preprocessing
Feature engineering
Tái sử dụng và tái lập pipeline

5. Best practices trong Data Management

Tách biệt data, code, model
Sử dụng Git + DVC hiệu quả
Quản lý dữ liệu lớn
Đảm bảo reproducibility

6. Kết nối Annotation & Data Management

Workflow hoàn chỉnh:
Thu thập dữ liệu → Annotation (Label Studio) → Versioning (DVC)
Đồng bộ dữ liệu giữa team
Chuẩn bị dữ liệu cho training pipeline

Buổi 5: Lựa chọn và quản lý mô hình

1. Tổng quan về Model Selection

Vai trò của việc lựa chọn mô hình trong ML pipeline
Trade-off:
- Accuracy vs Latency
- Complexity vs Interpretability
- Training cost vs Inference cost
Overfitting vs Underfitting

2. Các phương pháp lựa chọn mô hình

Train/Validation/Test split
Cross-validation (K-Fold)
Các metric đánh giá:
- Classification: Accuracy, Precision, Recall, F1-score, AUC
- Regression: MSE, MAE, R²
Chọn metric phù hợp với bài toán thực tế

3. Hyperparameter Tuning

Hyperparameter vs Parameter
Các phương pháp tuning:
- Grid Search
- Random Search
- AutoML

4. Giới thiệu Model Registry

Model registry là gì?
Versioning mô hình
Staging vs Production model
Model lifecycle management

5. Công cụ quản lý mô hình

Giới thiệu MLflow Model Registry
So sánh với các công cụ khác (Weights & Biases, SageMaker, etc.)
Quy trình:
- Đăng ký model
- Chuyển stage (staging → production)
- Rollback model

Buổi 6: Quản lý thực nghiệm (Experiment Tracking & Management)

1. Tại sao cần quản lý thực nghiệm?

Vấn đề khi không tracking:
Không tái lập được kết quả
Khó so sánh mô hình
Khái niệm reproducibility trong ML

2. Các thành phần của một experiment

Dataset version
Code version
Hyperparameters
Metrics
Artifacts (model, logs, plots)

3. Giới thiệu công cụ tracking

MLflow Tracking
Weights & Biases (W&B)
So sánh nhanh giữa các công cụ

4. Thực hành tracking với MLflow

Log parameters, metrics, artifacts
Tổ chức experiments và runs
So sánh kết quả giữa các runs
Visualization kết quả

5. Quản lý vòng đời thực nghiệm

Tổ chức thư mục và naming convention
Quản lý nhiều experiments song song
Tracking kết hợp với DVC (data versioning)

6. Best practices trong Experiment Management

Luôn log đầy đủ thông tin (data + code + params)
Sử dụng template cho experiments
Tự động hóa (scripts/pipeline)
Tránh “experiment chaos”

7. Kết nối Model Selection & Experiment Management

Workflow chuẩn:
- Chuẩn bị data → Train nhiều mô hình → Track experiments → So sánh → Chọn model tốt nhất → Đăng ký vào registry
Tích hợp vào MLOps pipeline

Buổi 7: Thiết kế hệ thống Machine Learning có khả năng mở rộng

1. Tổng quan về hệ thống ML trong production

Khác biệt giữa prototype và production ML system
Các yêu cầu của hệ thống ML thực tế:
- Scalability (mở rộng)
- Reliability (độ ổn định)
- Maintainability (dễ bảo trì)

2. Kiến trúc hệ thống ML end-to-end

Tổng quan pipeline:
- Data ingestion → Training → Deployment → Inference → Monitoring
Batch vs Real-time systems
Microservices vs Monolithic architecture

3. Thiết kế hệ thống scalable

Horizontal scaling vs Vertical scaling
Stateless vs Stateful services
Load balancing và auto-scaling
Queue-based architecture (Kafka, RabbitMQ – giới thiệu)

4. Data pipeline & Feature pipeline

Data ingestion (streaming vs batch)
Feature engineering pipeline
Feature store (online vs offline)
Đồng bộ dữ liệu giữa training và serving

5. Orchestration & workflow management

Pipeline orchestration là gì?
Giới thiệu Apache Airflow
Giới thiệu Kubeflow Pipelines
Scheduling, dependency management

6. Containerization & Deployment

Docker là gì? Vai trò trong MLOps
Giới thiệu Docker
Giới thiệu Kubernetes
CI/CD cho ML systems

Buổi 8: Tối ưu hiệu năng cho hệ thống ML

1. Tổng quan về hiệu năng trong ML systems

Các yếu tố ảnh hưởng:
- Throughput
- Latency
- Resource utilization (CPU, GPU, RAM)
- Trade-off giữa chi phí và hiệu năng

2. Tối ưu training

Parallel training (data parallelism, model parallelism)
Distributed training (giới thiệu)
Sử dụng GPU/TPU hiệu quả
Giảm thời gian training

3. Tối ưu inference

Batch inference vs Real-time inference
Model serving strategies
Caching và request batching
Warm-up và scaling

4. Model optimization techniques

Quantization
Pruning
Knowledge distillation (giới thiệu)
Chọn model nhẹ (lightweight models)

5. Hệ thống phục vụ mô hình (Model Serving)

REST API vs gRPC
Giới thiệu FastAPI
Giới thiệu TensorFlow Serving
Giới thiệu TorchServe

6. Monitoring & Performance tuning

Theo dõi latency, throughput
Logging và metrics
Giới thiệu Prometheus & Grafana
Alerting và autoscaling

7. Best practices trong scalable & high-performance ML systems

Thiết kế modular
Tách training và serving
Dự phòng (failover, redundancy)
Tối ưu chi phí cloud

8. Kết nối toàn bộ hệ thống

Kiến trúc hoàn chỉnh:
- Data → Pipeline → Training → Registry → Deployment → Serving → Monitoring
Case study hệ thống ML thực tế (recommendation system, fraud detection, etc.)

Buổi 9: Tối ưu suy luận với độ trễ thấp

1. Tổng quan về Inference trong hệ thống ML

Inference là gì? Vai trò trong production
Sự khác biệt giữa Training vs Inference
Các use cases yêu cầu low-latency:
Recommendation system
Fraud detection
Real-time NLP (chatbot, search)

2. Các chỉ số quan trọng trong Inference

Latency (P50, P95, P99)
Throughput
QPS (Queries Per Second)
Tail latency và ảnh hưởng đến user experience

3. Nguyên nhân gây độ trễ cao

Model quá lớn / phức tạp
I/O bottleneck (data loading, network)
Serialization/deserialization
Cold start (serverless / container)
Thiếu tối ưu phần cứng

4. Tối ưu mô hình cho inference

Model compression:
- Quantization (INT8, FP16)
- Pruning
- Knowledge distillation
Chọn kiến trúc lightweight (MobileNet, DistilBERT, etc.)

5. Tối ưu pipeline inference

Batch inference vs Real-time inference
Dynamic batching
Request queueing
Asynchronous processing

6. Tối ưu hệ thống serving

Multi-threading / async processing
Load balancing
Caching (prediction caching, feature caching)

7. Tối ưu phần cứng

CPU vs GPU vs TPU
Edge devices vs Cloud
Sử dụng acceleration (CUDA, Tensor Cores)
Memory optimization

8. Monitoring & benchmarking

Đo latency thực tế (load test)
Benchmark mô hình
A/B testing giữa các phiên bản model
Theo dõi drift về hiệu năng theo thời gian

Buổi 10: Capstone Project – End-to-End ML Product with MLOps

1. Giới thiệu bài toán dự án

Lựa chọn bài toán thực tế (gợi ý):
- Classification (spam detection, sentiment analysis)
- Computer Vision (image classification)
- Recommendation system (cơ bản)
Xác định mục tiêu:
- Business objective
- ML objective (metric, latency, etc.)

2. Thiết kế tổng thể hệ thống

Xây dựng kiến trúc end-to-end:
- Data → Training → Deployment → Serving → Monitoring
Xác định các thành phần:
- Data pipeline
- Training pipeline
- Model serving
Lựa chọn công cụ phù hợp (Label Studio, DVC, MLflow, FastAPI, etc.)

3. Xây dựng và quản lý dữ liệu

Thu thập / sử dụng dataset có sẵn
(Optional) Gán nhãn với Label Studio
Versioning dữ liệu với DVC
Tiền xử lý và tạo features

4. Huấn luyện và lựa chọn mô hình

Train nhiều mô hình khác nhau
Tracking experiments với MLflow
So sánh kết quả và chọn model tốt nhất
Đăng ký model vào Model Registry

5. Xây dựng pipeline ML

Tổ chức pipeline:
- Data preprocessing
- Training
- Evaluation
Tự động hóa pipeline (script hoặc workflow)
Đảm bảo reproducibility

6. Triển khai mô hình (Deployment)

Đóng gói model (serialization)
Xây dựng API với FastAPI
Container hóa với Docker
Triển khai local hoặc cloud

7. Tối ưu inference

Đo latency và throughput
Áp dụng các kỹ thuật tối ưu:
- Batch / caching
- Lightweight model (nếu cần)
- Kiểm tra hiệu năng hệ thống

8. Monitoring & logging

Log request/response
Theo dõi metrics:
- Latency
- Accuracy (nếu có feedback loop)
- Phát hiện lỗi và drift (giới thiệu)

9. Demo sản phẩm

Gọi API inference (Postman / curl / UI đơn giản)
Demo pipeline hoạt động end-to-end
Trình bày kiến trúc hệ thống

10. Tổng kết & đánh giá

Review lại toàn bộ pipeline MLOps
Đánh giá kết quả dự án
Thảo luận:
- Điểm mạnh / điểm cần cải thiện
Gợi ý mở rộng:
- CI/CD cho ML
- Scale với Kubernetes
- Triển khai production thực tế

11. Deliverables (đầu ra học viên)