Phân tích dữ liệu
I. Giới thiệu khóa học:
Khóa học Phân tích dữ liệu (PTDL) cơ bản cung cấp kiến thức, tư duy, và công cụ thu thập, chuyển đổi, và tổ chức dữ liệu phục vụ việc phân tích nhằm tìm kiếm các mẫu, qui luật, xu hướng,…hổ trợ việc ra quyết định chính xác.
II. Thời lượng: 40 giờ (5 ngày)
III. Hình thức đào tạo:
Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu
IV. Mục tiêu khóa học:
Học viên đạt được sau khóa học:
- Hiểu qui trình thực tế được nhà phân tích dữ liệu sử dụng.
- Biết kỹ năng phân tích: làm sạch dữ liệu, phân tích, và trực quan hóa.
- Biết các công cụ: spreadsheets, SQL, R/Python, Tableau, Orange
Kỹ năng đạt được:
- Xác định vấn đề
- Thu thập/ tiền xử lý dữ liệu
- Tổ chức, phân tích dữ liệu
- Trực quan hóa, trình bày thông tin
- Tư duy phản biện
- Đạo đức dữ liệu
Thực hành với các bài toán phân tích dữ liệu thực tế.
V. Đối tượng tham gia:
- Học viên tham gia khóa học là người làm việc liên quan đến dữ liệu, mong muốn nắm bắt tư duy và sử dụng công cụ hiệu quả trong việc hổ trợ ra quyết định.
VI. Nội dung khóa học:
1. Mô-đun 1: Dữ liệu
- Khái niệm trong PTDL: Dữ liệu (Data), Phân tích dữ liệu (Data Analytics/DA); Khai phá dữ liệu (Data Mining/DM), Khoa học dữ liệu (Data Science/DS), Khai phá Tri thức (Knowledge Discovery/KDD),…
- Đánh giá và tư duy phân tích, bằng dữ liệu thực tế
- Vai trò của bảng tính, ngôn ngữ truy vấn, và công cụ trực quan hóa dữ liệu trong PTDL
- Vai trò của nhà phân tích dữ liệu
Bài học:
- Giới thiệu về PTDL và tư duy phân tích
- Thế giới dữ liệu
- Công cụ PTDL
- Ảnh hưởng của chuyên gia PTDL
Thực hành. 1
- Giới thiệu chuỗi Thực hành
- Công cụ được sử dụng trong khóa học
Sau khi hoàn thành Mô-đun, học viên có thể:
- Hiểu qui trình thực tế công việc của nhà PTDL.
- Có các kỹ năng cơ bản (làm sạch, phân tích, và trực quan hóa dữ liệu), và các công cụ (spreadsheets, SQL, R/Python programming, Tableau, Orange).
- Biết nhiều thuật ngữ và khái niệm khác nhau liên quan đến vai trò của nhà PTDL.
- Đánh giá được vai trò của phân tích trong hệ sinh thái dữ liệu.
- Tiến hành tự đánh giá tư duy phân tích.
- Khám phá cơ hội việc làm liên quan đến PTDL.
2. Mô-đun 2: Đặt câu hỏi
- Giải thích cách áp dụng lộ trình giải quyết vấn đề vào các trường hợp cụ thể.
- Thảo luận về việc sử dụng dữ liệu trong việc ra quyết định.
- Sử dụng bảng tính để hoàn thành các nhiệm vụ cơ bản của nhà PTDL.
- Mô tả tư duy có cấu trúc.
Bài học:
- Cách đặt câu hỏi hiệu quả
- Đưa ra quyết định dựa trên dữ liệu
- Bảng tính
- Các bên liên quan
Thực hành. 2
Sau khi hoàn thành Mô-đun, học viên có thể:
- Áp dụng kỹ thuật đặt câu hỏi hiệu quả, định hướng phân tích.
- Hiểu về việc ra quyết định dựa trên dữ liệu, và cách trình bày kết quả phân tích.
- Ví dụ về đặt câu hỏi và ra quyết định.
- Khám phá cách thức và lý do bảng tính là công cụ quan trọng đối với nhà PTDL.
- Tư duy có cấu trúc giúp nhà PTDL hiểu rỏ hơn về vấn đề và đề xuất giải pháp.
- Chiến lược quản lý kỳ vọng của các bên liên quan, nhóm PTDL góp phần đảm bảo mục tiêu kinh doanh.
3. Mô-đun 3: Chuẩn bị dữ liệu
- Các yếu tố cần xem xét khi đưa ra quyết định về việc thu thập dữ liệu.
- Thảo luận về sự khác nhau giữa dữ liệu có thiên vị (bias) và không thiên vị.
- Mô tả CSDL có tham chiếu đến chức năng và thành phần của chúng.
- Mô tả cách thức tổ chức dữ liệu.
Bài học:
- Loại dữ liệu và cấu trúc
- Trách nhiệm về dữ liệu
- Cơ sở dữ liệu
- Tổ chức và bảo vệ dữ liệu
- Tham gia cộng đồng
Thực hành. 3
- Thu thập dữ liệu
- Tiền xử lý dữ liệu
Sau khi hoàn thành Mô-đun, học viên có thể:
- Quyết định dữ liệu nào cần được thu thập.
- Biết dữ liệu có cấu trúc, phi cấu trúc, loại dữ liệu, và định dạng.
- Xác định được các loại sai lệch khác nhau trong dữ liệu, đảm bảo độ tin cậy của dữ liệu.
- Sử dụng bảng tính và SQL
- Dữ liệu mở và mối quan hệ với đạo đức và quyền riêng tư.
- Truy cập CSDL, trích xuất, và tổ chức dữ liệu.
4. Mô-đun 4: Làm sạch dữ liệu
- Tính toàn vẹn của dữ liệu và các vấn đề rủi ro.
- Áp dụng các hàm SQL cơ bản để làm sạch các biến chuỗi trong CSDL.
- Phát triển các truy vấn SQL cơ bản sử dụng trong CSDL.
- Mô tả quá trình xác minh làm sạch dữ liệu.
Bài học:
- Toàn vẹn dữ liệu
- Làm sạch dữ liệu
- Xác minh và báo cáo kết quả làm sạch dữ liệu.
Thực hành. 4
- Làm sạch dữ liệu với SQL, và các công cụ khác.
Sau khi hoàn thành Mô-đun, học viên có thể:
- Kiểm tra tính toàn vẹn của dữ liệu.
- Áp dụng kỹ thuật làm sạch dữ liệu với bảng tính.
- Phát triển truy vấn SQL.
- Sử dụng các hàm SQL cơ bản để làm sạch và chuyển đổi dữ liệu.
- Xác minh kết quả làm sạch dữ liệu.
- Viết báo cáo hiệu quả.
5. Mô-đun 5: Phân tích dữ liệu (PTDL)
- Tổ chức dữ liệu bằng cách sắp xếp và sử dụng bộ lọc.
- Chuyển đổi định dạng dữ liệu.
- Hàm và cú pháp tạo truy vấn SQL để kết hợp dữ liệu từ nhiều CSDL.
- Chức năng thực hiện các phép tính cơ bản trong bảng tính.
Bài học:
- Tổ chức dữ liệu sẵn sàng để phân tích.
- Định dạng dữ liệu.
- Tổng hợp dữ liệu.
- Tính toán trên dữ liệu.
Thực hành. 5
- Qui trình trích xuất, chuyển đổi, và tải dữ liệu (ETL: Extract, Transform, and Load data)
Sau khi hoàn thành Mô-đun, học viên có thể:
- Tổ chức dữ liệu.
- Định dạng, cập nhật dữ liệu.
- Tổng hợp dữ liệu bằng bảng tính và SQL.
- Sử dụng hàm và công thức trong bảng tính để tính toán với dữ liệu.
- Hoàn thành các tính toán bằng truy vấn SQL.
6. Mô-đun 6: Trực quan hóa dữ liệu
- Trực quan hóa dữ liệu để biểu diễn dữ liệu và kết quả phân tích.
- Giới thiệu Tableau.
- Câu chuyện dữ liệu.
- Trình bày hiệu quả.
Bài học:
- Trực quan hóa dữ liệu
- Câu chuyện dữ liệu
- Phát triển kỹ năng trình bày hiệu quả
Thực hành. 6
- Trực quan hóa dữ liệu với Tableau.
Sau khi hoàn thành Mô-đun, học viên có thể:
- Hiểu vai trò của trực quan hóa dữ liệu.
- Hình thành câu chuyện từ dữ liệu.
- Sử dụng Tableau để tạo bảng thông tin và bộ lọc bảng thông tin.
- Trình bày hiệu quả.
- Biết được những hạn chế, rủi ro tiềm ẩn trong bản trình bày.
- Kỹ năng hỏi đáp
7. Mô-đun 7: Công cụ Orange, ngôn ngữ lập trình Python/R
- Giới thiệu công cụ Orange, ngôn ngữ Python hoặc R trong PTDL
- Giải thích các khái niệm cơ bản bao gồm biến, hàm, kiểu dữ liệu, đường ống, và vector
- Các tùy chọn sử dụng Python/ R trực quan hóa dữ liệu.
Bài học:
- Công cụ mã nguồn mở và ngôn ngữ lập trình trong PTDL.
- Làm việc với dữ liệu bằng Orange.
- Làm việc với dữ liệu bằng Python hoặc R.
- Tài liệu và báo cáo.
Thực hành. 7
- Làm việc với Orange
- Làm việc với Python
- Làm việc với R
Sau khi hoàn thành Mô-đun, học viên có thể:
- Xác định công cụ và ngôn ngữ lập trình phù hợp sử dụng PTDL.
- Biết và sử dụng được Orange trong việc PTDL.
- Biết RStudio và ứng dụng R trong PTDL.
- Biết và sử dụng Python trong PTDL.
8. Mô-đun 8: Hoàn thành phân tích cụ thể
- Phân biệt dự án trọng điểm, nghiên cứu điển hình, và danh mục đầu tư.
- Xác định các đặc điểm và thành phần chính của một dự án đã hoàn thành.
- Áp dụng các phương pháp và qui trình liên quan đến quá trình PTDL trên một tập dữ liệu nhất định.
Bài học:
- Quản lý dự án PTDL
- Tìm hiểu danh mục
Thực hành. 8
- Xây dựng dự án PTDL
- Sử dụng danh mục đầu tư
Sau khi hoàn thành Mô-đun, học viên có thể:
- Hiểu được lợi ích của các dự án PTDL.
- Thực hiện các dự án liên quan đến PTDL.
9. Mô-đun 9: Báo cáo kết quả dự án PTDL
- Học viên/ nhóm học viên trình bày kết quả dự án PTDL giải quyết bài toán thực tế
- Thực hiện dự án thực tế từ bài toán của doanh nghiệp
- Thực hiện dự án từ các cuộc thi trên nền tảng Kaggle.com
10. Mô-đun 10: Giới thiệu khóa học PTDL nâng cao
- Chi tiết outline khóa học PTDL nâng cao.