• Hotline: (+84) 939 586 168

    Python cho Máy Học, Khoa Học Dữ Liệu Và Trực Quan Hóa Dữ Liệu

    I. Tổng quan
    • Khóa học cung cấp cho học viên (HV) kiến thức tổng quát về Data Science, một trong những chuyên ngành “hot” của thế kỷ 21.
    • Giúp HV trang bị những kiến thức lập trình và trực quan hóa dữ liệu nền tảng, quan trọng, làm tiền đề cho việc tìm hiểu các kiến thức Machine Learning, Data Science sau này.
    • Hướng dẫn HV cách thu thập dữ liệu, khám phá, phân tích, thống kê tạo ra các báo cáo thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas …
    • Hướng dẫn HV cách trích xuất và trình bày dữ liệu dưới dạng có ý nghĩa thông qua nhiều kỹ thuật trình bày dữ liệu một cách trực quan trong Python như Matplotlib, Seaborn và Folium. 
    • Ngoài ra học viên còn được giới thiệu các công cụ trực quan hóa dữ liệu khác như Google Charts, IBM Watson Analytics.
    • Thực hiện các project cụ thể trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn
    II. Thời lượng:  40 giờ.
    III. Đối tượng học:
    • Sinh viên các trường Đại học, Cao đẳng
    • HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning, Data Science
    IV. Mục tiêu khóa học

    Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

    • Nắm được quy trình làm việc cơ bản của Data Science
    • Vận dụng linh hoạt các bộ thư viện, công cụ như Python, Jupyter Notebooks, Numpy, Pandas, Matplotlib, Seaborn, Folium… trong việc giải quyết các bài toán thực tế
    • Hiểu và vận dụng cách tìm dữ liệu, xây dựng câu hỏi nghiên cứu, sử dụng các công cụ và kỹ thuật tìm ra câu trả lời
    • Thực hiện phân tích thống kê cơ bản 
    • Vận dụng công cụ để trực quan hóa dữ liệu: trích xuất thông tin, hiểu rõ hơn về dữ liệu và đưa ra quyết định hiệu quả hơn.
    V. Nội dung khóa học

    1. Tổng quan Data Science

    • Giới thiệu Data Science
    • Quy trình của Data Science
    • Giá trị của việc tìm hiểu Data Science
    • Lý do chọn ngôn ngữ lập trình Python

    2. Jupyter Notebook

    • Giới thiệu, lý do sử dụng Jupyter Notebook
    • Cài đặt và cấu hình
    • Sử dụng Jupyter Notebook
    • Markdown Text: cách sử dụng, cú pháp

    3. Numpy

    • Giới thiệu, lý do sử dụng Numpy
    • Ndarray: mảng một chiều, hai chiều, tạo mảng, index, data type, operation
    • Thao tác trên Ndarray: Statictical, sorting, set operation, broadcasting

    4. Pandas

    • Giới thiệu, lý do sử dụng Pandas
    • Series
    • Dataframe
    • Panel
    • Thao tác trên Pandas
      • I/O – Đọc ghi dữ liệu (Data Ingestion)
      • Làm sạch, tinh chỉnh dữ liệu (Data Cleaning)
      • Trực quan hóa dữ liệu (Data Visualization)
      • Thống kê dữ liệu (Descriptive Statistics)
      • Phương thức thao tác trên dữ liệu (Frequent Data Operations)
      • Gộp dữ liệu (Merging Dataframe)
      • Phương thức thao tác trên String (Frequent Data Operations)
      • Đổi thời gian (Parsing Timestamps)

    5. Data Visualization

    • Giới thiệu các công cụ trực quan
    • Vai trò của trực quan hóa dữ liệu (Data Visualization)
    • Quy trình tạo biểu đồ

    6. Tổng quan Matplotlib

    • Giới thiệu Matplotlib
    • Line plot
    • Các thành phần trên biểu đồ: axes, text, legend, label, font, color, annotation…

    7. Trực quan hóa cơ bản với Matplotlib

    • Area plot, Histogram
    • Bar chart, Pie chart
    • Box plot, Scatter plot
    • Plotting cell phone data
    • Waffle chart với pywaffle library
    • Word clouds

    8. Trực quan hóa nâng cao với Seaborn

    • Giới thiệu Seaborn 
    • Seaborn style, Color, color palettes, axes, anotation
    • Multiple plot, Stripplot, Swarmplot
    • Boxplot, Violinplot, Lvplot
    • Barplot, pointplot, countplot
    • Distplot, Distribution plot
    • Rug plot và kde shading
    • Regression plot, Residual plot
    • Bining data
    • Matrix plot
    • Heat map
    • Vẽ biểu đồ trên Data Aware Grids
      • FaceGrid
      • Factor plot và Lmplot
      • PairGrid và Pairplot
      • JointGrid và Jointplot
      • Jointplot và regression

    9. Trực quan hóa không gian địa lý 

    • Giới thiệu Folium
    • GeoDataFrame
    • Geometry
    • GeoJSON
    • GeoSeries
    • Map và Marker
    • Heatmap
    • Choropleth
    • Tạo map và trực quan hóa không gian địa lý

    10. Các công cụ trực quan hóa dữ liệu khác

    • Google Charts
    • IBM Watson Analytics

    Toán và Thống kê cho Khoa Học Dữ Liệu

    I. Tổng quan
    • Khóa học cung cấp cho học viên (HV) các kiến thức cần thiết về toán dành cho Data Science như Đại số tuyến tính (Linear Algebra), Giải tính (Calculus), Phương trình vector ma trận (Matrix-Vector Equations), Eigenvalues và Eigenvectors, Phân tích thành phần chính (Principal Component Analysis - PCA)
    • Khóa học cung cấp cho học viên (HV) các kiến thức cần thiết về xác suất thống kê dành cho Data Science như Thống kê mô tả (Descriptive Statistics), Xác suất (Probability), Thống kê suy luận (Inferential Statistics), Ước lượng (Estimation), Tương quan (Correlation)
    • Hướng dẫn HV cách vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề về khoa học dữ liệu.
    II. Thời lượng:  40 giờ.
    III. Đối tượng học:
    • Sinh viên các trường Đại học, Cao đẳng
    • HV có định hướng sẽ làm việc trong lĩnh vực Data Science, Machine Learning
    IV. Mục tiêu khóa học

    Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

    • Nắm được các kiến thức toán học và xác suất, thống kê cần thiết cho việc tính toán và phân tích dữ liệu
    • Sử dụng được các bộ thư viện, công cụ trong Python trong việc tính toán và thống kê
    • Vận dụng toán học phù hợp tùy theo yêu cầu của từng bài toán khác nhau
    • Thực hiện phân tích thống kê, đưa ra nhận xét trên những bộ dữ liệu thực tế
    V. Nội dung khóa học

    1. Phần 1: Toán học (Mathematics)

    • Linear Algebra (Đại số tuyến tính)
      • Matrix Vectors & Space
      • Matrix - Vector operations (tính toán ma trận với vector)
      • Matrix transformations (biến đổi ma trận): Matrix Multiplication
      • T-matrix (ma trận chuyển vị)
      • Matrix - Matrix calculations (tính toán ma trận với ma trận)
    • Calculus (Giải tính)
      • Multivariate calculus
      • Derivatives và gradients
    • Eigenvalues & Eigenvectors
      • Scalar Multiplication
      • Scaling different axes (Tinh chỉnh dữ liệu trên các trục)
      • Toán trong Eigenvalues
    • Principal Component Analysis (Phân tích thành phần chính - PCA)
      • Giới thiệu PCA
      • Tìm feature thừa
      • Linear Algebra trong PCA
      • Tìm hiểu Covarience
      • Chuẩn hóa dữ liệu
      • Tính toán varience, covarience

    2. Phần 2: Xác suất, thống kê (Probability Statistic)

      • Descriptive Statistics (thống kê mô tả)
        • Mean, Median, Mode
        • Standard Deviation
        • Variance
        • Co-variance
        • Range
        • Probability Density Function (PDF: hàm mật độ xác suất)
        • Outliers
        • Probability mass function (PMFs: hàm khối xác suất)
        • Cumulative distribution function (hàm phân phối tích lũy)
      • Inferential Statistics (thống kê suy luận)
        • Standard error (độ lệch chuẩn)
        • Confidence interval (khoảng tin cậy T)
        • Confidence levels and Sigificance levels
        • Correlation
        • Hypothesis Testing (kiểm định giả thuyết)
          • Cross-validation
          • t-test, p-value, chi-squared test
          • Efficient resampling
          • A/B Testing
          • ANOVA
      • Probability (Xác suất)
        • Quy tắc xác suất
        • Exponential distribution
        • Pareto distribution

      Lập trình R

      I. Tổng quan

      Khóa học này giúp học viên hiểu rõ hơn về ngôn ngữ lập trình R. Là một ngôn ngữ lập trình thiết yếu để phân tích dữ liệu (nếu không sử dụng Python), lập trình R là chìa khóa cơ bản để trở thành một chuyên gia về phân tích dữ liệu. Trong khóa học này, học viên sẽ học cách viết mã R, tìm hiểu về cấu trúc dữ liệu của R và tạo các hàm của riêng bạn.

      II. Thời lượng: 16h
      III. Mục tiêu:
      • Tìm hiểu về toán học, biến, chuỗi, vectơ, thừa số và phép toán vectơ
      • Có được kiến thức cơ bản về mảng và ma trận, danh sách và khung dữ liệu
      • Hiểu điều kiện và vòng lặp, hàm trong R, đối tượng, lớp
      • Tìm hiểu cách đọc chính xác các tệp văn bản, CSV và Excel cùng với cách ghi và lưu các đối tượng dữ liệu trong R vào một tệp
      • Hiểu và học cách làm việc trên dữ liệu kiểu chuỗi và ngày tháng trong R
      IV. Đối tượng tham gia:
      • Chuyên gia CNTT
      • Chuyên gia tài chính ngân hàng
      • Giám đốc tiếp thị
      • Quản lý mạng lưới chuỗi cung ứng
      • Người mới bắt đầu trong lĩnh vực kỹ thuật dữ liệu
      • Sinh viên các ngành kinh tế
      V. Nội dung khóa học:

      Phần 1 - R Basics

      Phần 2 - Data Structures in R

      Phần 3 - R Programming Fundamentals

      Phần 4 - Working with Data in R

      Phần 5 - Strings and Dates in R

      Khoa học dữ liệu với R

      I. Tổng quan

      Khóa học này giúp học viên sử dụng công cụ lập trình R trong phân tích và khoa học dữ liệu.

      II. Thời lượng: 32h
      III. Mục tiêu:
      • Có được sự hiểu biết cơ bản về phân tích kinh doanh
      • Cài đặt R, R-studio và tìm hiểu về các gói R khác nhau
      • Thành thạo lập trình R và hiểu cách các câu lệnh được thực thi trong R
      • Hiểu về cấu trúc dữ liệu được sử dụng trong R và học cách nhập / xuất dữ liệu trong R
      • Hiểu và sử dụng các công cụ trong R để trực quan hóa dữ liệu
      • Hiểu cơ bản các khái niệm thống kê và áp dụng nó trong phân tích dữ liệu
      • Hiểu và sử dụng phương pháp kiểm tra giả thuyết để đưa ra các quyết định kinh doanh
      • Hiểu và học cách sử dụng các mô hình hồi quy tuyến tính, phi tuyến tính và các kỹ thuật phân loại để phân tích dữ liệu
      • Tìm hiểu và sử dụng các phương pháp phân cụm bao gồm K-means, DBSCAN và phân cụm phân cấp
      IV. Đối tượng tham gia:
      • Chuyên gia CNTT
      • Chuyên gia tài chính ngân hàng
      • Giám đốc tiếp thị
      • Quản lý mạng lưới chuỗi cung ứng
      • Người mới bắt đầu trong lĩnh vực kỹ thuật dữ liệu
      • Sinh viên các ngành kinh tế
      V. Nội dung khóa học:

      Phần 1 - Introduction to Business Analytics

      Phần 2 - Introduction to R Programming

      Phần 3 - Data Structures

      Phần 4 - Data Visualization

      Phần 5 - Statistics for Data Science-I

      Phần 6 - Statistics for Data Science-II

      Phần 7 - Regression Analysis

      Phần 8 - Classification

      Phần 9 - Clustering

      Phần 10 – Association

      Data Science With Python

      I. Overview:

      This Data Science with Python course will establish your mastery of data science and analytics techniques using Python. With this Python for Data Science Course, you ’ll learn the essential concepts of Python programming and gain deep knowledge in data analytics, machine learning, data visualization, web scraping, and natural language processing. Python is a required skill for many data science positions, so jumpstart your career with this interactive, hands-on course

      II. Duration:

      40 hours

      III. Course outlines:

      1. Data Science with Python

      • Course Overview
      • Data Science Overview
      • Data Analytics Overview
      • Statistical Analysis and Business Applications
      • Python Environment Setup and Essentials
      • Mathematical Computing with Python (NumPy)
      • Scientific computing with Python (Scipy)
      • Data Manipulation with Pandas
      • Machine Learning with Scikit–Learn1
      • Natural Language Processing with Scikit Learn
      • Data Visualization in Python using matplotlib
      • Web Scraping with BeautifulSoup
      • Python integration with Hadoop MapReduce and Spark

      2. Math Refresher

      3. Data Science in Real life

      • Course Objective
      • Defining Data Science
      • What do Data Science People do
      • Data Science in Business
      • Use Cases for Data Science
      • Data Science People

      4. Python for Data Science

      • Welcome
      • Python Basics
      • Python Data Structures
      • Python Programming Fundamentals
      • Working with Data in Python
      • Working with Numpy Arrays
      • Course Summary

      5. Statistics Essential for Data Science

      • Introduction
      • Sample or population data
      • The fundamentals of descriptive statistics
      • Measures of central tendency, asymmetry, and variability
      • Practical example descriptive statistics
      • Distributions
      • Estimators and Estimates
      • Confidence intervals advanced topics
      • Practical example inferential statistics
      • Hypothesis testing Introduction
      • Hypothesis testing Let's start testing
      • Practical example hypothesis testing
      • The fundamentals of regression analysis
      • Subtleties of regression analysis
      • Assumptions for linear regression analysis
      • Dealing with categorical data
      • Practical example regression analysis
      Zalo