Nội dung đào tạo Khoa học dữ liệu Data Science với Python

Cập nhật ngày: 23/06/2021 - Đã có 1116 lượt xem bài viết này!
Nội dung đào tạo Khoa học dữ liệu Data Science với Python
Khóa đào tạo khoa học dữ liệu lập trình Python này dạy các kỹ sư, nhà khoa học dữ liệu, nhà thống kê và các chuyên gia định lượng khác về các kỹ năng Python họ cần sử dụng ngôn ngữ lập trình Python để phân tích và lập biểu đồ dữ liệu.

Nội dung đào tạo Khoa học dữ liệu Data Science với Python

Tại sao nên học Python?

Mục tiêu khóa đào tạo khoa học dữ liệu  Data Science với Python

-  Hiểu lịch sử của Python và sự khác biệt giữa 2.X và 3.X

-  Hiểu sự khác biệt giữa các kiểu dữ liệu cơ bản của Python

-  Biết khi nào nên sử dụng các bộ tập hợp Python Collections khác nhau

-  Khả năng thực hiện các chức năng python

-  Hiểu các cấu trúc luồng điều khiển Control Flow Constructs  trong Python

-  Xử lý lỗi thông qua các cấu trúc xử lý ngoại lệ

-  Có thể định nghĩa một cách định lượng một câu hỏi có thể trả lời, có thể hành động

-  Nhập cả dữ liệu có cấu trúc và không cấu trúc vào Python

-  Phân tích dữ liệu phi cấu trúc thành các định dạng có cấu trúc

-  Hiểu sự khác biệt giữa mảng NumPy và Pandas DataFrames

-  Tổng quan về nơi Python phù hợp với hệ sinh thái Python/Hadoop/Spark

-  Mô phỏng dữ liệu thông qua việc tạo số ngẫu nhiên

-  Hiểu cơ chế cho dữ liệu bị thiếu và ý nghĩa phân tích

-  Khám phá và làm sạch dữ liệu

-  Tạo đồ họa hấp dẫn để tiết lộ kết quả phân tích

-  Định hình lại và hợp nhất dữ liệu để chuẩn bị cho các phân tích nâng cao

-  Tìm kiểm tra sự khác biệt nhóm bằng cách sử dụng số liệu thống kê suy luận

-  Thực hiện hồi quy tuyến tính từ quan điểm thường xuyên

-  Hiểu các thuật ngữ phi tuyến tính, gây nhiễu và tương tác trong hồi quy tuyến tính

-  Mở rộng đến hồi quy logistic để mô hình kết quả nhị phân

-  Hiểu sự khác biệt giữa phương pháp học máy và phương pháp thường xuyên để thống kê

-  Thực hiện các mô hình phân loại và hồi quy bằng cách sử dụng máy học

-  Điểm số bộ dữ liệu mới, đánh giá sự phù hợp của mô hình và định lượng tầm quan trọng của biến

Điều kiện tiên quyết:

  • Thành viên tham gia lớp đào tạo có thể thoải mái sử dụng hệ điều hành (Linux, Unix, Windows, Solaris, Mac OS X, v.v.) mà sẽ chạy Python. Mặc dù không bắt buộc, các kỹ năng cơ bản với ít nhất một ngôn ngữ lập trình khác.
  • Đã hoàn thành khóa đào tạo Python cơ bản.

Tài liệu đào tạo:

  • Tất cả thành viên tham gia lớp đào tạo Python sẽ nhận được tài liệu chuẩn để tham khảo (Python® Notes for Professionals - 700+ pages).

Yêu cầu phần mềm:

  • Yêu cầu hệ thống?
    • Windows, Linux hoặc Mac OS XPython 2.6, 2.7 hoặc 3.x.
    • Ổ cứng SSD 128 Gb trở lên.
    • RAM 4 GB
    • Dung lượng ổ trống 20 Gb trở lên.
  • Yêu cầu quyền?
    • Truy cập được Internet để tra cứu tài nguyên khi cần.
  • Yêu cầu cài đặt?
    • Cài IDE có hỗ trợ lập trình Python (PyCharm Community Edition).
    • Có thể xài một IDE khác.

Nội dung Chương trình đào tạo khoa học dữ liệu Data Science với Python:

  • Base Python Introduction
  • History and current use
  • Installing the Software
  • Python Distributions
  • String Literals and numeric objects
  • Collections (lists, tuples, dicts)
  • Datetime classes in Python
  • Memory Management in Python
  • Control Flow
  • Functions
  • Exception Handling
  • Defining actionable, analytic questions
  • Defining the quantitative construct to make inference on the question
  • Identifying the data needed to support the constructs
  • Identifying limitations to the data and analytic approach
  • Constructing Sensitivity analyses
  • Bringing Data In
  • Structured Data
  • Structured Text Files
  • Excel workbooks
  • SQL databases
  • Working with Unstructured Text Data
  • Reading Unstructured Text
  • Introduction to Natural Language Processing with Python
  • NumPy: Matrix Language
  • Introduction to the ndarray
  • NumPy operations
  • Broadcasting
  • Missing data in NumPy (masked array)
  • NumPy Structured arrays
  • Random number generation
  • Data Preparation with Pandas
  • Filtering
  • Creating and deleting variables
  • Discretization of Continuous Data
  • Scaling and standardizing data
  • Identifying Duplicates
  • Dummy Coding
  • Combining Datasets
  • Transposing Data
  • Long to wide and back
  • Exploratory Data Analysis with Pandas
  • Univariate Statistical Summaries and Detecting Outliers
  • Multivariate Statistical Summaries and Outlier Detection
  • Group-wise calculations using Pandas
  • Pivot Tables
  • Exploring Data graphically
  • Histogram
  • Box-and-whiskers plot
  • Scatter plots
  • Forest Plots
  • Group-by plotting
  • Advanced Graphing with Matplotlib, Pandas, and Seaborn
  • Python, Hadoop and Spark
  • Introduction to the difference in Python, Hadoop, and Spark
  • Importing data from Spark and Hadoop to Python
  • Parallel execution leveraging Spark or Hadoop
  • Missing Data
  • Exploring and understanding patterns in missing data      
  • Missing at Random
  • Missing Not at Random
  • Missing Completely at Random
  • Data imputation methods
  • Traditional Inferential Statistics
  • Comparing Groups
  • P-Values, summary statistics, sufficient statistics, inferential targets
  • T-Tests (equal and unequal variances)
  • ANOVA
  • Chi-Square Tests
  • Correlation
  • Frequentist Approaches to Multivariate Statistics
  • Linear Regression
  • Multivariate linear regression
  • Capturing Non-linear Relationships
  • Comparing Model Fits
  • Scoring new data
  • Poisson Regression Extension
  • Logistic regression
  • Logistic Regression Example
  • Classification Metrics
  • Machine learning approaches to multivariate statistics
  • Machine Learning Theory
  • Data pre-processing
  • Missing Data
  • Dummy Coding
  • Standardization
  • Training/Test data
  • Supervised Versus Unsupervised Learning
  • Unsupervised Learning: Clustering
  • Clustering Algorithms
  • Evaluating Cluster Performance
  • Dimensionality Reduction
  • A-priori
  • Principal Components Analysis
  • Penalized Regression
  • Supervised Learning: Regression
  • Linear Regression
  • Penalized Linear Regression
  • Stochastic Gradient Descent
  • Scoring New Data Sets
  • Cross Validation
  • Variance Bias-Tradeoff
  • Feature Importance
  • Supervised Learning: Classification
  • Logistic Regression
  • LASSO
  • Random Forest
  • Ensemble Methods
  • Feature Importance
  • Scoring New Data Sets
  • Cross Validation
  • Mini Project with Python.

Hình ảnh hoạt động đào tạo cho khách hàng Doanh nghiệp
!

Hình ảnh hoạt động đào tạo cho khách hàng Cá nhân!


 ĐƠN VỊ TỔ CHỨC TUYỂN SINH & ĐÀO TẠO NHÂN SỰ

IMIC TECHNOLOGY - ĐÀO TẠO NHÂN SỰ DỰ ÁN CHUYÊN NGHIỆP

  • VPĐT Hà Nội: Tầng 2B, tòa nhà T6-8, Tổng Cục 5, Bộ Công An, Số 643A Phạm Văn Đồng, Từ Liêm, Hà Nội.
  • Tel & Hotline: (0243) 75 57 666 – (0243) 75 57 333 – 0988 270 588
  • VPĐT Hồ Chí Minh: Tầng 6, tòa nhà Phan Tôn, P.ĐaKao, Quận 01, Hồ Chí Minh.
  • Hotline: (028) 22 53 2345 – 091 6878 224
  • Website: www.imic.edu.vn
  • Email: tuvan@imic.edu.vn
  • Facebook: www.facebook.com/imic.edu.vn

Xem khóa đào tạo nhân sự theo danh mục!

Xem các khóa đào tạo nhân sự