• 20.650.000 đ

Trong kỷ nguyên dữ liệu bùng nổ, Data Engineer (Kỹ sư dữ liệu) đang trở thành một trong những nghề “hot” nhất trên thị trường lao động. Sự phát triển mạnh mẽ của Big Data, AI, và nhu cầu ra quyết định dựa trên dữ liệu khiến Data Engineer được săn đón ở hầu hết các doanh nghiệp – từ startup đến tập đoàn đa quốc gia.

1. Kiến thức nền tảng

-    Hiểu được vai trò, trách nhiệm của Data Engineer trong hệ sinh thái dữ liệu (so với Data Analyst, Data Scientist, BI Developer).
-    Nắm vững kiến thức cơ bản về cơ sở dữ liệu quan hệ (RDBMS) và phi quan hệ (NoSQL).
-    Thành thạo SQL nâng cao: joins, subquery, CTE, window functions, indexing.
-    Sử dụng Python để xử lý dữ liệu, làm sạch dữ liệu và kết nối cơ sở dữ liệu.
-    Biết sử dụng Linux, Shell scripting, Git để quản lý mã nguồn và tự động hóa công việc.

2. Kỹ năng xây dựng Pipeline & ETL

-    Hiểu kiến trúc Data Warehouse và Data Lake.
-    Áp dụng Data Modeling: Star Schema, Snowflake Schema, Data Vault.
-    Xây dựng ETL/ELT pipelines với Python, Spark, Airflow, dbt.
-    Biết cách xử lý dữ liệu batch và tối ưu hóa hiệu năng pipeline.
-    Tạo, quản lý và giám sát các workflow với Airflow/Prefect.

3. Kỹ năng xử lý Big Data & Streaming

-    Hiểu được kiến trúc hệ sinh thái Big Data (Hadoop, Spark, Kafka).
-    Sử dụng Apache Spark để xử lý dữ liệu lớn: RDD, DataFrame, Spark SQL, UDF.
-    Xây dựng hệ thống streaming real-time với Kafka + Spark Streaming/Flink.
-    Phân biệt và triển khai được batch processing và real-time processing.

4. Kỹ năng triển khai trên Cloud

-    Hiểu khái niệm Cloud Data Engineering và lợi ích so với on-premises.
-    Làm quen và thực hành trên ít nhất 1 nền tảng Cloud (AWS, Azure, GCP).
-    Xây dựng data lakehouse với công nghệ Delta Lake/Iceberg/Hudi.
-    Triển khai pipeline trên Cloud: ingest dữ liệu → transform → load vào Data Warehouse (Redshift, BigQuery, Synapse).
-    Sử dụng Docker, Kubernetes và IaC (Terraform) để quản lý hạ tầng dữ liệu.
-    Đảm bảo bảo mật, phân quyền và tuân thủ khi làm việc với dữ liệu trên Cloud.

5. Data Governance & Quản lý chất lượng dữ liệu

-    Hiểu rõ Data Governance: quản lý lineage, catalog, metadata.
-    Ứng dụng công cụ Data Quality (Great Expectations, Deequ) để kiểm soát chất lượng dữ liệu.
-    Thực hiện performance tuning cho SQL và Spark.
-    Xây dựng hệ thống monitoring, logging, alerting cho pipeline dữ liệu.

6. Kỹ năng làm việc dự án & triển khai thực tế

-    Áp dụng kiến thức đã học để thực hiện dự án end-to-end:
-    Thu thập dữ liệu (batch + streaming).
-    Lưu trữ trong Data Lake.
-    Xử lý bằng Spark/dbt.
-    Load dữ liệu vào Data Warehouse.
-    Xuất dữ liệu cho BI tools (Power BI, Looker, Tableau).
-    Rèn luyện kỹ năng làm việc nhóm (Git, CI/CD, Agile/Scrum).
-    Hình thành tư duy thiết kế hệ thống dữ liệu ổn định – mở rộng – tối ưu.

7. Năng lực sau khi hoàn thành khóa học:

-    Thiết kế & triển khai các data pipeline từ nhỏ đến lớn.
-    Làm chủ ETL/ELT và Big Data frameworks (Spark, Kafka).
-    Vận hành hệ thống dữ liệu trên Cloud (AWS/Azure/GCP).
-    Đảm bảo chất lượng, bảo mật và quản trị dữ liệu trong tổ chức.
-    Thực hiện độc lập hoặc tham gia nhóm trong các dự án Data Warehouse, Data Lake, Data Streaming.
-    Đủ năng lực ứng tuyển các vị trí: Data Engineer, Big Data Engineer, Cloud Data Engineer.

Data Engineer là ai?

-    Data Engineer là người xây dựng và quản lý hệ thống hạ tầng dữ liệu cho doanh nghiệp. Họ tạo ra pipeline dữ liệu giúp thu thập, làm sạch, xử lý và lưu trữ dữ liệu một cách hiệu quả, để Data Scientist, nhà phân tích dữ liệu hoặc hệ thống AI có thể sử dụng.

05 Lý do Data Engineer phát triển nhanh

1. Bùng nổ dữ liệu toàn cầu

-    Theo thống kê, mỗi ngày thế giới tạo ra hơn 300 triệu terabyte dữ liệu từ mạng xã hội, thương mại điện tử, IoT. Nhu cầu xử lý dữ liệu ngày càng lớn kéo theo nhu cầu tuyển dụng Data Engineer tăng mạnh.

2. Doanh nghiệp đẩy mạnh chuyển đổi số

-    Các công ty đang trở thành data-driven enterprise – ra quyết định dựa trên dữ liệu. Data Engineer chính là người xây “hạ tầng dữ liệu” để biến dữ liệu thành tài sản giá trị.

3. Thiếu hụt nhân lực chất lượng cao

-    Nguồn cung Data Engineer chưa đáp ứng đủ nhu cầu. Đây là cơ hội lớn cho những ai muốn bắt đầu sự nghiệp trong lĩnh vực này.

4. Thu nhập cạnh tranh

-    Lương trung bình của Data Engineer cao hơn nhiều vị trí IT khác. Ở Việt Nam, mức lương có thể từ 20 – 60 triệu/tháng; ở Mỹ, mức lương trung bình dao động từ 100.000 – 150.000 USD/năm.

5. Cơ hội nghề nghiệp lâu dài

-    Cùng với sự phát triển của AI, Machine Learning, Data Engineer sẽ tiếp tục là vị trí then chốt, khó bị thay thế bởi tự động hóa.

-    Lộ trình bài bản, trang bị cho học viên kiến thức, kỹ năng đáp ứng yêu cầu nhà tuyển dụng.

-    Học theo dự án thực tế – Áp dụng ngay vào công việc.

-    Mỗi lớp chỉ từ 7-12 học viên được cầm tay chỉ việc bởi các chuyên gia Data Analyst từ các tập đoàn, doanh nhiệp lớn,...

-    Cấp chứng chỉ và cam kết giới thiệu việc làm sau khi tốt nghiệp

-    Nắm chắc kỹ năng, tối ưu CV, mở rộng cơ hội thăng tiến.

-   Hình thức học Online và Offline linh động.

Học phần 1: Nền tảng Data Engineering (6 buổi – 24h)

-    Giới thiệu Data Engineering, vai trò trong hệ sinh thái dữ liệu.
-    Cơ sở dữ liệu quan hệ (SQL nâng cao: join, window functions, indexing).
-    NoSQL databases: MongoDB, Cassandra, Redis.
-    Python cho Data Engineer: Pandas, xử lý file (CSV, JSON, Parquet), kết nối DB.
-    Git & CI/CD căn bản cho dự án dữ liệu.
-    Linux & Shell scripting cho automation.
-    Dự án cuối học phần:Thiết kế và truy vấn một database quan hệ (PostgreSQL/MySQL).

Học phần 2: Data Pipeline & ETL (6 buổi – 24h)

-    Kiến trúc Data Warehouse vs Data Lake.
-    Data Modeling: Star Schema, Snowflake, Data Vault.
-    Công cụ ETL cổ điển & hiện đại (SSIS, Informatica vs dbt, Airflow).
-    Batch Processing với Apache Spark (RDD, DataFrame, SQL).
-    Orchestration với Apache Airflow / Prefect.
-    Tối ưu hoá pipeline: partitioning, caching, indexing.
-    Dự án cuối học phần:

  •       Xây dựng ETL pipeline từ nhiều nguồn dữ liệu (API, CSV, DB) → transform bằng Spark → load vào Data Warehouse (Postgres/BigQuery).
  •       Học phần 3: Xử lý dữ liệu lớn & Streaming (6 buổi – 24h)

Học phần 3: Xử lý dữ liệu lớn & Streaming (6 buổi – 24h)

-    Giới thiệu Big Data ecosystem (Hadoop, Spark, Kafka).
-    Spark nâng cao: UDF, MLlib, Structured Streaming.
-    Kafka: publish/subscribe, consumer groups.
-    Xử lý streaming với Kafka + Spark Streaming / Flink.
-    Real-time Data Warehouse (Kinesis, Pub/Sub).
-    Monitoring & logging pipelines.
-    Dự án cuối học phần:
     + Xây dựng hệ thống real-time data pipeline: dữ liệu log/transaction → Kafka → Spark Streaming → Dashboard (ví dụ Power BI/Looker).

Học phần 4: Cloud Data Engineering (6 buổi – 24h)

-    Cloud fundamentals: AWS vs Azure vs GCP.
-    Data Lakehouse (Delta Lake, Iceberg).
-    Dịch vụ Cloud Data:
-    AWS (S3, Glue, Redshift, EMR, Lambda, Kinesis).
-    GCP (BigQuery, Dataflow, Pub/Sub).
-    Azure (Data Factory, Synapse, Databricks).
-    IaC (Infrastructure as Code) – Terraform basics.
-    Container & orchestration: Docker, Kubernetes.
-    Bảo mật dữ liệu, quản lý quyền truy cập.
-    Dự án cuối học phần:

  •     Triển khai pipeline trên Cloud: ingest dữ liệu từ API → lưu trữ vào Data Lake (S3/ADLS) → xử lý bằng Spark/Databricks → load vào Data Warehouse (Redshift/BigQuery).

Học phần 5: Data Governance & Dự án tổng hợp (6 buổi – 24h)

-    Data Governance: lineage, catalog, metadata.
-    Data Quality frameworks (Great Expectations, Deequ).
-    Performance tuning (SQL, Spark).
-    Logging, Monitoring, Alerting.
-    Làm việc nhóm & best practices trong Data Engineering.
-    Review & chuẩn bị cho dự án capstone.
-    Dự án cuối khóa (Capstone Project):
-    Thiết kế & triển khai hệ thống dữ liệu end-to-end:
-    Thu thập dữ liệu từ nhiều nguồn (batch + streaming).
-    Lưu trữ trong Data Lake.
-    Xử lý/transform bằng Spark & dbt.
-    Tích hợp vào Data Warehouse.
-    Dashboard phân tích cuối cùng cho Business Analyst.