Giới thiệu về DE
Data Engineer là người thiết kế và phát triển các hệ thống để thu thập, lưu trữ và phân tích dữ liệu theo quy mô.
Cấu trúc khóa học.
Trong suốt khóa học sẽ sử dụng các phần sau:
- New York’s Taxi and Limousine Corporation’s Trip Records Dataset: dữ liệu cho các bài thực hành.
- Spark: công cụ để phân tích dữ liệu ở quy mô lớn(xử lý phân tán).
- Google BigQuery: data warehouse (kho lưu trữ trung tâm tích hợp dữ liệu từ một hoặc nhiều nguồn khác nhau).
- Airflow: công cụ điều phối pipeline.
- Kafka: nền tảng để hợp nhất, băng tải cao, độ trễ thấp để xử lý các luồng dữ liệu theo thời gian thực (streaming).