Giới thiệu nội dung
Giới thiệu Apache Spark – framework xử lý big data phân tán. Bao gồm RDDs, DataFrames, Spark SQL, Spark Streaming, MLlib và tích hợp với Hadoop ecosystem. Xây dựng data pipeline xử lý terabytes dữ liệu và real-time streaming analytics với Kafka và Spark.