PYT_SPARK_DEVESS | Spark y Pyspark Essentials
Los participantes serán capaces de integrar la ejecución de consultas para carga, transformaciones de volúmenes grandes de datos en Apache Spark con código Python y utilizar el lenguaje SQL de Spark.
Objetivos del curso
- Aprender a iniciar con Apache Spark
- Integrar Apache Spark con PySprk
- Conocer el uso de RDD en Spark
- Configurar características de Spark, como cache, particionamiento y shuffling
- Aplicar lectura, escritura y transformaciones con Python
- Usar DataFrames en Python
- Utilizar Spark SQL con Python
Perfil de audiencia
- Desarrolladores, analistas y científicos de datos que quieran aprovechar las capacidades de análisis ofrecidas por la integración de Apache Spark y Python.
Prerrequisitos
- Conocimiento general de bases de datos, tanto relacionales como no relacionales
- Experiencia en programación orientada a objetos
- Conocimiento del lenguaje Python
Versión de la tecnología
- 2025-2
Esquema del curso
Capítulo 1: Introducción a la plataforma de PySpark
- Análisis de datos y Big Data
- Apache Spark
- Plataformas de ejecución de Spark
- On premise
- On cloud
- Ventajas y desventajas
- Arquitectura de Spark y ejecución distribuida
Capítulo 2: Lenguaje Python en Spark
- Generalidades de Python
- Analítica de datos con Python
- Integración de Spark y Python con PySpark
- Laboratorio 1: Instalación de ambiente (Spark, Python y bibliotecas)
Capítulo 3: Introducción a RDD en Spark
- SparkContext y SparkSession
- RDD en Spark
- Características
- Creación de RDD en PySpark
- Laboratorio 2: Creación de RDD en PySpark
Capítulo 4: Spark SQL y DataFrames
- Introducción a Spark SQL
- DataFrames
- Desde RDD
- Fuentes externas
- Operaciones con DataFrames
- Lectura
- Escritura
- Operaciones con columnas
- Transformaciones
- Manejo de errores y datos faltantes
- Comparación entre RDD, DataFrame y Dataset
- Laboratorio 3: Uso de DataFrames, cálculos y operaciones con columnas y transformaciones
Capítulo 5: Transformaciones
- Necesidad de transformaciones en ingesta de datos
- Tipos de transformaciones
- Funciones de transformación
- Laboratorio 4: Uso de funciones de transformación
Capítulo 6: Acciones
- Operaciones aplicables
- Funciones ejecutables
- Laboratorio 5: Acciones
Capítulo 7: Aspectos avanzados
- Almacenamiento en caché
- Particionamiento
- Shuffling
- Broadcast de variables
- Acumuladores
- Laboratorio 6: Aplicando aspectos avanzados
Capítulo 8: Spark SQL Avanzado
- Agrupación
- Funciones de agregación
- Joins: tipos y aplicaciones
- Introducción al análisis de datos
- Laboratoro 7: Uso de agregaciones, agrupaciones y relaciones
Capítulo 9: Funciones en Spark SQL
- Principales funciones y bibliotecas
- Funciones de fecha y hora
- Funciones de texto
- Funciones de colección
- Funciones when, coalesce y lit
- Funciones de ventana
- Funciones definidas por el usuario
- Catalyst Optimizer
- Laboratorio 8: Uso de funciones en Spark SQL
Descargue el temario para conocer el detalle completo de los contenidos.
Debido a las constantes actualizaciones de los contenidos de los cursos por parte del fabricante, el contenido de este temario puede variar con respecto al publicado en el sitio oficial, sin embargo, Netec siempre entregará la versión actualizada de éste.
PYT_SPARK_DEV_ESS | Spark y Pyspark Essentials
Duración 5 días Versión 2025-2 Temario Descarga aquí ⇩ Fechas Netec Consultar Métodos de entrega 👤 💻

