PYT_SPARK_DEVESS | Spark y Pyspark Essentials
Los participantes serán capaces de integrar la ejecución de consultas para carga, transformaciones de volúmenes grandes de datos en Apache Spark con código Python y utilizar el lenguaje SQL de Spark.
Objetivos del curso
- Aprender a iniciar con Apache Spark.
- Integrar Apache Spark con PySprk.
- Conocer el uso de RDD en Spark.
- Configurar características de Spark, como cache, particionamiento y shuffling.
- Aplicar lectura, escritura y transformaciones con Python.
- Usar DataFrames en Python.
- Utilizar Spark SQL con Python.
Perfil de audiencia
- Desarrolladores, analistas y científicos de datos que quieran aprovechar las capacidades de análisis ofrecidas por la integración de Apache Spark y Python.
Prerrequisitos
- Conocimiento general de bases de datos, tanto relacionales como no relacionales.
- Experiencia en programación orientada a objetos.
- Conocimiento del lenguaje Python.
Versión de la tecnología
- 3.11
- Spark 3.5.4
Esquema del curso
Capítulo 1. Introducción a la plataforma de PySpark
- Objetivos
- 1.1. Análisis de datos y Big Data
- 1.2. Apache Spark
- 1.3. Plataformas de ejecución de Spark
- 1.4. On premise
- 1.5. On cloud
- 1.6. Ventajas y desventajas
- Resumen
- Referencias bibliográficas
Capítulo 2. Lenguaje Python en Spark
- Objetivos
- 2.1. Generalidades de Python
- 2.2. Analítica de datos con Python
- 2.3. Integración de Spark y Python con PySpark
- Resumen
- Práctica 1. Instalación de ambiente (Spark, Python y bibliotecas)
- Referencias bibliográficas
Capítulo 3. Introducción a RDD en Spark
- Objetivos
- 3.1. SparkContext y SparkSession
- 3.2. RDD en Spark
- 3.3. Características
- 3.4. Creación de RDD en PySpark
- Resumen
- Práctica 2. Creación de RDD en PySpark
- Referencias bibliográficas
Capítulo 4. Transformaciones en RDD
- Objetivos
- 4.1. Necesidad de transformaciones en ingestas de datos
- 4.2. Tipos de transformaciones
- 4.3. Funciones de transformación
- Resumen
- Práctica 3. Uso de funciones de transformación
- Referencias bibliográficas
Capítulo 5. Acciones sobre RDD
- Objetivos
- 5.1. Operaciones aplicables a RDD
- 5.2. Funciones ejecutables en RDD
- Resumen
- Práctica 4. Acciones sobre RDD
- Referencias bibliográficas
Capítulo 6. Aspectos avanzados sobre RDD
- Objetivos
- 6.1. Almacenamiento en caché
- 6.2. Particionamiento
- 6.3. Shuffling
- 6.4. Broadcast de variables
- 6.5. Acumuladores
- Resumen
- Práctica 5. Aplicando aspectos avanzados
- Referencias bibliográficas
Capítulo 7. Spark SQL
- Objetivos
- 7.1. Introducción a Spark SQL
- 7.2. DataFrames
- 7.3. Desde RDD
- 7.4. Fuentes externas
- 7.5. Operaciones con DataFrames
- 7.6. Lectura
- 7.7. Escritura
- 7.8. Operaciones con columnas
- 7.9. Transformaciones
- 7.10. Manejo de errores y datos faltantes.
- Resumen
- Práctica 6. Uso de DataFrames, cálculos y operaciones con columnas y transformaciones
- Referencias bibliográficas
Capítulo 8. Spark SQL Avanzado
- Objetivos
- 8.1. Agrupación
- 8.2. Funciones de agregación
- 8.3. Joins: tipos y aplicaciones
- 8.4. Introducción al análisis de datos
- Resumen
- Práctica 7. Uso de agregaciones, agrupaciones y relaciones
- Referencias bibliográficas
Capítulo 9. Funciones en Spark SQL
- Objetivos
- 9.1. Principales funciones y bibliotecas
- 9.2. Funciones de fecha y hora
- 9.3. Funciones de texto
- 9.4. Funciones de colección
- 9.5. Funciones when, coalesce y lit
- 9.6. Funciones de ventana
- 9.7. Funciones definidas por el usuario
- 9.8. Catalyst Optimizer
- Resumen
- Práctica 8. Uso de funciones en Spark SQL
- Referencias bibliográficas
Descargue el temario para conocer el detalle completo de los contenidos.
Debido a las constantes actualizaciones de los contenidos de los cursos por parte del fabricante, el contenido de este temario puede variar con respecto al publicado en el sitio oficial, sin embargo, Netec siempre entregará la versión actualizada de éste.
PYT_SPARK_DEVESS | Spark y Pyspark Essentials
Duración 5 días Versión 3.1 Temario Descarga aquí ⇩ Fechas Netec Consultar Métodos de entrega 👤 💻