top of page
PYT_SPARK_DEV_ESS | Spark y Pyspark Essentials

PYT_SPARK_DEVESS | Spark y Pyspark Essentials

 

Los participantes serán capaces de integrar la ejecución de consultas para carga, transformaciones de volúmenes grandes de datos en Apache Spark con código Python y utilizar el lenguaje SQL de Spark.

 

Objetivos del curso

  • Aprender a iniciar con Apache Spark
  • Integrar Apache Spark con PySprk
  • Conocer el uso de RDD en Spark
  • Configurar características de Spark, como cache, particionamiento y shuffling
  • Aplicar lectura, escritura y transformaciones con Python
  • Usar DataFrames en Python
  • Utilizar Spark SQL con Python


Perfil de audiencia

  • Desarrolladores, analistas y científicos de datos que quieran aprovechar las capacidades de análisis ofrecidas por la integración de Apache Spark y Python.


Prerrequisitos

  • Conocimiento general de bases de datos, tanto relacionales como no relacionales
  • Experiencia en programación orientada a objetos
  • Conocimiento del lenguaje Python


Versión de la tecnología

  • 2025-2


Esquema del curso

Capítulo 1: Introducción a la plataforma de PySpark

  • Análisis de datos y Big Data
  • Apache Spark
  • Plataformas de ejecución de Spark
  • On premise
  • On cloud
  • Ventajas y desventajas
  • Arquitectura de Spark y ejecución distribuida

Capítulo 2: Lenguaje Python en Spark

  • Generalidades de Python
  • Analítica de datos con Python
  • Integración de Spark y Python con PySpark
  • Laboratorio 1: Instalación de ambiente (Spark, Python y bibliotecas)

Capítulo 3: Introducción a RDD en Spark

  • SparkContext y SparkSession
  • RDD en Spark
  • Características
  • Creación de RDD en PySpark
  • Laboratorio 2: Creación de RDD en PySpark

Capítulo 4: Spark SQL y DataFrames

  • Introducción a Spark SQL
  • DataFrames
  • Desde RDD
  • Fuentes externas
  • Operaciones con DataFrames
  • Lectura
  • Escritura
  • Operaciones con columnas
  • Transformaciones
  • Manejo de errores y datos faltantes
  • Comparación entre RDD, DataFrame y Dataset
  • Laboratorio 3: Uso de DataFrames, cálculos y operaciones con columnas y transformaciones

Capítulo 5: Transformaciones

  • Necesidad de transformaciones en ingesta de datos
  • Tipos de transformaciones
  • Funciones de transformación
  • Laboratorio 4: Uso de funciones de transformación

Capítulo 6: Acciones

  • Operaciones aplicables
  • Funciones ejecutables
  • Laboratorio 5: Acciones

Capítulo 7: Aspectos avanzados

  • Almacenamiento en caché
  • Particionamiento
  • Shuffling
  • Broadcast de variables
  • Acumuladores
  • Laboratorio 6: Aplicando aspectos avanzados

Capítulo 8: Spark SQL Avanzado

  • Agrupación
  • Funciones de agregación
  • Joins: tipos y aplicaciones
  • Introducción al análisis de datos
  • Laboratoro 7: Uso de agregaciones, agrupaciones y relaciones

Capítulo 9: Funciones en Spark SQL

  • Principales funciones y bibliotecas
  • Funciones de fecha y hora
  • Funciones de texto
  • Funciones de colección
  • Funciones when, coalesce y lit
  • Funciones de ventana
  • Funciones definidas por el usuario
  • Catalyst Optimizer
  • Laboratorio 8: Uso de funciones en Spark SQL


Descargue el temario para conocer el detalle completo de los contenidos.

 

Debido a las constantes actualizaciones de los contenidos de los cursos por parte del fabricante, el contenido de este temario puede variar con respecto al publicado en el sitio oficial, sin embargo, Netec siempre entregará la versión actualizada de éste.

PYT_SPARK_DEV_ESS | Spark y Pyspark Essentials

SKU: NETEC-PYT_SPARK_DEV_ESS
bottom of page