KM404G | IBM InfoSphere Advanced DataStage - Parallel Framework v11.5

 

Descripción General

Este curso está diseñado para enseñar técnicas avanzadas para el desarrollo de trabajos paralelos en DataStage v11.5. En este curso obtendrá una comprensión más profunda de la arquitectura de DataStage, incluida una comprensión detallada del desarrollo de DataStage y los entornos de tiempo de ejecución. Esto le permitirá diseñar trabajos paralelos robustos, menos sujetos a errores, reutilizables y optimizados para un mejor rendimiento.

Itinerarios de aprendizaje o rutas de capacitación que hacen referencia a este curso:

  • Data Integration Architect
  • Data Integration Developer
  • Information Analysis – Data Integration Architect
  • Information Server - Developer Role

 

Audiencia

Desarrolladores experimentados de DataStage que buscan capacitación en técnicas avanzadas de trabajo DataStage y una comprensión de la arquitectura del marco de trabajo paralelo.

 

Prerrequisitos

El curso IBM InfoSphere DataStage Essentials o un conocimiento equivalente, y al menos un año de experiencia desarrollando trabajos paralelos usando DataStage.

 

Temario

1: Introducción a la arquitectura de marco paralelo

  • Describir la arquitectura de procesamiento paralelo
  • Describir el paralelismo de pipelines y particiones
  • Describir la función del archivo de configuración
  • Diseñar un trabajo que cree datos de prueba robustos

 

2: Compilación y ejecución de trabajos

  • Describir las partes principales del archivo de configuración
  • Describir el proceso de compilación y la SST que genera el proceso de compilación
  • Describir el rol y las partes principales del Score
  • Describir el proceso de ejecución de trabajos

 

3: Partición y recolección de datos

  • Comprender cómo funciona la partición en el Framework
  • Visualización de particiones en el Score
  • Seleccionar algoritmos de particionamiento
  • Generar secuencias de números (claves sustitutas) en un entorno particionado y paralelo

 

4: Clasificación de datos

  • Clasificar datos en el marco paralelo
  • Encontrar datos insertados en el Score
  • Reducir el número de sorts insertados
  • Optimizar los trabajos de Fork-Join
  • Usar las etapas de clasificación para determinar la última fila en un grupo
  • Describir la clave de clasificación y la lógica de la clave del particionador en el marco paralelo

 

5: Buffering en trabajos paralelos

  • Describir cómo funciona el buffering en trabajos paralelos
  • Ajustar buffers en trabajos paralelos
  • Evitar contenciones de buffer

 

6: Tipos de datos de marcos paralelos

  • Describir conjuntos de datos virtuales
  • Describir esquemas
  • Describir asignaciones y conversiones de tipos de datos
  • Describir cómo se procesan los datos externos
  • Manejo de nulos
  • Trabajar con datos complejos

 

7: Componentes reutilizables

  • Crear un archivo de esquema
  • Leer un archivo secuencial usando un esquema
  • Describir la propagación de columnas en tiempo de ejecución (RCP)
  • Habilitar y deshabilitar RCP
  • Crear y usar contenedores compartidos

 

8: Optimización Balanceada

  • Habilitar la funcionalidad de optimización balanceada en Designer
  • Describir el flujo de trabajo de optimización balanceada
  • Enumerar las diferentes opciones de optimización balanceada
  • Empujar el procesamiento de una etapa a una fuente de datos
  • Empujar el procesamiento de una etapa a un objetivo de datos
  • Optimizar un trabajo accediendo al sistema de archivos Hadoop HDFS
  • Comprender las limitaciones de las optimizaciones balanceadas

 

Objetivos

Favor referirse a la descripción general del curso

KM404G | IBM InfoSphere Advanced DataStage - Parallel Framework v11.5

SKU: IBM-KM404G
NETEC
DESCUENTOS Y PAGOS
Suscríbase a nuestro newsletter
  • Facebook Netec
  • Twitter Netec
  • Linkedin Netec
  • Youtube Netec
  • Instagram Netec

Copyright 2019 Netec. Todos los derechos reservados.