Qué es Kettle Pentaho y cuál es su uso en la empresa

Dentro de los proyectos de BI (Business Intelligence) de las empresas, la extracción, análisis y tratamiento de los datos es fundamental para el buen funcionamiento de este área. Gracias al correcto análisis de estos datos, la empresa podrá avanzar en la consecución de sus objetivos de manera correcta.

Hoy en día, en el mercado existen múltiples programas o aplicaciones adaptadas que pueden ser de ayuda en esta labor, pero en este caso, vamos a hablar de la herramienta Kettle Pentaho Data Integration.

Qué es Kettle Pentaho

Pentaho vio la luz en el año 2004, y se trata de una plataforma de gratuita, es decir opersource. Esta plataforma está compuesta por una serie de componentes de Big Data, como pueden ser informes, cuadros de mandos, dashboards o integración de datos, entre muchos otros.

TEXT - TOFU - e-Logistics

Si nos centramos en Kettle Pentaho Data integration, cuyo nombre común es simplemente Kettle, observamos que se trata de una herramienta que permite emplear técnicas ETL, o en otras palabras, que podremos implementar procesos de extracción, transformación y carga de datos. Además, esta herramienta Kettle Pentaho nos permite obtener datos analíticos precisos, gracias a la eliminación de codificaciones complejas involucradas en las cadenas de datos.

Al tratarse de una herramienta opensource, no es necesaria una compleja instalación, simplemente hay que ejecutar el archivo descargado de su web.  

Módulos de Kettle Pentaho

Dentro de la herramienta Kettle Pentaho se pueden diferenciar cuatro grandes grupos de procesos de trabajo:

  • Reporting: Este es el módulo de Kettle Pentaho destinado a realizar informes, los cuales se adaptan a las distintas necesidades del usuario final. Estos informes, pueden ser exportados fácilmente a pdf, xls, html o texto. Además, pueden automatizarse procesos de generación de informes según la ejecución de diferentes acciones o mediante una periodicidad estipulada.
  • Análisis: Mediante la utilización de tablas dinámicas, el módulo de analítica de Kettle Pentaho permite al usuario navegar por los datos extraídos, ajustando los filtros, campos… Estos datos puros, pueden ser extraídos a su vez en formato SVG, Flash e incluso Excel para su tratamiento fuera de la herramienta.
  • Dashboards: Otra de las ventajas de emplear Kettle Pentaho, es la posibilidad de crear dashboards personalizados en base a las necesidades de la empresa, ya que todos los módulos de la herramienta pueden integrarse dentro de estos dashboards. Así de un simple vistazo podremos ver gráficos, tablas o cualquier otro dato que se desee.
  • Integración de datos: Este módulo trabaja mediante ETL y juega un papel crucial dentro del entramado sistema de Business Intelligence de la empresa. Este proceso es el responsable de aprovisionar los datos sobre los que posteriormente se trabajarán.

¿Cómo se instala la herramienta de integración Kettle Pentaho?

Tras decidirse en muchas empresas que la solución a sus problemas de integración de datos es invertir en la herramienta Kettle Pentaho, en ocasiones, algunas se encuentran con dificultades para la instalación.

A la hora de implementar Kettle Pentaho en la empresa, basta con seguir estos sencillos pasos:

Paso 1: Descargar el software Pentaho Data Integration. El archivo de descarga tiene aproximadamente 1.1 GB y se presenta en forma de archivo zip.

Paso 2: extraer el archivo zip. Mirando en la carpeta de descargas se podrá identificar fácilmente el archivo zip que acaba de llegar. Hace falta extraerlo y, para ello solo es preciso hacer clic derecho en el archivo y elegir ‘Extraer aquí’, si se desea que se extraiga en la carpeta de descargas. Si se desea elegir una carpeta diferente, solo hay que seleccionar la opción ‘Extraer archivos …’ y proporcione la ruta de la carpeta de destino. El nombre predeterminado de la carpeta extraída sería ‘integración de datos’.

Paso 3: Verificación de la versión Java Runtime Environment (JRE) en el sistema. Primero hay que verificar si Java está instalado. Si no, habría que descargarlo de la página oficial. Si ya está instalado, conviene verificar las versiones de JRE. Para hacer esto, hay que acudir a a C: \ Archivos de programa \ Java \.

Tras esta acción, es momento de instalar Pentaho Data Integration en Windows. Hay que fijarse en que probablemente habrá una carpeta dentro de esta ruta de carpeta, comenzando con ‘jre’ seguida por el número de versión.

Si el PC no tiene JRE, habrá que descargar la versión JRE 1.8 o superior de la página oficial de descarga de Oracle JRE e instalarla. Hay que tener la precaución de descargar el archivo correcto según el tipo de sistema operativo (32 bits / 64 bits) y también seleccionar el archivo que termina con la extensión ‘.exe’, ya que no requiere ninguna herramienta de extracción.

Una vez que se descarga el archivo, se ejecuta y procede a instalar JRE.

Paso 4: Verificación de la versión JDK. El siguiente paso es verificar la versión de JDK en el PC con Windows. Este paso es similar al paso anterior. Hay que ir a C: \ Archivos de programa \ Java \. En la misma carpeta, habrá una carpeta con un nombre de archivo que comienza por “jdk”. Si se logra encontrar esta carpeta es buena señal. Si la carpeta no está allí, tenemos que descargar el JDK desde la página oficial de descarga de Oracle JDK.

Al igual que en el paso anterior, necesitamos descargar el archivo correcto de acuerdo con nuestro tipo de arquitectura del sistema operativo (32 bits / 64 bits) y habrá múltiples formatos del archivo disponibles. Conviene escoger el archivo que termina con la extensión ‘.exe’ e instalar el JDK ejecutando el archivo después de la descarga.

El último paso es configurar las variables de entorno para que apunten a la ruta de la carpeta JRE. Para ello se abre “Mi PC”. En el panel lateral izquierdo, hay que hacer clic con el botón derecho en  ‘Este PC’ y seleccionar la opción ‘Propiedades’. Aparecerá una nueva ventana que muestra el procesador, la capacidad de RAM, el nombre del PC, etc. Alternativamente, navegar a Panel de control \ Sistema y Seguridad \ Sistema puede traer la misma ventana.

En el panel lateral izquierdo, es preciso hacer clic en ‘Configuración avanzada del sistema’ para que aparezca la ventana Propiedades del sistema. Cuando esto suceda, se debe acudir a la pestaña ‘Avanzado’ y seleccionar el botón ‘Variables de entorno’. Allí, hacer clic en el botón nuevo y escribir ‘PENTAHO_JAVA’ en mayúsculas como nombre de la variable y ruta de la carpeta apuntando a java.exe debajo de la carpeta jre como valor de la variable. Lo siguiente es hacer clic en Aceptar.

Para instalar Pentaho Data Integration en Windows se crea una nueva variable de la misma manera, pero estableciendo como nombre de la variable como ‘PENTAHO_JAVA_HOME’ y la ruta de la carpeta jre como valor de la variable. Después se crea otra variable en el nombre JAVA_HOME y el valor de la variable sería la ruta donde está disponible la carpeta jdk.

Es preciso, llegados a este punto reiniciar el equipo. A continuación, habrá que ir a la carpeta ‘integración de datos’ que extrajimos en el Paso-2 y hacer doble clic en el archivo para que se abra PDI, es decir, Kettle Pentaho.

Gracias al uso de esta herramienta Kettle Pentaho, podremos importar datos extraídos desde varias fuentes de origen (ya sean archivos excel, csv, xml, bbdd…), transformar esos datos a un formato de tratamiento único y generar una salida a la fuente de destino que precisemos mediante un exportado o reporte analítico.

En definitiva, con Kettle Pentaho podremos realizar fácilmente las tareas de migración integración y explotación, limpieza y análisis de datos, imprescindibles en todo trabajo de Big Data.

POST - TOFU - e-Logistics


Entradas relacionadas

No hay comentarios

Todavía no hay ningún comentario en esta entrada.

Deja un comentario