Knime. Herramienta de Análisis y todo lo que se te ocurra

Category : Noticias

Es bien sabido que en Jortilles estamos enamorados de Pentaho Data Integration pero eso no impide que podamos mirar otras flores que se cruzan en nuestro camino. Y KNIME es simplemente espectacular.

KNIME (o Konstanz Information Miner) es una plataforma analítica  que permite el desarrollo de modelos en un entorno visual. Está construido sobre la plataforma Eclipse. y es extremadamente flexible y potente.

knime logo

Bajo una filosofía parecida a la de PDI, KNIME nos permite manipular datos , analizarlos, realizar workflows, etc en base al modelo de nodos que se conectan entre si y hacen cosas. Precisamente por eso es tan potente KNIME . Porque hay nodos para dar y regalar. Hay pasos para hacer casi cualquier cosa, y cómo está integrado en la plataforma Eclipse. Hay una gran comunidad que aporta nodos nuevos ….

 

 

Pero es que además se integra con Weka, con Python, con R , puedes definir clases Java. LO QUE QUIERAS! .  Lo que quieras hacer, si no lo hace nativamente, con cualquiera de estos conectores es capaz de hacerlo.  Es impresionante.  Por este motivo, KNIME se ha convertido en nuestra herramienta analítica de referencia.

Recientemente compartimos una sesión de trabajo con Pedro de El Tercer y estuvimos viendo casos de uso. La verdad es que, si ya nos gustaba la herramienta. ¡Ahora nos gusta más! Si estáis interesado en saber más sobre KNIME os recomiendo el blog del mayor gurú de KNIME que yo conozco : Datanauta  . Todo un maestro.

 

Vamos a hacer un «Hola Mundo» para ver que  se puede hacer:

 

Manipulación de datos

Vamos a realizar un simple ejemplo de manipulación de datos con knime para ponernos en situación utilizando un dataset público que se puede encontrar en el siguiente link

En el primer paso leeremos del archivo de datos par obtener una vista previa de los datos así como hacer manipulaciones sobre estos.

1r

A continuación utilizaremos una herramienta para manipular cadenas de caracteres (Strings), dicha herramienta resulta muy intuitiva y fácil de usar. En nuestro caso vamos a substituir los valores desconocidos por «Spain».

2n

En el siguiente paso haremos un simple filtro de columnas donde eliminaremos la columna de «Final Weight».

3r

Ya en el penúltimo paso vamos a aplicar un filtro de  filas donde excluiremos el país de «United-States».

4t

Para finalizar exportaremos todas nuestras modificaciones a un fichero .csv.

5t

Como resultado final tenemos el siguiente flujo donde se van aplicando los pasos y indicando con una luz verde su satisfactoria ejecución.

FINAL

 

Cabe destacar que aunque nosotros hayamos realizado un ejemplo bastante simple las posibilidades de la herramienta son mucho mayores.

Para finalizar este apartado mostramos algunos puntos a destacar de la plataforma:

  • Numerosas herramientas de manipulación de datos altamente intuitivas y fáciles de implementar.
  • Cada paso que queramos implementar en nuestro flujo viene muy bien documentado
  • Aplicación suficientemente optimizada como para tratar grandes volúmenes de datos cómodamente.
  • Acceso a un repositorio publico dentro de la aplicación que permite visualizar cientos de ejemplos con datasets incluidos.
  • Cuenta con una potente herramienta de manipulación de datos que establece la base para su posterior análisis.
  • No solo dispone de manipulación de datos sino que ademas tiene análisis de datos como veremos en el próximo apartado.

 

Análisis de datos y visualización de datos

Knime incluye un apartado dedicado íntegramente a la visualización de datos de casi cualquier modo que podamos imaginar.

Vamos a mostrar un ejemplo con algunos de los mas interesante usando el dataset publico de la clasificación de la planta Iris.

Captura

Capturga

Histograma, Datos Paralelos, Matriz de Puntos y Gráfico lineal

Como podemos  observar cada gráfico nos muestra de una manera distinta la distribución de los pétalos del Iris.

Para finalizar vamos a mostrar una pequeña porción de predicción de datos con el dataset de personas adultas. Trataremos de predecir la clase trabajadora según los parámetros del dataset.

Usaremos dos nodos de Bayes, unos sera el de aprendizaje y el otro de predicción como se muestra en la imagen

prediccion

Y ejecutando el Análisis obtenemos la siguiente predicción la cual con el nodo de puntuación nos indica la exactitud de la predicción.

scorer

Precisión 67,507% o lo que es lo mismo un error del 32,493%

Después de haber realizado esta primera Introducción a Knime hemos quedado altamente satisfechos con sus cualidades y posibilidades.

Animamos a probarlo. ¡Seguro que no decepciona!