Entendendo o básico do Pentaho

Primeiramente, gostaria de dizer que não sou especialista em Pentaho, e que estarei escrevendo este artigo, como forma de estudo.

Pentaho é uma ferramenta de BI (business intelligence) desenvolvida pela Hitachi Vantara.

O site oficial do Pentaho é :

https://www.hitachivantara.com/en-us/products/pentaho-platform/data-catalog.html

Os softwares oficiais do pentaho, estão no próprio site do fabricante e também no git.

https://github.com/pentaho

Neste modelo, podemos ver como as coisas funcionam.

O ERP que possui os dados se conecta com a ferramenta kettkle, que extrai os dados gerando os data marts que são grandes grupos de dados extraídos do ERP.

Após importados os dados do ERP, o Schema Workbench gera e processa os dados em dimensões de dados. Que a grosso modo são os dados trabalhados, para um dado objetivo. Exemplo processamento de dados em dimensão de tempo (classificando em hierarquias como ano, mes , trimestre , etc.).

Por fim, a partir dos dados criados no schema são consumidos em OLAPs usando o Pentaho para criar relatórios e analises, dashboards.

Kettkle

O termo “Kettle” refere-se a “K.E.T.T.L.E.”, que é um acrônimo para “Kettle Extraction Transformation Transport Load Environment”. Kettle é o nome original do projeto que agora é mais comumente conhecido como “Pentaho Data Integration” (PDI).

O PDI/Kettle é uma ferramenta de integração de dados open-source.

Ele fornece funcionalidades ETL (Extract, Transform, Load – Extração, Transformação e Carga), permitindo aos usuários definir processos para extrair dados de várias fontes, transformá-los conforme necessário e, em seguida, carregá-los em sistemas de destino, como bancos de dados, data warehouses, ou outras aplicações.

O Kettle foi projetado para ser flexível e extensível, suportando uma ampla variedade de fontes de dados e destinos, transformações e operações de carga. A interface gráfica do PDI permite que os usuários “desenhem” seus processos ETL, arrastando e soltando componentes e conectando-os para definir fluxos de dados.

Algumas características notáveis do Kettle/PDI incluem:

  1. Spoon: É a interface gráfica utilizada para criar, editar e executar transformações e jobs.
  2. Pan: Permite executar transformações a partir da linha de comando.
  3. Kitchen: Permite executar jobs a partir da linha de comando.
  4. Carte: Um servidor web simples para execução remota de transformações e jobs.

O Kettle foi um dos componentes principais da suíte Pentaho quando esta foi lançada. Com o tempo, o nome “Kettle” foi um pouco ofuscado em favor de “Pentaho Data Integration”, mas muitos ainda usam os termos de forma intercambiável, especialmente aqueles que têm experiência com as versões mais antigas da ferramenta.

Schema Workbench

O “Schema Workbench” é uma ferramenta associada ao Pentaho Analysis Services (também conhecido como Mondrian).

Sua principal função é fornecer uma interface gráfica para a criação e edição de esquemas OLAP (On-Line Analytical Processing). Estes esquemas definem cubos, dimensões, hierarquias e medidas que são usadas para criar consultas multidimensionais e análises em dados armazenados em bancos de dados relacionais.

Aqui estão alguns pontos-chave sobre o papel do Schema Workbench:

  1. Definição de Cubos: Dentro de um esquema OLAP, o conceito central é o de um “cubo”. Um cubo é uma estrutura de dados multidimensional que permite a análise rápida de grandes volumes de dados a partir de diferentes perspectivas ou dimensões. Com o Schema Workbench, os usuários podem definir quais tabelas e colunas do banco de dados serão usadas para criar esses cubos.
  2. Criação de Dimensões e Hierarquias: Dimensões são categorias de análise (como tempo, geografia, produtos, etc.) e podem ter hierarquias (por exemplo, uma hierarquia de tempo pode ter ano, mês e dia). O Schema Workbench permite que os usuários definam e organizem essas dimensões e hierarquias.
  3. Medidas: Estes são os valores que você quer analisar, como vendas, custos, lucros, etc. Com o Schema Workbench, os usuários podem definir quais colunas do banco de dados representam medidas e como elas serão calculadas.
  4. Validação: Após criar ou editar um esquema, o Schema Workbench fornece ferramentas para validar o esquema para garantir que ele seja correto e funcione como esperado.
  5. Teste de Consultas MDX: MDX (MultiDimensional eXpressions) é a linguagem de consulta usada em sistemas OLAP. O Schema Workbench oferece uma interface onde os usuários podem testar suas consultas MDX para verificar os resultados do esquema recém-criado ou modificado.
  6. Exportação e Integração: Uma vez que um esquema é definido e validado, ele pode ser exportado e integrado ao servidor Pentaho Analysis (Mondrian) para ser usado em aplicações de business intelligence.

O Schema Workbench simplifica a tarefa de definir e organizar a estrutura dos dados para análise OLAP, tornando mais fácil para os desenvolvedores e analistas de BI criar soluções de análise robustas usando o Pentaho/Mondrian.

Pentaho

O Pentaho fornece um ecossistema integrado de ferramentas para business intelligence, desde a integração de dados até a visualização. O Schema Workbench, associado ao Pentaho Analysis Services (Mondrian), é usado para criar esquemas OLAP que definem como os dados são estruturados para análise multidimensional. Depois de definir um esquema com o Schema Workbench, ele pode ser usado no Pentaho para criar relatórios, análises e dashboards.

Visão Geral

Aqui está uma visão geral de como os dados dos esquemas criados no Schema Workbench são visualizados no Pentaho:

  1. Criação e Publicação de Esquemas:
    • Começa-se por usar o Schema Workbench para criar um esquema OLAP, definindo cubos, dimensões, hierarquias e medidas.
    • Após a definição do esquema, ele é publicado ou implantado no Pentaho Analysis Services (Mondrian).
  2. Pentaho User Console (PUC):
    • O PUC é a interface web central para acessar e trabalhar com as ferramentas de BI do Pentaho.
    • Dentro do PUC, os usuários podem criar novas análises OLAP usando os esquemas publicados. Estas análises permitem aos usuários arrastar e soltar dimensões e medidas para criar tabelas pivot, gráficos e outros tipos de visualizações.
    • Os usuários também podem criar relatórios e dashboards que incorporam visualizações baseadas em análises OLAP.
  3. Saiku:
    • Saiku é um plugin popular para o Pentaho que oferece uma interface intuitiva para criar análises OLAP. Ele pode conectar-se diretamente aos esquemas definidos no Schema Workbench.
    • Saiku permite aos usuários explorar dados, realizar drill-down e drill-up, filtrar dados e criar visualizações, tudo em uma interface drag-and-drop.
  4. Dashboards:
    • Os esquemas OLAP criados no Schema Workbench também podem ser usados como fontes de dados para dashboards no Pentaho.
    • Estes dashboards podem combinar visualizações OLAP com outros tipos de conteúdo, como relatórios, gráficos, mapas e mais.
  5. Performance:
    • Os esquemas definidos no Schema Workbench e visualizados no Pentaho aproveitam a capacidade do Mondrian de executar consultas MDX (MultiDimensional eXpressions) rapidamente, permitindo que os usuários analisem grandes volumes de dados em tempo real.

Em resumo, o Schema Workbench é usado para definir a estrutura dos dados para análise multidimensional. Uma vez definidos e publicados, esses esquemas são a base para a criação de análises, relatórios e dashboards no ecossistema Pentaho, permitindo aos usuários visualizar e explorar seus dados de várias maneiras.