“O Pentaho Data Catalog nos fornece insights em tempo real sobre como nossos dados estão mudando ao longo do tempo e nos ajuda a garantir que todos os nossos arquivos de dados sejam armazenados nos lugares certos para oferecer suporte a operações suaves e padronizadas e conformidade com as diretrizes internas.”
Visão geral
Desafio
- Disponibilizar rapidamente milhões de arquivos de dados de negócios essenciais para analistas de negócios todos os dias.
Solução
- Implantar o Pentaho Data Catalog para automatizar a criação de perfil e a marcação de conjuntos de dados e fornecer contexto para análises.
Resultado
- Automatização de processos para eliminar anomalias de dados com IA, acelerar a entrega de dados aos analistas e facilitar a conformidade.
Desafio
A Fannie Mae permitiu a compra e o refinanciamento de mais de 2 milhões de casas e o financiamento de aproximadamente 598.000 unidades de aluguel nos Estados Unidos em 2022. Hoje, a Fannie Mae é uma empresa cada vez mais digital e centrada em dados. Para aproveitar todos os seus dados de negócios em aplicativos novos e legados, bem como quebrar os silos de dados existentes, a empresa queria criar um data lake corporativo ágil e dinâmico.
Rohny Kolli, engenharia de dados – Capacitação de Análise Avançada da Fannie Mae, diz: “Nosso objetivo era construir uma plataforma de dados moderna e de última geração para analistas de negócios e tomadores de decisão em toda a empresa. Queríamos possibilitar decisões rápidas e baseadas em dados, o que significava que tínhamos que facilitar a obtenção dos dados certos pelas pessoas certas no momento certo”.
A Fannie Mae começou elaborando um processo abrangente para gerenciar seu data lake corporativo. Cada um de seus 15.000 conjuntos de dados passou por um processo de registro inicial para atribuir um identificador exclusivo, e cada campo teve que ser documentado manualmente. Essa abordagem aumentou a conformidade e a transparência, ajudando a identificar conjuntos de dados em todas as etapas do processo de análise e geração de relatórios, mas a necessidade de adicionar um conjunto elaborado de metadados a cada conjunto de dados tornou o processo lento.
“Com a nossa solução existente, pode levar semanas ou até meses até que novos conjuntos de dados sejam registrados em nosso data lake e disponibilizados para nossos analistas de negócios e cientistas de dados”, acrescenta Rohny Kolli. “Para responder mais rapidamente aos novos dados que estão sendo gerados continuamente por nossas aplicações de alta velocidade, tivemos que automatizar esse processo. Estávamos procurando uma solução que pudesse lidar com mais de 10 milhões de novos arquivos todos os dias para manter nosso data lake corporativo atualizado”.
“Com o Pentaho Data Catalog, estamos integrando milhões de arquivos todos os dias em nosso data lake corporativo. A solução permite a criação de perfis e marcação de dados para obter informações valiosas, detectar anomalias imediatamente e apoiar nosso gerenciamento de governança de dados para facilitar a conformidade.”
Rohny Kolli , Data Engineering Manager – Advanced Analytics Enablement, Fannie Mae
Solução
Para ajudar a estabelecer uma infraestrutura de dados mais rápida e dinâmica, a Fannie Mae selecionou o Pentaho Data Catalog como uma ferramenta centralizada e independente de dados para acelerar a disponibilidade de dados. O software é executado totalmente na nuvem da Amazon Web Services (AWS) em várias zonas de disponibilidade com escalabilidade automática para garantir desempenho rápido e continuidade dos negócios. Ele processa dezenas de milhões de arquivos e atributos relacionados e os agrega em milhares de conjuntos de dados de alto nível que são fáceis para a equipe de negócios consumir e consultar para obter insights acionáveis.
Para transformar seu pipeline de dados, a Fannie Mae agora conta com a automação de processos baseada na API do Pentaho Data Catalog. Isso permite que a empresa conecte sua ampla gama de aplicações de negócios ao data lake corporativo e atualize conjuntos de dados diariamente.
O Pentaho Data Catalog executa uma etapa de pré-registro automatizada, usando machine learning e IA para validar e marcar metadados e detectar dados confidenciais. Em seguida, disponibiliza tudo imediatamente para os analistas de metadados, administradores de dados, administradores de dados e diretores de dados de negócios da empresa para processamento e análise adicionais.
O controle de versão de metadados integrado ajuda a Fannie Mae a acompanhar as alterações em suas fontes de dados e entender melhor o contexto de seus dados de negócios. A solução independente de dados destaca as mudanças no local de armazenamento, tamanho do arquivo, formato do arquivo e muitos outros detalhes técnicos que podem ajudar a equipe a ajustar e otimizar o processamento de dados.
“O Pentaho Data Catalog nos fornece insights em tempo real sobre como nossos dados estão mudando ao longo do tempo e nos ajuda a garantir que todos os nossos arquivos de dados sejam armazenados nos lugares certos para oferecer suporte a operações padronizadas e sem problemas e conformidade com as diretrizes internas”, diz Rohny Kolli. “A solução pode detectar problemas de esquema não resolvidos e produzir relatórios de discrepância, ajudando nossas várias equipes a garantir alta qualidade e conformidade de dados.”
Resultado
O acesso a informações críticas de negócios agora é mais fácil do que nunca. “Usando o Pentaho Data Catalog, criamos uma oferta de autoatendimento independente de dados para nossos usuários corporativos”, acrescenta Rohny Kolli. “A equipe pode pesquisar de forma flexível nosso data lake corporativo com uma interface amigável e intuitiva para obter uma visão de 360 graus de nossos dados de negócios. Os resultados da pesquisa fornecem uma visão geral simples, para que administradores de dados, analistas de negócios e cientistas de dados possam encontrar os conjuntos de dados certos com as propriedades de dados personalizadas de que precisam de forma rápida e eficiente”.
Para obter mais insights e fornecer contexto significativo aos usuários corporativos, a Fannie Mae agora está usando a solução para marcar seus dados, por exemplo, para destacar informações confidenciais e pessoais e classificar mais de 400 elementos-chave de dados (KDEs).
Em última análise, esses elementos da solução permitem análises e insights mais rápidos, que se traduzem em melhores resultados de negócios. Rohny Kolli conclui: “Com o Pentaho Data Catalog, estamos integrando milhões de arquivos todos os dias em nosso data lake corporativo. A solução permite a criação de perfis e marcação de dados para obter informações valiosas, identificar anomalias imediatamente e apoiar nosso gerenciamento de governança de dados para facilitar a conformidade”.
Setor
Soluções
Software
Grandes volumes de dados
O processamento automatizado de 10 milhões de arquivos por dia apoiou a tomada de decisões para fornecer US$ 684 bilhões em liquidez ao mercado hipotecário em 2022.
10
milhões de arquivos
USD $684
bilhões de liquidez