Descoberta de conhecimento em bases de dados históricas de uma empresa de marketing

Descoberta de conhecimento em bancos de dados históricos de uma empresa de marketing

Descoberta de conhecimento em bancos de dados Histórico de uma empresa comercial

Tania Morgado-Garcíai, Daniel Antonio Ponce-de-León-LimaIi, Alejandro Rosete-Suáreziii

I Corporation Coextel SA, Havana, Cuba
II Universidade do Estado de Santa Elena, Santa Elena, Equador
III Universidade Tecnológica de Havana José Antonio Echeverría, Havana, Cuba

Resumo

com o desenvolvimento de tecnologias, o enorme volume de Os bancos de dados e a necessidade de obter conhecimento útil deles, a mineração de dados se torna uma ferramenta estratégica para empresas, como suporte para tomada de decisão. Uma empresa cubana criada em 1991, cujo nome não é mencionado por razões de confidencialidade, que é distinguido por ser um fornecedor de soluções integrais, oferece engenheiros de produtos e serviços em uma variedade variada de esferas com uma equipe altamente treinada. Tem grandes volumes de dados resultantes da gestão de cada uma de suas unidades organizacionais, mas as análises não são realizadas para identificar padrões e comportamentos ocultos nos dados. Neste trabalho, foi desenvolvido um processo de descoberta de conhecimento em bancos de dados na empresa acima mencionada como ajuda à tomada de decisões. A este respeito, os aspectos relacionados à mineração de dados e à sua aplicação no ambiente de indicadores económicos-financeiros e de gestão foram obtidos, foram obtidos modelos de associação e agrupamento que apoiará o trabalho dos gestores nos diferentes níveis da organização.

Palavras-chave: mineração de dados, agrupamento, conhecimento, empresa.

abstrato

com o desenvolvimento de tecnologias, o grande volume de bancos de dados e a necessidade de obter conhecimento útil deles, A mineração de dados torna-se a ferramenta estratégica para empresas, que apoiam a tomada de decisão. Uma empresa cubana, criada em 1991, Whoe Name não é mencionado por razões de confidencialidade, por que distingui-se como provedor de pós-venda de soluções compinters, oferece produtos e serviços de engenharia em uma ampla gama de áreas com um pessoal altamente treinado. Tem grandes volumes de dados resultantes da gestão de cada uma das unidades organizacionais de sites, mas nenhuma análise é feita para identificar padrões e comportamentos ocultos em dados. Este artigo apresenta um processo de descoberta de conhecimento em bancos de dados na mencionada empresa como ajuda à tomada de decisões. A este respeito, aspectos relacionados à mineração de dados e senta a aplicação no ambiente de indicadores e gestão econômico-financeiros foram modelos detalhados, associação e cluster que apoiarão o trabalho de gerentes em diferentes níveis da organização foram obtidos.

Palavras-chave: minig, agrupamento, conhecimento, companhia.

Introdução

Nos últimos anos, desenvolvimento tecnológico na área de transmissão de computação e dados, tornou possível O armazenamento e gerenciamento de grandes volumes de dados. Hoje as empresas se movem em ambientes altamente competitivos e mudanças contínuas. A dinâmica do mercado leva à necessidade de ter informações adequadas no momento indicado para que os gerentes possam tomar decisões de negócios apropriadas. Portanto, eles entenderam que grandes volumes de dados que residem em seus sistemas podem, e devem ser analisados e explorados para obter novos conhecimentos ,.

A mineração de dados ou a exploração da informação é o processo para extrair a forma útil, compreensível e inovadora Conhecimento de grandes volumes de dados, sendo seu objetivo principal encontrar informações ocultas ou implícitas, o que não é possível obter através de métodos estatísticos convencionais. A entrada para o processo de mineração é formada por vários contêineres de informações, isso inclui bancos de dados relacionais, armazenamentos de dados (datawarehouse), documentos em texto livre, dados da Web, entre outros ,.

Uma definição tradicional defini-lo, Como um passo do processo KDD (Descoberta de conhecimento em bancos de dados) que consiste em aplicar análise de dados e descobrir algoritmos que, sob limitações de eficiência computacional aceitável, produzir um determinado grupo de padrões ou modelos em dados.

mineração de dados Oferece a oportunidade para as organizações detectarem possíveis problemas e tomar as ações para evitá-las ou mitigar o impacto.Aplicado apropriadamente, relatórios de mineração de dados às organizações numerosos benefícios entre os quais são: maior eficiência a partir do qual menos tempo é consumido para corrigir erros e recuperar pagamentos; Informações antecipadas que permite reduzir surpresas e analisar as causas dos problemas, e melhores controles através da prevenção e detecção de atividades que permitem monitoramento de orifícios internos de controle.

Seu campo de aplicação é largo e diferente, de fato, em todas as atividades em que os dados são gerados. Em, e vários exemplos de sua aplicação são expostos.

Com uma abordagem não tradicional, os autores apresentam mineração de dados como um processo sistemático e social que envolve os diferentes sistemas e fases de mineração, bem como suas respectivas ambientes. Em mineração de dados, problemas e aplicações são normalmente cercados por fatores organizacionais e sociais em diferentes empresas. Tais fatores compõem o ambiente de mineração do mundo real e sua atenção é necessária, pois refletem as reais necessidades da empresa e dos usuários, e constituem o meio ambiente do conhecimento identificado. A inteligência que surge da participação de fatores e recursos da organização em padrões de mineração constitui inteligência organizacional. Consiste em muitos aspectos entre os quais são:

  • as estruturas organizacionais relacionadas aos principais aspectos, como onde os dados vêm.
  • comportamento organizacional, como para a compreensão de Os negócios e dados, como os indivíduos e grupos atuam na organização.
  • Regulamentos comerciais que incluem regras, políticas, protocolos, padrões.
  • processos de negócios e os fluxos de trabalho.
  • os atores da organização e suas funções.

o processo de KDD

fayyad et al. Para definir o processo KDD como: “Um processo não trivial de padrões válidos, novos, potencialmente úteis e compreensíveis que estão ocultos nos dados”. É composto por cinco fases, que são descritas abaixo:

1. Integração e coleta de dados: Nesta fase, as fontes de informação são determinadas que podem ser úteis e onde obtê-las.

2. Seleção, limpeza e transformação: inclui a detecção dos dados outliers, ausentes ou perdidos, construindo novos atributos e contaminam ou discretize os atributos.

3. Mineração de dados: O objetivo desta fase é produzir novos conhecimentos. Para isso, é construído um modelo que nada mais é do que uma descrição dos padrões e relacionamentos entre os dados que podem ser usados para fazer previsões, para entender melhor os dados ou explicar situações passadas. Inclui:

  • Escolha o tipo de modelo.
  • Determine que tipo de tarefa de mineração é a mais adequada.
  • Escolha o algoritmo de mineração que resolva o tarefa e obter o tipo de modelo que você está procurando.

4. Avaliação e Interpretação: Existem diferentes medidas de avaliação dos modelos: precisa, compreensível (inteligível) e interessante (útil e romance).

5. Difusão: Após o modelo ser construído e validado, isso pode ser usado em fins dissimilares e, durante este processo, sua evolução deve ser medida. Desta forma, será conhecido se deve ser reavaliado, re-treinado e possivelmente reconstruído completamente.

são diversos Os elementos a serem levados em conta para uma organização implementar com sucesso o processo de descoberta de conhecimento ou dados mineração. Nos autores definem um conjunto de aspectos que, mais do que elementos técnicos, representam alterações organizacionais, mentalidade e culturais nas organizações:

  • a aceitação da responsabilidade para evitar problemas proativamente através da adoção de abordagens de mineração de dados e ferramentas. Isto é essencialmente uma transformação cultural da organização.
  • Compreender o apoio potencial representado por mineração de dados à organização em gestão diária e tomada de decisão estratégica.
  • determinar como o conhecimento resultante do O processo de mineração de dados será usado.
  • Compartilhar experiências e melhores práticas.
  • Veja este processo como um processo contínuo.

As atividades de mineração de dados são classificados em algumas categorias que dependem das tarefas e objetivos da análise. Dependendo da existência de uma variável alvo, o processo de aprendizagem é classificado em:

  • supervisionado ou direto MD. Um atributo objetivo representa a classe na qual cada registro pertence ou expressa uma quantidade mensurável. Eles são orientados para previsão e interpretação em relação a um atributo objetivo.
  • não supervisionado ou indireta MD.As análises não são determinadas por um atributo objetivo. Sua finalidade é descobrir padrões e afinidades recorrentes em conjuntos de dados.

com base no objetivo da mineração de dados indiretos, sua aplicação é conveniente em organizações que não possuem uma história de uso anterior do mesmo .

Uma empresa cubana criada em 1991 que é distinguida por ser um provedor de soluções abrangentes, oferece engenheiros de produtos e serviços em uma variedade variada de esferas, com uma equipe altamente treinada.

muito da gestão da empresa é apoiada em tecnologias de informação e comunicação. Existe um conjunto de aplicativos de computador que suportam os principais processos, suporte e gerenciamento, através dos quais os dados primários são registrados em cada unidade organizacional. Esses dados são replicados para os servidores centrais em que estão disponíveis de grandes volumes que datam do ano de 2001 Os aplicativos são destacados, que nos permitem executar automaticamente o processo de fechamento mensal de contabilidade, e a criação de indicadores e regras econômicas que validam informações contábeis dos indicadores calculados. No entanto, o conhecimento oculto nesses dados não é usado, que pode sustentar certas acções e decisões por parte dos gestores da empresa.

do problema anterior deriva o objetivo deste trabalho: descobrir padrões, tendências e desvios no armazém de dados corporativos da empresa que aplica técnicas supervisionadas de mineração de dados com vista a melhorar O processo de tomada de decisão. Os dados selecionados para explorar inicialmente e procurar padrões e comportamentos ocultos são os contadores, especificamente os indicadores econômicos calculados a partir do aplicativo que suporta o mesmo nome.

dessa maneira. Determine os relacionamentos que existem entre os diferentes indicadores econômicos que refletem padrões e / ou comportamentos, e agrupe as unidades organizacionais que atendem ao comportamento desses indicadores.

Métodos

Em seguida, descreva o Tarefas de mineração de dados, metodologia e ferramenta de análise de dados, bem como técnicas de associação e agrupamento usadas.

Regras de associação

A primeira tarefa de mineração dos dados conduzidos foi a obtenção de regras de associação que consiste de identificar padrões regulares e recorrentes dentro de um grande grupo de transações. As regras aparecem de várias maneiras, mas a formulação mais usual é em grande estilo “se o atributo X leva o valor D então o atributo e leva o valor B”. Eles são avaliados usando dois parâmetros: confiança e suporte que também são nomeados precisão e cobertura, respectivamente.

agrupamento

A segunda tarefa foi o agrupamento que visa subdividir os registros de um grupo de dados em grupos homogêneos de observações, chamados clusters. Os dados são agrupados com base no princípio de maximizar a semelhança entre os elementos de um grupo minimizando a semelhança entre os diferentes grupos.

Metodologia e ferramenta de análise de dados

foi decidido empregar A metodologia crocante-DM para o desenvolvimento desta investigação mantém uma perspectiva mais ampla em relação aos objetivos de negócios e concebe o projeto KDD globalmente. Além disso, é uma metodologia neutra em relação à ferramenta usada para o desenvolvimento do trabalho e sua distribuição é gratuita e gratuita. Na fase de mineração de dados, foi usado como método para encontrar associações o algoritmo a priori, e para encontrar os grupos o algoritmo K-significa, ambos desenvolvidos na ferramenta de análise de dados r ,.

resultados e discussão

fase de preparação de dados

Os dados utilizados na presente investigação vêm da tabela h_ indicadores em que são armazenados, após calculados a partir das informações contábeis respondidas aos servidores centrais De cada uma das unidades organizacionais da Companhia, os indicadores econômicos resultantes de sua operação e gerenciamento. Foi modificado, pela consulta SQL, a estrutura original do conjunto de dados para que cada um dos indicadores constitua uma variável, e desta forma facilite sua análise. Registros com valores nulos foram removidos. A estrutura resultante é mostrada na Tabela 1:

A seleção de recursos reduz o tamanho dos dados, escolhendo as variáveis mais influentes no problema. A revisão detalhada de cada indicador reflete que existem indicadores que total, ou seja, eles são o resultado de operações aritméticas entre outros indicadores, ou alguns contêm outros. Além disso, todos os indicadores são variáveis contábeis da empresa.Por esse motivo, é decidido calcular novos indicadores de eficiência que permitem análise e comparações das variáveis originais.

Construção de características

A criação ou construção de características é criar novos atributos Para melhorar a qualidade, a visualização e a compreensão do conhecimento extraído.

A Tabela 2 mostra os novos indicadores calculados a partir dos originais, com uma breve descrição e fórmula de cálculo.

com o objetivo de obter Dados com maior qualidade e atender aos requisitos das técnicas selecionadas, novas transformações são realizadas nas variáveis. Para isso, a técnica de discretização é usada. Cada um dos indicadores foi considerado em 6 grupos de acordo com os requisitos e valores esperados de cada um. Além disso, as variáveis foram desconectadas, de acordo com o tipo de unidade organizacional (divisão comercial, divisão de apoio, serviços técnicos ou divisão territorial), e mês de acordo com os trimestres do ano. A Tabela 3 mostra as variáveis resultantes e o método de segmentação utilizados.

Dados mineração: regras de associação de tarefas descritivas

O algoritmo a priori foi utilizado. Muito alto confiança e valores de suporte foram obtidos. As regras foram encontradas com valores de apoio e confiança em torno de 0,80 e 0,90 e 0,80specamente.

Em seguida, as regras de maior interesse:

    tampa do estoque no intervalo, o lucro operacional Margem na faixa% e a rotação do capital de giro na gama envolve que a rotação de estoques está no intervalo.

  • A rotação de estoque no intervalo implica que a margem de operações é em% gama, e vice-versa.
  • a proporção de endividamento no intervalo% implica que a rotação de estoque está na faixa.
  • a razão de endividamento na faixa% e a rotação de estoques no intervalo envolvem que a margem de lucro operacional está na faixa%.
  • O motivo atual no intervalo e a relação proporção no intervalo% envolve que a margem de lucro operacional é encontrada no%.
  • Cobertura de estoque na faixa de implos Ca que a rotação de estoque é encontrada no intervalo.
  • Cobertura de estoque no intervalo implica que a margem de lucro operacional está na faixa%.
  • a margem usando operações na faixa% e A proporção de endividamento na faixa% envolvem que a rotação de estoques está no intervalo.
  • A rotação do capital de giro no intervalo implica que a rotação de estoque está no intervalo.
  • Se a divisão é comercial implica que a rotação de estoque está no intervalo.

Todos os indicadores foram usados no algoritmo aplicado, mas alguns não eram interessantes: margem de utilidade bruta, Margem líquida, rentabilidade em ativos, manobra, rotação de ativos e rotação de ativos fixos, entre outros. Por outro lado, como pode ser visto nas regras anteriormente expostas, as características que descrevem melhor as relações, são: stockovernance, margem de lucro operacional, capital de giro, rotação de estoque, proporção e razão atual. Os resultados obtidos mostram as relações entre os indicadores, alguns lógicos e óbvios, mas que oferecem outra perspectiva para a análise da atividade na empresa. Eles representam um conhecimento valioso para a organização, com indicadores recorrentes, as associações entre eles e em que a gama de valores são.

A este respeito, aponte que a proporção de endividamento em todos os casos é apresentada no intervalo%. O valor recomendado é entre 40 e 60%, no entanto, quando tende a zerar a empresa é mais sólido porque é financiado com seus próprios recursos. No nosso caso, o valor é executado acima do limite superior recomendado.

Dados Fase de mineração: cluster de tarefa descritiva

Nesta seção, as experiências realizadas com o objetivo são mostradas para encontrar possíveis Agrupamentos entre os casos de acordo com suas características, aplicando o algoritmo K-means em r.

Para obter maior precisão na execução do algoritmo são eliminados da visualização inicial minable, as observações com valores de NA Qualquer um dos seus atributos. Por esse motivo, o número de casos a serem usados é reduzido 5453.

Para determinar o número de grupos ideais, a técnica de quadrados de erro ou SSE (soma do erro de quadrados) foi executado. Análises de análise foram realizadas descartando os grupos com baixa representatividade (menos de 1%).

agrupamento Descrição

A conformação de 4 grupos poderá ser observada com as seguintes distribuições:

  • grupo 1 (499 observações representando 9,29%)
  • grupo 2 (1260 observações representando 23,45%)
  • grupo 3 (400 observação representando 7,44%).
  • grupo 4 (3214 observações representando 59,82%)

grupo 1 é caracterizado por:

  • maiores valores do fundo de manobra, o que significa que os ativos circulantes suficientes estão disponíveis para cobrir dívidas de curto prazo.
  • Menores valores de ativos de ativos, o que significa porcentagem de menores de capital imobilizado.
  • valores sênior do utilitário bruto. O valor desejado para este indicador é o máximo possível e indica a proporção da renda que permite cobrir as despesas que não sejam custos de venda.
  • Margem líquida Valores mais altos que significam maiores benefícios e maior rentabilidade.
  • Valores menores de rotação de ativos, que podem indicar a capacidade excessiva ou ociosa em investimentos. O valor desejado para este indicador é o maior possível. Quanto maior o seu valor, em maior medida a empresa usa seus recursos para gerar negócios.

Grupo 2 é caracterizado por:

  • valores maiores de Razão atual O que poderia significar que há recursos ociosos.
  • valores principais da rotação de capital de giro. Isso significa melhor produtividade do capital de giro, que se traduz em uma melhor rentabilidade. Deve ser relatado que um índice elevado pode revelar insuficiência do fundo de manobra.
  • Valores de relacionamento com vendas no maior alcance, o que significa que neste grupo as observações em que a porcentagem as vendas correspondentes a O fundo de manobra é maior. O valor apropriado para este indicador é entre 15 e 20%.

Grupo 3 é caracterizado por:

  • valores sênior de ativos de ativos, que significa maior porcentagem de capital imobilizado.
  • estoques negativos de cobertura de estoque, o que significa que o fundo de manobra não cobre os estoques.
  • Valores negativos de financiamento de manobra que indica que existe Não é suficiente ativos ativos para lidar com dívidas de curto prazo.
  • Valores negativos da margem líquida, rotação de capital de giro e relacionamento de vendas. Os valores desses três indicadores devem ser maiores que zero. No caso do relacionamento com as vendas, o valor justo do indicador é entre 15 e 20%. Deve ser levado em conta que esses valores negativos podem corresponder a lançamentos ou registros incorretos.
  • Valores sênior de rentabilidade em ativos. O valor desejado para este indicador é o máximo possível e mede os utilitários que geram os recursos totais com os quais o negócio tem.
  • valores principais de endividamento. O valor recomendado para este indicador é entre 40 e 60%.

Grupo 4 é caracterizado por:

  • Valores negativos da margem líquida. O valor desse indicador deve ser maior que zero.
  • valores de valor sênior das operações. O valor desejado para este indicador é o máximo possível indica que o uso suficiente está sendo gerado para cobrir as necessidades de financiamento.
  • Valores negativos da rotação de capital de giro. O valor desse indicador deve ser maior que zero.

nos grupos 1, 2 e 3 Os valores do indicador de razão endividado apresentar um comportamento semelhante, mas é necessário apontar que eles estão em uma posição acima do desejável para este indicador entre 40 e 60%. Os valores da importância dos indicadores do ativo atual, a rotação de ativos fixos e a rotação de estoques apresentam um comportamento semelhante em todos os grupos e estão em intervalos razoáveis para esses indicadores.

Os valores Dos indicadores de estoques e rotação de ativos fixos apresentam um comportamento semelhante nos grupos 1, 2 e 4, e estão em intervalos razoáveis para esses indicadores. Da mesma forma, os valores do indicador de margem de utilidade de operações têm um comportamento semelhante nos grupos 1, 2 e 3, e está em um intervalo razoável para este indicador.

O do acima é concluído que no grupo 1 Observações resultantes da atividade de cada uma das unidades organizacionais com melhor desempenho estão concentradas, atendendo aos valores médios de cada um dos indicadores. Os anos mais representativos estão entre 2009 e 2013 e as unidades organizacionais correspondem às divisões comerciais que são repetidas nesses anos.

Por outro lado, as observações com valores indicadores focadas remotamente dos valores desejáveis ou recomendados. Os anos mais representativos são 2005, 2008 e 2012. As unidades organizacionais incluem divisões territoriais, de apoio e comerciais e são igualmente repetidas nestes anos.

na Figura 1 eles são mostrados (por meio da ilustração) distribuições do observações de cada grupo ao longo do tempo. No eixo do Abscissa, o tempo é apresentado para cada um dos meses (de janeiro a dezembro) dos anos representados, e no número de observações correspondentes a cada mês e ano.

como pode ser Visto na Figura 1, o Grupo 4 contém a maior quantidade de observações e a presença das observações correspondentes ao Grupo 3 com maior incidência em 2005, 2008 e 2012 é evidente.

Conclusões

A mineração de dados como parte do processo KDD constitui uma ferramenta estratégica para empresas e suporte de apoio. Para sua parte, a mineração de dados indiretos permite que você descubra padrões recorrentes e relacionamentos ocultos em conjuntos de dados, por isso é conveniente para sua aplicação em organizações que não têm histórico anterior de uma mineração de dados. Considera-se que os objetivos propostos foram cumpridos, as regras foram obtidas por parâmetros aceitos a serem considerados úteis durante a tomada de decisões pela administração da empresa. Da mesma forma, os grupos obtidos (padrões) descrevem o comportamento associado aos valores de cada um dos indicadores e representam suporte para o trabalho de funcionários e gerentes.

Referências

1 . Timaran Pereira R. Arquiteturas de Integração do processo de descoberta de conhecimento com sistemas de gerenciamento de banco de dados: um estado de arte. Concorrer. 2001; 3 (2): 45-55.

2. Rygielski C, Wang JC, Yen DC. Técnicas de mineração de dados para o gerenciamento de relacionamento com o cliente. Technol Soc. 2002; 24 (4): 483-502.

3. Vercellis C. Business Intelligence: Mineração de dados e otimização para tomada de decisão: John Wiley filhos; 2009.

4. Baga MJA, Linoff G. Técnicas de mineração de dados: para marketing, vendas e gerenciamento de relacionamento com o cliente. 2ª ed. Indianapolis: Wiley Pub; 2004.

5. Fayyad U, Piratetsky Shapiro G, Smyth P. De Data Mineração para Descoberta de Conhecimento em Bancos de Dados. Ai mag. 1996; 17 (3): 37.

6. Steinhoff JC, Carnahan Tl. O uso inteligente da mineração de dados é um bom negócio e bom governo. J gov financista. 2012: 17-22.

7. Kumar Vimal D, Tamillarasi A. Genetic Algorithm-baseado em regime de associação otimizada de mineração para dados multi-relacionais. Intell Data Anal. 2013; 17: 965-80.

8. Lee BJ, Kim JY. Identificação do fator de risco do diabetes tipo 2 usando fenótipos que consistem em antropometria e triglicerídeos com base na aprendizagem de máquinas. IEEE J Biomed Health informar. 2015: 1

9. Ting Ih, Lin YC, et al. O que está faltando? Usando técnicas de mineração de dados com fases de ciclo de negócios para prever as crises financeiras da empresa. Ásia PAC MANEY Rev. 2011; 16 (4): 535-49.

10. Cao L, Yu PS, Zhang C, et al. Mineração de dados dirigida pelo domínio. Boston, EUA: Springer; 2010.

11. Hernández Orallo J, Ramírez Quintana MJ, Ferri Ramírez C. Introdução à Mineração de Dados: Pearson Prentice Hall; 2004.

12. Coquextel. Coquextel a solução integral. . Disponível em: www.copextel.com.cu

13. Witten Ih, Frank E, Hall Ma. Mineração de dados: ferramentas e técnicas práticas de aprendizagem de máquina. 3º ed. Burlington: Morgan Kaufmann; 2011.

14. Chapman P, Clinton J, Kerber R, et al. Guia de mineração de dados Passo-a-passo Crisp-DM 1.0; 2000.

15. Hahsler M, Buchta C, Grenen B, et al. Arules: regras de associação de mineração e conjuntos de itens frequentes. R Pacote versão 1.1-6. 2014.

16. Equipe principal R. Uma linguagem e ambiente para computação estatística. Viena, Áustria: R Fundação para computação estatística; 2014.

17. Venable WN, Smith R. Equipe Core De Desenvolvimento e outros. PT: Uma introdução à Teoria da Rede R versão 312; 2002.

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *