Descubrimento de coñecemento en bases de datos históricos de unha empresa de marketing

Artigo orixinal

descubrimento de coñecemento en bases de datos históricos de unha empresa de marketing

Knowledge Discovery in Databases histórico dunha Trading Company

Tania Morgado-Garcíai, Daniel Antonio Ponce de Leon-Limaii, Alejandro Rosete-Suáreziii

Eu Corporación Copextel SA, A Habana, Cuba
II Universidade Estatal de Santa Elena, Santa Elena, Ecuador
III Universidade Tecnolóxica da Habana José Antonio Echeverría, Habana, Cuba

Resumo

Co desenvolvemento das tecnoloxías, o enorme volume de As bases de datos e a necesidade de obter coñecemento útil deles, a minería de datos convértese nunha ferramenta estratéxica para as empresas, como soporte para a toma de decisións. Unha empresa cubana creada en 1991, cuxo nome non se menciona por razóns de confidencialidade, que se distingue por ser un provedor de solucións integrais, ofrece produtos e servizos de servizos nunha variada gama de esferas cun persoal altamente adestrado. Ten grandes volumes de datos derivados da xestión de cada unha das súas unidades organizativas, pero as análises non se realizan para identificar patróns e comportamentos ocultos nos datos. Neste traballo, un proceso de descubrimento de coñecemento en bases de datos foi desenvolvido na mencionada empresa como axuda á toma de decisións. A este respecto, detallaronse os aspectos relacionados coa minería de datos ea súa solicitude no medio ambiente dos indicadores económicos e financeiros e de xestión, obtivéronse modelos de asociación e agrupamento que apoiarán o traballo dos xestores nos diferentes niveis da organización.

Palabras clave: minería de datos, agrupación, coñecemento, empresa.

Resumo

Co desenvolvemento das tecnoloxías, o gran volume de bases de datos e a necesidade de obter coñecemento útil deles, A minería de datos convértese en ferramenta estratéxica para as empresas, que apoian a toma de decisións. Unha empresa cubana, creada en 1991, o nome de Whoe non se menciona por razóns de confidencialidade, por que se distingue como proveedor de sociedades de solucións compensivas, ofrece servizos de produtos e enxeñería nunha ampla gama de áreas con persoal altamente adestrado. Ten grandes volumes de datos resultantes da xestión de cada unha das unidades organizativas de sitios, pero non se realizan ningunha análise para identificar patróns e comportamentos ocultos en datos. Este artigo presenta un proceso de descubrimento de coñecemento nas bases de datos na mencionada empresa como unha axuda á toma de decisións. A este respecto, os aspectos relacionados coa minería de datos e senta a aplicación no medio de indicadores e xestión económico-financeiro foron detallados, os modelos de asociación e agrupamento que apoiarán o traballo de xestores a diferentes niveis da organización obtivéronse.

Palabras clave: MINIG de datos, agrupación, coñecemento, empresa.

Introdución

Nos últimos anos, o desenvolvemento tecnolóxico tanto na área de transmisión de informática como de datos, permitiulle posible O almacenamento e xestión de grandes volumes de datos. Hoxe as empresas móvense en ambientes altamente competitivos e un cambio continuo. A dinámica do mercado leva á necesidade de ter información adecuada no momento indicada para que os xestores poidan tomar decisións comerciais axeitadas. Polo tanto, entenderon que os grandes volumes de datos que residen nos seus sistemas poden, e deben ser analizados e explotados para obter novos coñecementos ,.

A explotación de minería de datos ou a información é o proceso de extraer útil, comprensible e innovador Coñecemento de grandes volumes de datos, o seu obxectivo principal de atopar información oculta ou implícita, que non é posible obter a través de métodos estatísticos convencionais. A entrada ao proceso de minería está formada por varios contedores de información, inclúe bases de datos relacionales, tendas de datos (Datawarehouse), documentos en texto gratuíto, datos web, entre outros ,.

Unha definición tradicional definila en, Como paso do proceso KDD (descubrimento de coñecemento en bases de datos) que consiste en aplicar análises de datos e descubrir algoritmos que, baixo limitacións de eficiencia computacional aceptables, producen un determinado grupo de patróns ou modelos en datos.

minería de datos Ofrece a oportunidade de que as organizacións detecten problemas potenciais e tome as accións para evitalas ou mitigar o impacto.Aplicado de forma adecuada, os informes de minería de datos ás organizacións numerosos beneficios entre os que se atopan: unha maior eficiencia a partir do cal menos tempo consómese para corrixir erros e recuperar os pagamentos; Información avanzada que permite reducir sorpresas e analizar as causas dos problemas e os mellores controis a través da prevención e detección de actividades que permiten controlar os buratos internos.

O seu campo de aplicación é ancho e diferente, de feito, en todas as actividades onde se xeran datos. E e varios exemplos da súa solicitude están expostos.

Cun enfoque non tradicional, os autores presentan a minería de datos como un proceso sistemático e social que implica os diferentes sistemas e fases de minería, así como o seu respectivo ambientes. Na minería de datos, os problemas e as aplicacións normalmente están rodeadas por factores organizativos e sociais en diferentes empresas. Tales factores compoñen o ambiente minero do mundo real e é necesario a súa atención, xa que reflicten as necesidades reais da empresa e os usuarios e constitúen o ambiente do coñecemento identificado. A intelixencia que xorde da participación de factores e recursos da organización en patróns mineiros constitúe a intelixencia organizativa. Consiste en moitos aspectos entre os que se atopan:

  • as estruturas organizativas relacionadas con aspectos clave, como onde provén os datos.
  • comportamento organizativo, en canto á comprensión de O negocio e os datos, como actúan individuos e grupos na organización.
  • Regulamentos empresariais que inclúen regras, políticas, protocolos, estándares.
  • Procesos comerciais e fluxos de traballo.
  • Os actores da organización e as súas funcións.

O proceso KDD

Fayyad et al. De definir o proceso KDD como: “Un proceso non trivial de patróns válidos, novedosos, potencialmente útiles e comprensibles que están escondidos nos datos”. Está composto por cinco fases, que se describen a continuación:

1. Colección de integración e datos: nesta fase, determínanse as fontes de información que poden ser útiles e onde obtelas.

2. Selección, limpeza e transformación: inclúe a detección dos outliers, falta ou perden datos, construíndo novos atributos e numerosos ou discretizar os atributos.

3. Minería de datos: O obxectivo desta fase é producir novos coñecementos. Para iso, constrúese un modelo que non é máis que unha descrición dos patróns e as relacións entre os datos que se poden usar para facer previsións, para comprender mellor os datos ou explicar situacións pasadas. Inclúe:

  • Escolla o tipo de modelo.
  • Determine que tipo de tarefa mineira é a máis adecuada.
  • Escolla o algoritmo minero que resolve o tarefa e obter o tipo de modelo que está a procurar.

4. Avaliación e interpretación: Existen diferentes medidas de avaliación dos modelos: precisa, comprensible (intelixible) e interesante (útil e novela).

5. Difusión: despois de que o modelo sexa construído e validado, isto pódese empregar en fins disimilares, e durante este proceso debe medirse a súa evolución. Deste xeito, será coñecido se debe ser reevaluado, re-adestrado e posiblemente reconstruído por completo.

son diversos os elementos que se deben ter en conta para que unha organización implique correctamente o proceso de descubrimento de coñecemento ou datos minería. Nos autores definen un conxunto de aspectos que, máis que elementos técnicos, representan cambios organizativos, mentalidade e culturais nas organizacións:

  • a aceptación da responsabilidade de evitar problemas de forma proactiva a través da adopción de enfoques minerais de datos e ferramentas. Esta é esencialmente unha transformación cultural da organización.
  • Comprender o soporte potencial representado por minería de datos á organización tanto na xestión diaria como na toma de decisións estratéxicas.
  • Determinar como o coñecemento resultante do Usarase o proceso de minería de datos.
  • Compartir experiencias e mellores prácticas.
  • Ver este proceso como un proceso continuo.

As actividades de minería de datos son Clasificado en algunhas categorías que dependen das tarefas e obxectivos da análise. Dependendo da existencia dunha variable de destino, o proceso de aprendizaxe está clasificado en:

  • supervisado ou directo MD. Un atributo obxectivo representa a clase na que cada rexistro pertence ou expresa un importe medible. Están orientados á predición e á interpretación con respecto a un atributo obxectivo.
  • non supervisado ou indirecto MD.As análises non están determinadas por un atributo obxectivo. O seu propósito é descubrir patróns recorrentes e afinidades nos conxuntos de datos.

Con base no propósito da minería de datos indirectos, a súa aplicación é conveniente en organizacións que non posúen unha historia de uso anterior do mesmo .

Unha empresa cubana creada en 1991 que se distingue por ser un provedor de solucións completas, ofrece enxeñeiros de produtos e servizos nunha variada gama de esferas, cun persoal altamente adestrado.

moito Da xestión da empresa está apoiada en tecnoloxías de información e comunicacións. Existe un conxunto de aplicacións informáticas que soportan os procesos clave, soporte e xestión, a través dos cales os datos primarios están rexistrados en cada unidade organizativa. Estes datos replícanse aos servidores centrais nos que está dispoñible de grandes volumes que data do ano 2001 . As aplicacións están resaltadas, que nos permiten realizar automaticamente o proceso de peche mensual de contabilidade e a creación de indicadores e regras económicas que validan a información contable dos indicadores calculados. Non obstante, o coñecemento oculto nestes datos non se usa, o que pode soster certas accións e decisións por parte dos xestores da empresa.

do problema anterior deriva o obxectivo deste traballo: descubrir patróns, tendencias e desviacións no almacén de datos corporativos da empresa que solicita non Técnicas de minería de datos supervisadas para mellorar a mellora O proceso de toma de decisións. Os datos seleccionados para explorar inicialmente e buscar patróns e comportamentos ocultos son os contadores, concretamente os indicadores económicos calculados a partir da aplicación que ten o mesmo nome.

deste xeito. Ten como obxectivo Determine as relacións que existen entre os diferentes indicadores económicos que reflicten os patróns e / ou os comportamentos e agrupan as unidades organizativas que atenden ao comportamento destes indicadores.

Métodos

A continuación, describa o Tarefas de minería de datos, metodoloxía e ferramenta de análise de datos, así como técnicas de asociación e agrupamento utilizadas.

Regras de asociación

A primeira tarefa mineira de datos realizada foi a obtención das regras da asociación que consiste de identificar patróns regulares e recorrentes dentro dun gran grupo de transaccións. As regras aparecen de moitas maneiras, pero a formulación máis habitual está en estilo “se o atributo X toma o valor D entón o atributo e leva o valor B”. Eles son avaliados usando dous parámetros: a confianza eo apoio que tamén son nomeados de precisión e cobertura respectivamente.

agrupación

A segunda tarefa foi a agrupación que ten como obxectivo subdividir os rexistros dun grupo de Datos en grupos homoxéneos de observacións, chamados clusters. Os datos están agrupados en función do principio de maximizar a semellanza entre os elementos dun grupo minimizando a similitud entre os diferentes grupos.

Metodoloxía e ferramenta de análise de datos

decidiuse empregar A metodoloxía CRISP-DM para o desenvolvemento desta investigación mantén unha perspectiva máis ampla con respecto aos obxectivos empresariais e concibe o proxecto KDD a nivel mundial. Ademais, é unha metodoloxía neutral sobre a ferramenta utilizada para o desenvolvemento do traballo ea súa distribución é gratuíta e gratuíta. Na fase de minería de datos, usouse como método para atopar asociacións o algoritmo a priori e atopar os grupos o algoritmo K-significa, ambos desenvolvidos na ferramenta de análise de datos R ,.

Resultados e discusión

Fase de preparación de datos

Os datos utilizados na investigación presente proceden da táboa H_ indicadores nos que se almacenan, despois de calcularse a partir da información contable que responde aos servidores centrais De cada unha das unidades organizativas da empresa, os indicadores económicos resultantes do seu funcionamento e xestión. Foi modificado, por consulta SQL, a estrutura orixinal do conxunto de datos para que cada un dos indicadores constitúa unha variable, e deste xeito facilitar a súa análise. Elimináronse rexistros con valores nulos. A estrutura resultante móstrase na táboa 1:

A selección de funcións reduce o tamaño dos datos escollendo as variables máis influentes do problema. A revisión detallada de cada indicador reflicte que hai indicadores que o total, é dicir, son o resultado de operacións aritméticas entre outros indicadores ou algúns conteñen outros. Ademais, todos os indicadores son variables contables da empresa.Por este motivo, decidiuse calcular novos indicadores de eficiencia que permiten análises e comparacións das variables orixinais.

Construción de características

A creación ou a construción de características é crear novos atributos para mellorar a calidade, a visualización e a comprensión do coñecemento extraído.

A táboa 2 mostra os novos indicadores calculados a partir dos orixinais, cunha breve descrición e fórmula de cálculo.

co obxectivo de obter Datos con maior calidade e cumpren os requisitos das técnicas seleccionadas, realízanse novas transformacións sobre as variables. Para iso, úsase a técnica de discretización. Cada un dos indicadores estaban sementados en 6 grupos segundo os requisitos e os valores esperados de cada un. Ademais, as variables foron discretizadas, segundo o tipo de unidade organizativa (división comercial, división de apoio, servizos técnicos ou división territorial), e mes segundo os cuartos do ano. A táboa 3 mostra as variables resultantes e o método de segmentación utilizado.

Minería de datos: as regras de asociación de tarefas descritivas

Utilizouse o algoritmo a priori. Obtivéronse valores de confianza e de apoio moi elevados. As regras atopáronse con valores de apoio e confianza en torno a 0,80 e 0.90sepectivamente.

A continuación, as regras de maior interese:

  • tapa do stock no rango, o beneficio operativo A marxe do rango de% e a rotación do capital de traballo no rango implican que a rotación das accións está no rango.
  • A rotación do stock no intervalo implica que a utilidade de marxe de operacións está no% gama e viceversa.
  • A relación de endebedamento no rango% implica que a rotación de accións está no rango.
  • a razón do endebedamento no rango% e a rotación De stocks no rango implican que a marxe de beneficio operativo está en% gama.
  • A razón actual do rango e a relación ratio no rango% implican que a marxe de beneficio operativo se atopa no%.
  • cobertura de stock no rango impli CA que a rotación de accións se atopa no rango.
  • A cobertura de stock no rango implica que a marxe de beneficio operativo está en% range.
  • a marxe usando operacións no rango% e A proporción de endebedamento no rango% implicará que a rotación das accións está no rango.
  • A rotación do capital de traballo no intervalo implica que a rotación de accións está no rango.
  • Se a división é comercial implica que a rotación de accións está no rango.

Todos os indicadores foron utilizados no algoritmo aplicado, pero algúns non eran interesantes: marxe de utilidade bruto, Marxe neta, rendibilidade en activos, manobras, rotación de activos e rotación de activos fixos, entre outros. Doutra banda, como se pode ver nas regras previamente expostas, as características que mellor describen as relacións son: Stockvernance, marxe de beneficio operativo, capital de traballo, rotación de stock, relación relación e razón actual. Os resultados obtidos mostran as relacións entre os indicadores, algúns lóxicos e obvios, pero que ofrecen outra perspectiva para a análise da actividade na empresa. Representan un valioso coñecemento para a organización ao ter indicadores recorrentes, as asociacións entre elas e nas que se atopan os valores.

Neste sentido, sinalar que se presenta a relación de endebedamento en todos os casos No rango%. O valor recomendado está entre 40 e 60%, con todo, cando tende a cero a empresa é máis sólida porque está financiada cos seus propios recursos. No noso caso, o valor é executado por riba do límite superior recomendado.

Fase de minería de datos: clúster de tarefas descriptivas

Nesta sección, os experimentos realizados co obxectivo móstranse posibles agrupaciones entre as instancias segundo as súas características, aplicando o algoritmo de K-significa en r.

Para lograr unha maior precisión na execución do algoritmo son eliminados a partir da visión mínima inicial das observacións con valores na Calquera dos seus atributos. Por este motivo, o número de instancias a empregar é reducido 5453.

Para determinar o número de grupos ideais, foi executada a técnica de cadrados de erro ou SSE (suma de erro de cadrados). As análises de anualidades foron realizadas descartando os grupos con pouca representatividade (menos do 1%).

A agrupación Descrición

A conformación de 4 grupos podería observarse coas seguintes distribucións:

  • Grupo 1 (499 observacións que representan o 9,29%)
  • Grupo 2 (1260 observacións que representan o 23,45%)
  • Grupo 3 (400 observacións que representan o 7,44%).
  • Grupo 4 (3214 observacións que representan 59,82%)

Grupo 1 caracterízase por:

  • Valores maiores do fondo de manobra que significa que están dispoñibles os bens circulantes suficientes para cubrir débedas a curto prazo.
  • Valores de activos menores de activos, que significa porcentaxe de menores de capital inmobilizado.
  • valores superiores de utilidade bruto. O valor desexado para este indicador é o máximo posible e indica a proporción dos ingresos que lle permite cubrir os gastos que non sexan os custos de venda.
  • Marxe de rede que significa maior beneficio e maior rendibilidade.
  • Valores menores de rotación de activos, que poden indicar a capacidade excesiva ou inactiva nos investimentos. O valor desexado para este indicador é o mellor posible. Maior será o seu valor, en maior medida a compañía utiliza os seus recursos para xerar negocios.

Grupo 2 caracterízase por:

  • valores maiores de Motivo corrente O que podería significar que hai recursos inactivos.
  • valores importantes da rotación de capital de traballo. Isto significa unha mellor produtividade do capital de traballo, que se traduce nunha mellor rendibilidade. Debe informar que un alto índice pode revelar insuficiencia do fondo de manobra.
  • valores de relación con vendas no maior rango, o que significa que neste grupo as observacións en que o porcentaxe as vendas corresponden a O fondo de manobra é maior. O valor axeitado para este indicador ten entre 15 e 20%.

Grupo 3 caracterízase por:

  • valores seniores dos activos de activos, que o que significa maior porcentaxe de capital inmobilizado.
  • stocks negativos de cobertura de accións que significa que o fondo de manobra non cobre os inventarios.
  • valores negativos de financiamento de manobras que indica que hai Non hai suficientes activos activos para tratar con débedas a curto prazo.
  • Valores negativos de marxe neta, rotación de capital de traballo e relación de vendas. Os valores destes tres indicadores deben ser maiores que cero. No caso da relación coas vendas, o valor razoable do indicador ten entre 15 e 20%. Debe ter en conta que estes valores negativos poden corresponder a mensaxes ou rexistros incorrectos.
  • valores superiores de rendibilidade en activos. O valor desexado para este indicador é o máximo posible e mide as utilidades que xeran os recursos totais cos que ten o negocio.
  • valores importantes de endeudamiento. O valor recomendado para este indicador está entre 40 e 60%.

Grupo 4 caracterízase por:

  • Valores negativos da marxe neta. O valor deste indicador debe ser maior que cero.
  • valores de valor de valor superior das operacións. O valor desexado para este indicador é o máximo posible indica que se está xerando o uso suficiente para cubrir as necesidades de financiamento.
  • valores negativos da rotación de capital de traballo. O valor deste indicador debe ser maior que cero.

En grupos 1, 2 e 3 Os valores do indicador de motivos endeudados presentan un comportamento similar, pero é necesario sinalar que están nun rango por encima do desexable para este indicador que ten entre 40 e 60%. Os valores dos indicadores importancia do activo actual, a rotación de activos fixos e a rotación das accións presentan un comportamento similar en todos os grupos e están en rangos razoables para estes indicadores.

Os valores Dos indicadores de cobertura de accións e rotación de activos fixos presentan un comportamento similar en grupos 1, 2 e 4 e están en rangos razoables para estes indicadores. Do mesmo xeito, os valores do indicador de marxe de operacións teñen un comportamento similar en grupos 1, 2 e 3 e está nun rango razoable para este indicador.

do anterior conclúese que no grupo 1 As observacións resultantes da actividade de cada unha das unidades organizativas con mellor rendemento están concentradas, atendendo aos valores medios de cada un dos indicadores. Os anos máis representativos están entre 2009 e 2013 e as unidades organizativas corresponden a divisións comerciais que se repiten nestes anos.

Por outra banda, as observacións con valores indicadores centráronse de forma remota dos valores desexables ou recomendados. Os anos máis representativos son 2005, 2008 e 2012. As unidades organizativas inclúen divisións territoriais, apoios e comerciais e son igualmente repetidas nestes anos.

Na Figura 1 móstranse (a través da Ilustración) Distribucións do Observacións de cada grupo ao longo do tempo. Sobre o eixe da Abscissa, preséntase o tempo para cada un dos meses (de xaneiro a decembro) dos anos representado, e no número de observacións correspondentes a cada mes e ano.

como pode ser Visto na Figura 1, Grupo 4 contén a maior cantidade de observacións e a presenza das observacións correspondentes ao Grupo 3 con maior incidencia en 2005, 2008 e 2012 é evidente.

Conclusións

A minería de datos como parte do proceso KDD constitúe unha ferramenta estratéxica para empresas e apoio de apoio. Pola súa banda, a minería de datos indirectos permítelle descubrir patróns recorrentes e relacións ocultas nos conxuntos de datos, polo que é conveniente para a súa aplicación en organizacións que non teñen unha historia previa de uso de minería de datos. Considérase que se cumpriron os obxectivos propostos, as regras obtivéronse por parámetros aceptados para ser considerados útiles durante a toma de decisións pola xestión da compañía. Do mesmo xeito, os grupos obtidos (patróns) describen o comportamento asociado cos valores de cada un dos indicadores e representan soporte para o traballo de funcionarios e xestores.

Referencias

1 .. TIMARAN PEREIRA R. Arquitecturas de integración do proceso de descubrimento do coñecemento con sistemas de xestión de bases de datos: un estado de arte. Ing competente. 2001; 3 (2): 45-55.

2. Rygielski C, Wang JC, Yen DC. Técnicas de minería de datos para a xestión da relación de clientes. Technol Soc. 2002; 24 (4): 483-502.

3. Vercellis C. Business Intelligence: Minería de datos e optimización para toma de decisións: John Wiley & Sons; 2009.

4. Berry MJA, LINOFF G. Técnicas de minería de datos: para a comercialización, vendas e xestión de relacións cos clientes. 2ª ed. Indianapolis: Wiley Pub; 2004.

5. Fayyad U, Piratetsky Shapiro G, Smyth P. Desde a minería de datos ao descubrimento do coñecemento nas bases de datos. AI MAG. 1996; 17 (3): 37.

6. Steinhoff JC, Carnahan TL. O uso intelixente da minería de datos é un bo negocio e un bo goberno. J GOV Financi GANT. 2012: 17-22.

7. Vimal Kumar D, Tamillarasi A. AS Asociación de Asociación Optimizada de Asociación Optimizada a base de datos para datos multi-relacionales. Datos de Intell Anal. 2013; 17: 965-80.

8. Lee BJ, Kim Jy. Identificación do factor de risco de diabetes tipo 2 usando fenotipos compostos por antropometría e triglicéridos en función da aprendizaxe automática. IEEE J BIOMED Health Inform. 2015: 1.

9. Ting IH, Lin YC, et al. Que falta? Usando técnicas de minería de datos con fases de ciclo de negocios para predecir crises financeiras da empresa. Asia Pac Manag Rev. 2011; 16 (4): 535-49.

10. Cao l, Yu PS, Zhang C, et al. Minería de datos dirixida ao dominio. Boston, Estados Unidos: Springer; 2010.

11. Hernández Orallo J, Ramírez Quintana MJ, Ferri Ramírez C. Introdución á minería de datos: Pearson Prentice Hall; 2004.

12. COPEXTEL. COPEXETEL A solución integral. .. Dispoñible en: www.copettel.com.cu

13. Witten IH, Frank E, Hall Ma. Minería de datos: ferramentas e técnicas prácticas de aprendizaxe automática. 3ª ed. Burlington: Morgan Kaufmann; 2011.

14. Chapman P, Clinton J, Kerber R, et al. Guía de minería de datos paso a paso CRISP-DM 1.0; 2000.

15. Hahsler M, Buchta C, GRENEN B, et al. Arules: Regras de asociación mineira e elementos frecuentes. R PAQUETE VERSIÓN 1.1-6. 2014.

16. Core Team R. Un idioma e ambiente para a computación estatística. Viena, Austria: Fundación R para a Computación Estatística; 2014.

17. Venable WN, Smith R. Development Core Team e outros. En: Unha introdución á versión 3 312 teoría da rede ltd; 2002.

Leave a Comment

O teu enderezo electrónico non se publicará Os campos obrigatorios están marcados con *