Análisis Cluster - Alumna: Javiera Soledad Carmona López 1 A lu m n a : J a v ie ra S o le d a d C a rm o n a Ló p e z 2 0 1 3 Análisis Cluster - Alumna: Javiera Soledad Carmona López 2 Contenidos 1. Introducción ................................................................................................................................................... 3 2. Objetivos ........................................................................................................................................................... 4 3. ¿Qué es el análisis cluster? ................................................................................................................... 5 4. ¿Cómo funciona el análisis cluster? ............................................................................................... 8 5. Proceso de decision con el análisis cluster ................................................................................ 9 5.1 Primer Paso: Objetivos del análisis ............................................................................................ 9 5.2 Segundo Paso: Diseño de Investigación mediante análisis Cluster ................ 11 5.3 Tercer Paso: Supuestos del Análisis cluster ........................................................................ 14 5.4 Cuarto Paso: Obtención de conglomerados y valoración del ajuste conjunto .......................................................................................................................................................... 17 5.5 Paso 5: Interpretación de los conglomerados .............................................................. 20 5.6 Paso 6: Validación y perfil de los grupos ........................................................................... 21 6. Ejemplo Práctico con programa SPSS ........................................................................................ 23 7. Ejemplo Práctico R ................................................................................................................................... 35 8. Conclusiones ................................................................................................................................................ 44 9. Bibliografía ..................................................................................................................................................... 45 Análisis Cluster Análisis Cluster - Alumna: Javiera Soledad Carmona López 3 3 1. Introducción Los académicos y los investigadores de mercado se encuentran a menudo con situaciones cuya mejor forma de resolverlas es definiendo grupos de objetos homogéneos, tanto si son individuos como si son empresas, productos o incluso comportamientos. Las opciones estratégicas basadas en los grupos identificados en la población, como la segmentación y los objetivos de marketing no serían posibles sin una metodología objetiva. Esta misma necesidad se encuentra en otras áreas, que van desde las ciencias naturales a las ciencias sociales. En todos estos casos, el investigador está buscando una estructura entre las observaciones basadas en un perfil multivariante. La técnica más utilizada para este fin es el Análisis Cluster. El análisis cluster agrupa a los individuos y a los objetos en conglomerados, de tal forma que los objetos del mismo conglomerado son más parecidos entre sí que a los objetos de otros conglomerados. Lo que se intenta es maximizar la homogeneidad de los objetos dentro de los objetos dentro de los conglomerados mientras que a la vez se maximiza la heterogeneidad entre los agregados. El capítulo 9 del Análisis Multivariante (Hair, Anderson, Tatham y Black, 5º Edición) explica la naturaleza y el propósito del análisis cluster y guía al investigador en la selección y uso de los diversos enfoques del mismo. Análisis Cluster Análisis Cluster - Alumna: Javiera Soledad Carmona López 4 4 2. Objetivos Definir las cuestiones apropiadas a investigar para ser tratadas por el análisis cluster. Entender cómo se mide la similitud entre objetos. Distinguir entre las diferentes medidas de distancia. Diferenciar entre los algoritmos de cluster y sus aplicaciones adecuadas. Entender las diferencias entre las técnicas cluster jerárquicas y no jerárquicas. Entender cómo se selecciona el número de conglomerados a formar. Seguir las líneas principales de validación del conglomerado. Construir los perfiles de los conglomerados derivados y evaluar su significación práctica. Exponer las limitaciones del análisis cluster. Utilizar el programa computacional de Estadística R para la ejemplificación y aplicación del Análisis Cluster. Análisis Cluster - Alumna: Javiera Soledad Carmona López 5 5 3. ¿Qué es el análisis cluster? El análisis cluster es la denominación de un grupo de técnicas multivariantes cuyo principal propósito es agrupar objetos basándose en las características que poseen. El análisis cluster clasifica objetos(es decir, encuestados, productos u otras entidades) de tal forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algún criterio de selección predeterminado. Los conglomerados de los objetos resultantes deberían mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de heterogeneidad externa (entre conglomerados). Por tanto si la clasificación es acertada, los objetos dentro de los conglomerados estarán muy próximos cuando se representen gráficamente, y los diferentes grupos estarán muy alejados. En el análisis Cluster, de nuevo el concepto de valor teórico es central, pero en forma muy diferente del resto de las técnicas multivariantes. El valor teórico del Análisis cluster es el conjunto de variables que representan las características utilizadas para comparar objetos en el análisis cluster. Dado que el valor teórico del análisis cluster incluye sólo las variables utilizadas para comparar objetos, determina el de los objetos. El análisis cluster es la única técnica multivariante que no estima el valor teórico empíricamente sino que utiliza el valor teórico especificado pro el investigador. El objetivo del análisis cluster es la comparación de objetos basándose en el valor teórico, no en la estimación del valor teórico en sí misma. Esto hace crucial la definición que dé el investigador al valor teórico para el análisis cluster. El análisis de cluster es un método que permite descubrir asociaciones y estructuras en los datos que no son evidentes a priori pero que pueden ser útiles una vez que se han encontrado. Los resultados de un Análisis de Clusters Análisis Cluster - Alumna: Javiera Soledad Carmona López 6 6 pueden contribuir a la definición formal de un esquema de clasificación tal como una taxonomía para un conjunto de objetos, a sugerir modelos estadísticos para describir poblaciones, a asignar nuevos individuos a las clases para diagnóstico e identificación, etc. El análisis cluster es muy útil cuando un investigador desea desarrollar las hipótesis concernientes a la naturaleza de los datos o para examinar las hipótesis previamente establecidas. Por ejemplo, un investigador puede creer que las actitudes hacia el consumo de refrescos normales frente a podrían utilizarse para separar a los consumidores de refrescos en segmentos lógicos o grupos. El análisis cluster puede clasificar consumidores de refrescos por sus actitudes hacia los refrescos normales frente a los light, y los conglomerados resultantes, si los hay, pueden perfilarse mediante diferencias y similitudes demográficas y similitudes demográficas. Estos ejemplos son sólo una reducida fracción de los tipos de aplicaciones del análisis cluster. Desde la derivación de taxonomías en biología para la agrupación de todos los organismos vivientes a clasificaciones psicológicas basadas en la personalidad y otros rasgos personales, pasando por los análisis de segmentación de los mercados, el análisis cluster ha tenido siempre una fuerte tradición en la agrupación de individuos. Esta tradición se ha extendido a la clasificación de objetos, incluyendo la estructura de mercado, análisis de similitudes y diferencias entre productos nuevos y evaluación de rendimiento de empresas para identificar agrupaciones basadas en las estrategias de las empresas u orientaciones estratégicas. El resultado ha sido una profusión de aplicaciones en casi todas las áreas de investigación, creando no sólo una riqueza de conocimiento en el uso del análisis de conglomerados sino también la necesidad de una mejor comprensión de la técnica para minimizar su mala utilización. Sin embargo junto con los beneficios del análisis cluster existen algunos inconvenientes. El análisis cluster puede caracterizarse como: Descriptivo. Ateórico. No inferencial. Análisis Cluster - Alumna: Javiera Soledad Carmona López 7 7 El análisis cluster no tiene bases estadísticas sobre las cuales deducir inferencias estadísticas para una población a partir de una muestra, y se utiliza fundamentalmente como una técnica exploratoria. Las soluciones no son únicas, en la medida en que la pertenencia al conglomerado para cualquier número de soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas soluciones diferentes variando uno o más de estos elementos. Además, el análisis cluster creará conglomerados, a pesar de la existencia de una auténtica estructura en los datos. Finalmente, la solución cluster es totalmente dependiente de las variables utilizadas como base para la medida de similitud. La adición o destrucción de variables relevantes puede tener un impacto sustancial sobre la solución resultante. Por tanto, el investigador debe tener particular cuidado en evaluar el impacto de cada decisión implicada en el desarrollo de un análisis cluster. Análisis de Interdependencia Relación entre variables Relación entre objetos Relación entre casos Métricas No Métricas Componentes principales Análisis Factorial Análisis Correspondencias Análisis Cluster Escalamiento multidimensional Figura1: Tipos de Análisis de Interdependencia Análisis Cluster - Alumna: Javiera Soledad Carmona López 8 8 4. ¿Cómo funciona el análisis cluster? La naturaleza del análisis cluster puede ilustrarse mediante un simple ejemplo bivariante. El objetivo principal del análisis cluster es definir la estructura de los datos colocando las observaciones más parecidas en grupos. Pero para llevar a cabo la tarea, se debe tratar 3 cuestionamientos básicos. I. ¿Cómo medimos la similitud? Se necesita un método de observaciones simultáneamente comparadas sobre 2 variables de aglomeración. Son posibles varios métodos, incluyendo la correlación entre objetos, una medida de asociación utilizada en otras técnicas multivariantes o quizá midiendo su proximidad en un espacio bidimiensional de tal forma que la distancia entre las observaciones indica similitud. II. ¿Cómo formamos los conglomerados? No importa cómo se mida la similitud, el procedimiento debe agrupar aquellas observaciones que son más similares dentro de un conglomerado. Este procedimiento debe determinar la pertenencia al grupo de cada observación. III. ¿Cuántos grupos formamos? Puede utilizarse cualquier número de , pero la tarea fundamental es evaluar la similitud dentro de los conglomerados, de tal forma que a medida que la media aumenta, el conglomerado se hace menos similar. El investigador se enfrenta a continuación a un trade-off: pocos conglomerados frente a menos homogeneidad. Una estructura simple, al tender hacia la parsimomia, se refleja en el menor número de conglomerados posible. Pero a medida que el número de conglomerados disminuye, la homogeneidad dentro de los conglomerados necesariamente disminuye. Por tanto, se debe buscar un equilibrio entre la definición de las estructuras más básicas (pocos conglomerados) que todavía mantienen el necesario nivel de similitud dentro de los conglomerados. Una vez que se tenga procedimientos para cada asunto, se podrá realizar el análisis cluster. Análisis Cluster - Alumna: Javiera Soledad Carmona López 9 9 5. Proceso de decision con el análisis cluster El análisis cluster, puede verse como una aproximación a la construcción de modelos en seis pasos. Comenzando con los objetivos de investigación que pueden ser tanto ´confirmatorios como exploratorios, el diseño de un análisis cluster interviene en la participación del conjunto de datos para formar conglomerados, la interpretación de los conglomerados y la validación de los resultados´, el proceso de participación determina como se pueden desarrollar los conglomerados. El proceso de interpretación implica entender las características de cada conglomerado y desarrollar un nombre o etiqueta que defina apropiadamente su naturaleza. El proceso final comprende la evaluación de la validación de la solución cluster (es decir, determinación de su estabilidad y generalidad), junto con la descripción de las características de cada conglomerado para explicar cómo puede diferir en dimensiones relevantes como las demográficas. Las siguientes secciones detallan todos estos asuntos a lo largo de un proceso de construcción de modelos. 5.1 Primer Paso: Objetivos del análisis El objetivo fundamental del análisis cluster es la obtención de un conjunto de objetos en dos o más grupos basándose en su similitud para un conjunto de características especificadas (valor teórico del análisis cluster). Al formar grupos homogéneos, el investigador puede conseguir los siguientes objetivos: I. Descripción de una taxonomía: El uso más tradicional del análisis cluster ha sido para propósitos exploratorios y la formulación de una taxonomía – una clasificación de objetos realizada empíricamente .Como se ha descrito previamente, el análisis cluster se ha utilizado para un amplio rango de aplicaciones debido a su capacidad para la participación. Pero el análisis cluster puede generar también hipótesis relacionadas con la estructura de los objetos. Sin embargo, aunque visto principalmente como una técnica de exploración, el análisis cluster puede utilizarse a efectos confirmatorios. Si una estructura propuesta puede definirse para un Análisis Cluster - Alumna: Javiera Soledad Carmona López 10 10 conjunto de objetos, se puede aplicar el análisis cluster, y puede compararse una tipología propuesta (clasificación basada en la teoría) a la derivada del análisis cluster. II. Simplificación de los datos: En el curso de una obtención de una taxonomía, el análisis cluster también obtiene una perspectiva simplificada de las observaciones. Con una estructura definida, las observaciones pueden agruparse para análisis ulteriores. Mientras el análisis factorial intenta proporcionar dimensiones o estructuras de variables, el análisis cluster desarrolla la misma tarea para las observaciones .Por tanto, en lugar de ver todas las observaciones como únicas, pueden ser consideradas como miembros de un conglomerado y perfiladas por sus características generales. III. Identificación de relación: Con los conglomerados definidos y la estructura subyacente de los datos representados en dichos conglomerados, el investigador tiene un medio de revelar relaciones entre las observaciones que quizá no fuesen posibles con las observaciones individuales. Mientras se utilizan análisis tales como el discriminante para identificar relaciones empíricamente, o los grupos están sujetos a métodos más cualitativos, la estructura simplificada del análisis cluster muchas veces representa relaciones o similitudes y diferencias no reveladas previamente. Selección de variables del análisis cluster En cualquier aplicación, los objetivos del análisis cluster no pueden separarse de la selección de variables y utilizadas para caracterizar los objetos a agrupar. Tanto si el objetivo es exploratorio como confirmatorio, el investigador ha restringido efectivamente los resultados posibles por las variables elegidas para el uso. Los conglomerados derivados reflejan la estructura inherente de los datos sólo como definida por la variable. La selección de las variables a incluir con el valor teórico del análisis cluster debe hacerse con relación a consideraciones teóricas, conceptuales y Análisis Cluster - Alumna: Javiera Soledad Carmona López 11 11 prácticas. Cualquier aplicación de análisis cluster debe descansar en cierta lógica en función de la cual se seleccionan las variables. Tanto si dicha lógica se basa en una teoría explicita, investigación pasada o suposición, el investigador debe darse cuenta de la importancia de incluir solo aquellas variables que (1) caracterizan los objetos que se están agrupando, y (2) se refieren específicamente los objetivos del análisis cluster. Las técnicas del análisis cluster no tienen un medio para diferenciar las variables relevantes de las irrelevantes. Solo obtiene los grupos de objetos más consistentes, aunque diferenciados, para todas las variables. La conclusión de una variable irrelevante aumenta la posibilidad de que se creen atípicos sobre éstas variables, que puedan tener un efecto importante sobre los resultados. Por tanto, uno nunca debería incluir variables indiscriminadamente sino en su lugar elegir las variables utilizando el objetivo de investigación como criterio de selección. A efectos prácticos, el análisis cluster puede verse drásticamente afectada por la inclusión de una o dos variables inapropiadas o escasamente diferenciadas. Se anima al investigador a examinar los resultados y eliminar las variables que no son distintivas (es decir, que no difieren significativamente) de todos los conglomerados deducidos. Este procedimiento permite a las técnicas cluster maximizar los conglomerados definidos basándose solo en aquellas variables que exhiban diferencias para todos los objetos. 5.2 Segundo Paso: Diseño de Investigación mediante análisis Cluster Con los objetivos definidos y variables seleccionadas, el investigador debe tratar tres cuestiones antes de empezar el proceso de partición: (1)¿Pueden detectarse los atípicos y, si es posible, deberían ser destruidos? (2)¿Cómo debería medirse la similitud de los objetos? (3)¿Deberían estandarizarse los datos? Se pueden utilizar muchos enfoques para contestar a estas preguntas. Sin embargo, ninguno de ellos ha sido evaluado suficientemente como para Análisis Cluster - Alumna: Javiera Soledad Carmona López 12 12 ofrecer una respuesta definitivamente a cualquiera de esas cuestiones, y, desafortunadamente, muchas de las aproximaciones ofrecen diferentes resultados para el mismo conjunto de datos. Por tanto, el análisis cluster junto con el análisis factorial, es más un arte que una ciencia. Por ésta razón, nuestra discusión revisa éstos supuestos de forma muy general ofreciendo ejemplos de los enfoques habitualmente más utilizados y una evaluación de las limitaciones prácticas siempre que sea posible. La importancia de estos supuestos y las decisiones hechas en los últimos pasos se hacen aparentes cuando nos damos cuenta de que aunque el análisis cluster está buscando una estructura de los datos debe imponer en realidad una estructura a partir de una metodología seleccionada. El análisis Cluster no puede evaluar todas las posibles participaciones porque, incluso para un problema relativamente pequeño de participación de 25 objetos en 5 conglomerados no solapados, existen 2,4 x 10^15 participaciones posibles. En su lugar basándose en las decisiones del investigador, la técnica identificada una de las posibles situaciones como (correcta). Desde éste punto de vista, los supuestos del diseño de investigación y la elección de metodologías hechas por el investigador tienen quizás un impacto superior al del resto de las técnicas multivariables. Detección de Atípicos En la búsqueda de una estructura, el análisis cluster es muy sensible a la inclusión de variables irrelevantes. Pero el análisis cluster es también sensible a los atípicos. Los atípicos pueden representar tanto (1) Observaciones verdaderamente aberrantes que no son representativas de la población en general. (2) Una muestra reducida del grupo de la población que provoca una mala representación del grupo de la muestra. En ambos casos, los atípicos distorsionan la verdadera estructura de la población. Por esta razón, siempre es necesaria una representación preliminar Análisis Cluster - Alumna: Javiera Soledad Carmona López 13 13 de los atípicos. Probablemente la forma más sencilla de llevar a cabo es esta representación es preparar un diagrama de perfil gráfico, tal como se muestra en la figura. Figura 2: Perfiles de Clusters, según fuentes de seguridad económica de los adultos mayores. Medidas de Similitud La similitud es una medida de correspondencia o semejanza entre los objetos que van a ser agrupados. La estrategia más común consiste en medir la equivalencia en términos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son más parecidos entre sí que aquellos que tienen distancias mayores y se agruparan, por tanto, dentro del mismo cluster. Según la clasificación de Sneath y Sokal (Pérez, 2007) existen cuatro grandes tipos de medidas de similitud: I. Distancias: pone el énfasis en sobre el grado de diferencia o existente entre dos elementos. El ejemplo más clásico es la distancia euclídea. II. Coeficientes de asociación: se utiliza preferentemente para datos cualitativos. Estas medidas son, básicamente, una forma de medir la concordancia o conformidad entre los estados de dos columnas de datos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 14 14 III. Coeficientes angulares: se utilizan para medir la proporcionalidad e independencia entre los vectores que definen los individuos. El más común es el coeficiente de correlación aplicado a variables continuas. IV. Coeficientes de similitud probabilística: miden la homogeneidad del sistema por particiones o subparticiones del conjunto de individuos e incluye información estadística. Se relacionan los coeficientes a diferentes clasificaciones utilizando para ellas criterios de bondad o buenos ajustes estadísticos. Tipificación de datos La mayoría de las medidas de distancias son bastantes sensibles a las diferentes escalas o magnitudes de las variables. En general, las variables con una mayor dispersión (es decir, grandes desviaciones estándar) tienen mayor impacto en el valor final de similitud. La forma más común de estandarización es la conversión de cada variable a unas puntuaciones estándar (puntuaciones Z) restando la media y dividiendo por la desviación de cada variable. Este proceso convierte cada puntuación de los datos originales en un valor estandarizado con media de 0 (cero) y desviación estándar de 1 (uno). Esta transformación, a cambio, elimina el sesgo introducido por las diferencias en las mediciones de varios atributos o variables utilizadas en el análisis. También existe la estandarización por observación, si se quiere identificar los grupos de acuerdo a su estilo de respuesta en una encuesta. En este caso la estandarización por encuestado estandarizaría cada cuestión no por la media de la muestra sino por la puntuación del encuestado. Esta tipificación entre sujetos o centrada por filas puede ser bastante efectiva al eliminar efectos de respuestas y especialmente adecuada para muchas formas de datos de actitud. 5.3 Tercer Paso: Supuestos del Análisis cluster El análisis cluster no es técnica de inferencia estadística en la que se analizan los parámetros de una muestra en la medida en que puedan ser representativos de una población. Por el contrario, este análisis es una Análisis Cluster - Alumna: Javiera Soledad Carmona López 15 15 metodología objetiva de cuantificación de las características estructurales de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemáticas pero no fundamentos estadísticos. Los requisitos de normalidad, linealidad y homocedasticidad tienen poca consistencia en el análisis cluster. Sin embargo, se debe centrar la atención en dos cuestiones esenciales: representatividad de la muestra y la multicolinealidad. La multicolinealidad actúa como proceso de ponderación no aparente para el observador pero que sin embargo afecta al análisis. Aquellas variables que son multicolineales están implícitamente ponderadas con más fuerza. La solución a este problema es, o bien reducir las variables al mismo número en cada conjunto o bien utilizar la medida de distancia de Mahalanobis que compensa esta correlación. Análisis Cluster - Alumna: Javiera Soledad Carmona López 16 16 Figura 3: Diagrama de decisión de los pasos 1-3. (Análisis multivariante, 5ta edición de Hair, Anderson, Tatham y Black). Análisis Cluster - Alumna: Javiera Soledad Carmona López 17 17 5.4 Cuarto Paso: Obtención de conglomerados y valoración del ajuste conjunto Los diferentes métodos de análisis de conglomerados surgen de las distintas formas de llevar a cabo la agrupación de los individuos, es decir, dependiendo del algoritmo que se utilice para llevar a cabo la agrupación de individuos, se obtienen diferentes métodos de análisis de conglomerados. Pérez López (2007) proporciona la siguiente clasificación de los métodos de análisis cluster basada en los algoritmos de agrupación de individuos: I. Métodos Aglomerativos-Divisivos: método aglomerativo es aquel que considera tantos grupos como individuos y sucesivamente va agrupando los dos grupos más similares, hasta llegar a una clasificación determinada; mientras que el método divisivo parte de un solo grupo formado por todos los individuos, y en cada etapa posterior va apartando individuos de los grupos establecidos anteriormente, formando nuevos grupos. II. Métodos Jerárquicos-No Jerárquicos: el método jerárquico consiste en una secuencia de g+1 cluster: G0,… , Gg en la que G0 es la participación disjunta de todos los individuos y Gg es el conjunto partición. Progresivamente, el número de partes de cada una de las particiones disminuye, lo que hace que estas sean cada vez más amplias y menos homogéneas. Por el contrario, en el método no jerárquico se forman grupos homogéneos sin establecer relaciones de orden o jerárquicas entre dichos grupos. III. Métodos Solapados-Exclusivos: el método solapado acepta que un individuo pueda pertenecer a dos grupos simultáneamente en alguna de las etapas de clasificación, mientras que se dice exclusivo si prohíbe a los individuos pertenecer simultáneamente a dos grupos en la misma etapa. IV. Métodos Secuenciales-Simultáneos: en el método secuencial se aplica el mismo algoritmo en forma recursiva a cada grupo, mientras que los métodos simultáneos son aquellos en los que la clasificación se logra por una simple y no reiterada operación sobre los individuos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 18 18 V. Métodos Monotéticos-Politéticos: el método monotético está basado en una característica única de los objetos a clasificar; mientras que el politético no exige que todos los objetos posean las mismas características, aunque sí las suficientes como para poder justificar la analogía entre los miembros de una misma clase. VI. Métodos Directos-Iterativos: el método directo utiliza algoritmos en los que una vez establecido un individuo a un grupo ya no se saca del mismo, mientras que los métodos iterativos comprueban en cada iteración si la asignación de un individuo a un conglomerado es óptima llevando a cabo un nuevo reagrupamiento de los individuos si es necesario. VII. Métodos Ponderados-No Ponderados: el método no ponderado establece el mismo peso a todas las características (o variables) de los individuos a clasificar; mientras que el ponderado hace recaer mayor peso en determinadas características. VIII. Métodos Adaptativos-No Adaptativos: en el método no adaptativo, el algoritmo utilizado se dirige hacia una solución en la que el procedimiento de formación de conglomerados es fijo y está predeterminado, mientras que el adaptativo es aquel que de alguna manera aprende durante el proceso de formación de los grupos y cambia el criterio de optimización o la medida de similitud a utilizar. Los métodos de análisis de conglomerados que más se usan son los que son a la vez secuenciales, aglomerativos, jerárquicos y exclusivos, y que reciben el acrónimo, en lengua inglesa, de S.A.H.N. (Sequential, Agglomerative, Hierarchic y Nonoverlaping). Entre los diferentes métodos de análisis de conglomerados de tipo S.A.H.N. tenemos los siguientes: Método de Unión Simple, entorno o vecino más cercano o método del mínimo. Método de la distancia máxima, entorno o vecino más lejano o método del máximo. Método de la media o de la distancia promedio no ponderado. Método de la media ponderada o de la distancia promedio ponderado. Análisis Cluster - Alumna: Javiera Soledad Carmona López 19 19 Método de la mediana o de la distancia mediana. Método del centroide o de la distancia prototipo. Método de Ward o de mínima varianza. Los métodos no jerárquicos se diferencian de los métodos jerárquicos en que el investigador debe especificar a priori los grupos que deben ser formados y que trabajan con la matriz de datos original y no requieren su conversión a una matriz de proximidades. Pedret en (Pérez, 2007) agrupa los métodos no jerárquicos en las cuatro familias siguientes: I. Métodos de reasignación: admiten que un objeto asignado a un grupo en un paso del proceso sea reubicado en otro grupo en un paso posterior si esto optimiza el criterio de selección. El proceso concluye cuando no quedan individuos cuya reasignación permita optimizar el resultado. El algoritmo más conocido dentro de estos métodos es el método de K-medias. II. Métodos de búsqueda de la densidad: presentan dos aproximaciones. La aproximación tipológica, donde los grupos se forman buscando las zonas en las cuales se da una mayor concentración de individuos. El análisis modal de Wishart es uno de los algoritmos más conocidos dentro estos métodos. En la aproximación probabilística, se parte del postulado de que las variables siguen una ley de probabilidad según la cual los parámetros varían de un grupo a otro. Se trata de encontrar los individuos que pertenecen a la misma distribución. Se destaca en esta aproximación el método de las combinaciones de Wolf. III. Métodos directos: clasifican simultáneamente a los individuos y a las variables. IV. Métodos de reducción de dimensiones: buscan factores en el espacio de los individuos, correspondiendo cada factor a un grupo. Determinación del número de conglomerados en la solución final Como ya habrá quedado claro, en la selección de la solución cluster definitiva se deja al juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso aunque se han desarrollado métodos más sofisticados para ayudar en la evaluación de las soluciones cluster, sigue recayendo en el investigador de la decisión final del número de conglomerados aceptados en Análisis Cluster - Alumna: Javiera Soledad Carmona López 20 20 la solución final. El análisis cluster es más simple en este caso bivariante porque los datos están en dos dimensiones. En la mayoría de los estudios de marketing, sin embargo, se miden más de dos variables con cada objeto, y la situación es mucho más compleja con muchas más observaciones. 5.5 Paso 5: Interpretación de los conglomerados Una vez configurados los conglomerados definitivos, conviene caracterizarlos mediante un patrón de comportamiento respecto a las variables observadas. El método más usual de caracterización consiste en representar los perfiles de las medias aritméticas por variables de los distintos centroides. La interpretación y el perfil de los grupos comprenden el análisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. El objetivo de esta etapa es, esencialmente, examinar la variación de los clusteres para asignar etiquetas que describan de un modo veraz su naturaleza. Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es más que la descripción de las características de cada cluster para explicar cómo podrían inferir en dimensiones relevantes. Para conseguir esto, se recurre normalmente al empleo del Análisis Discriminante o a algún otro estadístico apropiado. El analista utiliza los datos no incluidos previamente en el procedimiento de aglomeración para perfilar las características de cada cluster. Estos datos suelen ser características demográficas, perfiles psicográficos, etc. En resumen, el análisis de perfiles se enfoca a describir no a lo que determinan directamente los clusters sino (una vez se han determinado los distintos grupos) a sus características propias. Por ello, se hace especial énfasis en las características que definen los grupos y en la capacidad de los miembros de cada conglomerado para predecir una actitud particular del cluster en cuestión. Análisis Cluster - Alumna: Javiera Soledad Carmona López 21 21 5.6 Paso 6: Validación y perfil de los grupos La validación incluye los intentos del investigador por asegurar que la solución cluster es representativa de la población general y por tanto generalizable a otros objetos y estable en el tiempo. La aproximación más directa en este sentido es realizar análisis cluster para muestras distintas. Dados los criterios generales que comprende el análisis cluster, no debe aceptarse ninguna solución de agrupación sin una evaluación de su confianza y validez. La validación es el intento por parte del analista de asegurar que los clusters obtenidos sean representativos de la población original y que sean generalizables a otros objetos y estables a lo largo del tiempo. Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupación: Realizar el análisis cluster con los mismos datos y utilizar distintas medidas de distancia. Comparar los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones. Utilizar diversos métodos de conglomerado y comparar los resultados. Dividir los datos a la mitad de forma aleatoria. Realizar el análisis cluster por separado en cada mitad (submuestra). Comparar las soluciones de los dos análisis y evaluar la correspondencia de los resultados o bien comparar los centroides de grupo de las dos submuestras. Eliminar las variables de forma aleatoria. Realizar la agrupación basándose en el conjunto reducido de variables. Comparar los resultados basados en el conjunto completo con los que se obtuvieron al realizar el conglomerado. En el conglomerado no jerárquico la solución puede depender del orden de los casos en el conjunto de datos. Para estudiar esto, es recomendable llevar a cabo corridas múltiples y utilizar distintos órdenes de los casos hasta estabilizar la solución. Análisis Cluster - Alumna: Javiera Soledad Carmona López 22 22 Figura 4: Diagrama de decisión de los pasos 4-6. (Análisis multivariante, 5ta edición de Hair, Anderson, Tatham y Black). Análisis Cluster - Alumna: Javiera Soledad Carmona López 23 23 6. Ejemplo Práctico con programa SPSS Formulación del problema La idea de región hace referencia a espacios geográficos constituidos en razón de homogeneidades o similitudes socioeconómicas, de nodos funcionales o de proyectos unitarios de acción (Boudeville citado en Clément, 2000). En este trabajo se ha aplicado el análisis cluster a las distintas comunidades regionales de la provincia de Córdoba buscando una estructura “natural” que identifique grandes zonas de análisis basándose en el parecido o similaridad existente entre ellas. Inicialmente, se parte de una matriz de datos n x p con n=26 observaciones – departamentos- y p=13 variables. Las variables corresponden a indicadores socioeconómicos respecto de la población de la provincia de Córdoba y están elaboradas a partir de los Informes Departamentales en el año 2006 realizados por la Dirección General de Estadísticas y Censos de la provincia de Córdoba. Entre las características recolectadas se encuentran: el Producto Bruto Geográfico per cápita (PBG), Gasto Público Provincial per cápita, Planes de Empleo por cada mil habitantes, Inseguridad, Inversión Pública Provincial, Población Total, Tipo de Vivienda, Condición Necesidades Básicas Insatisfechas (NBI), Obra Social, Ocupación, Jubilación, Fecundidad, Educación. La descripción de las variables se encuentra detallada en el anexo de este trabajo. Selección de las variables a utilizar El análisis cluster debe atender a dos criterios, que la muestra sea representativa y a la existencia de multicolinealidad. La representatividad de la muestra, en este caso de estudio, no constituye un problema porque las unidades de análisis implican toda la estructura de la población. Sin embargo, en una etapa preliminar del análisis se puede anticipar la existencia de multicolinealidad entre las variables por la naturaleza del problema que se está trabajando, las variables en su conjunto representan atributos socio-económicos de la población en los distintos departamentos. Para detectar formalmente la existencia de multicolinealidad se utiliza como Análisis Cluster - Alumna: Javiera Soledad Carmona López 24 24 medida estadística la “Tolerancia”2. Este estadístico confirma que las variables incorporadas al trabajo presentan un alto grado de colinealidad. Por ello, se procede a eliminar del modelo aquellas variables con más baja Tolerancia. Las variables PBG, Inseguridad, Inversión Pública, Población y NBI resultan con un grado de multicolinealidad mínimo y, perfectamente puede continuarse el trabajo de análisis sin adoptar medidas remediables. La tabla con la estadística descriptiva revela la gran variabilidad de los datos en cada variable y la diferencia de escalas entre ellas, lo que justifica la estandarización. Diseño de la investigación El primer paso dentro del diseño de investigación es decidir sobre la medida de similitud entre los objetos. Entre las distintas alternativas, se ha optado por la distancia euclídea al cuadrado dado que el conjunto de variables incorporadas es métrico. Como las variables se encuentran medidas en distintas escalas es necesario que se estandaricen previamente, para ello se elige la tipificación a través de las puntuaciones Z para cada variable. El siguiente paso ha consistido en la elección del método de aglomeración. En el ejemplo que aquí se expone, de las distintas aproximaciones posibles para obtener grupos mediante esta técnica, se ha elegido el método de agrupamiento jerárquico. Además, el método de encadenamiento escogido es el método de Ward o de varianza mínima. La idea básica de este método es ir agrupando elementos, en este caso departamentos de la provincia de Córdoba, de forma jerárquica y minimizando la variación intragrupo de la estructura formada. Análisis Cluster - Alumna: Javiera Soledad Carmona López 25 25 Interpretación y Elaboración del Perfil de los Clusteres A continuación, se detallan los resultados de aplicar el Análisis de Conglomerado Jerárquico Aglomerativo con el Método de Ward utilizando el paquete estadístico SPSS. Determinación del número de grupos El historial de aglomeración muestra las distancias de aglomeración y los grupos que se han ido formando al aplicar el algoritmo. El dendrograma que se expone en la página siguiente, proporciona dicha información de forma gráfica. Análisis Cluster - Alumna: Javiera Soledad Carmona López 26 26 Un primer examen del dendrograma indica que la diferencia entre los grupos es amplia, ya que la unión de los mismos se va realizando a niveles de la escala altos, siendo la unión final en el último valor posible, es decir, en el 25. El dendrograma, además, permite la identificación visual de la existencia de casos atípicos, donde un atípico sería una “rama” que no se unió hasta muy tarde. El departamento Capital como grupo unipersonal puede interpretarse como un componente estructural válido en la muestra, sin embargo, se opta por incluirlo dentro de un cluster junto a otros departamentos con los cuales comparte ciertas características (que más tarde se detallan). En cuanto a la decisión del número de conglomerados, en esta investigación se ha optado por elegir la cantidad de grupos según la claridad de las descripciones para cada uno y su aplicación práctica. Por tanto, se examina la solución de tres grupos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 27 27 Determinación del perfil de los grupos Una vez determinada la cantidad de clusters, se debe interpretar el perfil de cada uno de ellos. Las tablas con información referida a las cinco variables utilizadas y que permiten el análisis en esta etapa, se presentan a continuación. Análisis Cluster - Alumna: Javiera Soledad Carmona López 28 28 Junto con la tabla de valores extremos, la comparación de medias entre grupos permite elaborar el siguiente perfil de los conglomerados: El Grupo 1 está compuesto por 13 departamentos que muestran mayor PBG e Inversión Pública per cápita. Para las variables Inseguridad, Población y NBI este cluster presenta un nivel menor al promedio poblacional. El Grupo 2 incluye a 4 de los departamentos de mayor tamaño poblacional. Sin embargo, se caracteriza por mayor nivel de Inseguridad y menor nivel de Inversión Pública per cápita. El Grupo 3 queda definido por los 9 departamentos con mayor nivel de NBI y menor tamaño poblacional. No obstante, contiene a los departamentos con menor nivel de Inseguridad. En base a estos resultados, puede categorizarse a cada grupo en función de su condición socioeconómica en Alta, Media y Baja; así, el grupo 1 posee una condición Alta, el grupo 2 un nivel Medio y el grupo 3 una posición socioeconómica Baja. Por medio del ANOVA y utilizando la variable de “conglomerado de pertenencia” que resulta del análisis cluster se puede comprobar la existencia de diferencias significativas entre los grupos obtenidos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 29 29 El ANOVA permite indagar sobre la existencia de igualdad de medias entre los conglomerados. De la tabla se advierte que existen diferencias significativas en todas las variables con excepción de la variable Inversión. Esta variable no sería útil para clasificar pues los grupos definidos poseen el mismo nivel promedio de inversión. En un trabajo posterior que avance sobre la aplicación de esta técnica, se debería eliminar esta variable o construir un índice que muestre el desarrollo en Infraestructura para cada departamento. Análisis Cluster - Alumna: Javiera Soledad Carmona López 30 30 La tabla anterior contiene el estadístico de Levene, el cual permite contrastar la hipótesis de que las varianzas poblacionales son iguales. Puesto que el nivel crítico de las variables PBG, Inversión y NBI son mayores que 0,05 se acepta la hipótesis de igualdad de varianzas, mientras que para las variables Inseguridad y Población se concluye que en las poblaciones definidas por los tres grupos, las varianzas de las variables no son iguales. Este resultado es útil para encarar el análisis de los grupos por medio del siguiente contraste denominado Comparaciones Múltiples Post Hoc. El ANOVA Post Hoc permite averiguar qué grupos difieren entre sí en cada una de las variables. La primera columna de la tabla indica que los procedimientos post hoc seleccionados fueron: la diferencia honestamente significativa (HSD) de Tukey – asume varianzas iguales - y el método de Games-Howes – no asume varianzas iguales-. Para las variables PBG, Inversión y NBI se debe prestar atención a la solución propuesta por Tukey, mientras que, para las variables Inseguridad y Población la solución apropiada es la de Games-Howes. De la tabla surge que los promedios comparados para la variable PBG no difieren significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos tanto por la variable Inseguridad como por la variable NBI presentan promedios que no difieren significativamente entre sí. Por medio del ANOVA Post Hoc, se confirma nuevamente la irrelevancia de la variable Inversión pues los promedios comparados para cada grupo no difieren significativamente. Por último, la variable Población también presenta dificultades en la mayoría de las comparaciones entre las medias de los grupos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 31 31 Análisis Cluster - Alumna: Javiera Soledad Carmona López 32 32 Validación de Conglomerados Obtenidos Para confirmar la solución obtenida del análisis cluster, se ha aplicado un análisis factorial y análisis discriminante sobre la matriz de datos bajo estudio. Análisis Factorial A continuación se detalla el resultado del análisis factorial con la solución rotada mediante el método Equamax. Para cuantificar las distancias entre las variables se utiliza el coeficiente de correlación de Pearson y el método de extracción de factores es por medio de Componentes Principales. La tabla muestra como en el primer factor saturan las variables Inseguridad, Inversión, Población y NBI, mientras que, en el segundo factor satura, fundamentalmente, la variable PBG. El gráfico de Biplot muestra al grupo 1 más asociado a la variable PBG; el grupo 2 a la variable Población y el grupo 3 se encuentra más asociado a la variable NBI. Este resultado se correspondería con la solución hallada en el análisis cluster. Análisis Cluster - Alumna: Javiera Soledad Carmona López 33 33 Análisis Discriminante Utilizando como variable de clasificación el “conglomerado de pertenencia” resultante del análisis cluster se puede realizar un análisis discriminante para interpretar la diferencia entre los grupos. Análisis Cluster - Alumna: Javiera Soledad Carmona López 34 34 La figura muestra la distribución de las comunidades departamentales en el espacio definido por las dos funciones discriminantes. Los departamentos del grupo 1 obtienen puntuaciones medias en la primera función y puntuaciones bajas en la segunda. Los departamentos del grupo 2 alcanzan puntuaciones altas en las dos funciones discriminantes. Los departamentos del grupo 3 tienen puntuaciones bajas en la primera función y puntuaciones medias-altas en la segunda. La tabla muestra la matriz de los coeficientes estandarizados de las dos funciones discriminantes obtenidas. La primera función atribuye la mayor importancia a Inseguridad, Inversión y Población, mientras que la segunda función atribuye mayor importancia al PBG y al NBI. Se puede pensar que los departamentos del grupo 1 tienen niveles medios de Inseguridad, Inversión y Población, nivel bajo de NBI y un alto PBG. El grupo 2 está constituido por los departamentos más poblados, con niveles altos de Inseguridad, Inversión y NBI, como también niveles bajos de PBG. El grupo 3 está compuesto por departamentos con niveles bajos de Inseguridad, Inversión y Población, con nivel medio bajo de PBG y con nivel medio-alto de NBI. Este resultado es prácticamente semejante a las conclusiones del análisis cluster. Aunque estos resultados no coinciden absolutamente con el análisis cluster se puede deducir un perfil de los grupos muy próximo a la solución que provee esta técnica. Análisis Cluster - Alumna: Javiera Soledad Carmona López 35 35 7. Ejemplo Práctico R Se realizó un análisis de componentes principales a un conjunto de datos donde aparecían las características de técnicas de distintos coches, a partir de la matriz de correlaciones se vio que con una componente podíamos explicar el 88% de la varianza total del conjunto de datos. Pues ahora se procederá a realizar sobre el valor que toma esta componente para cada observación un análisis de agrupamiento. Primero de todo se debe crear el conjunto de datos sobre el que vamos a trabajar: > x y comp.obs comp.obs [,1] 1 -2110.7416 ... 30 -1218.8272 Tenemos un conjunto de datos con 30 observaciones y una variable. En todo análisis cluster existen dos fases; en una primera fase a partir de los datos se construye una matriz de distancias o similaridades y después se realiza el proceso de agrupación de individuos. Como paso previo es interesante realizar una representación gráfica de los datos para ver si se puede reconocer algún grupo: Análisis Cluster - Alumna: Javiera Soledad Carmona López 36 36 No parecen que se formen grupos diferenciados pero prosigamos para ver si podemos aplicar una regla de agrupamiento. Disponemos de dos técnicas de formación de cluster: técnicas jerárquicas aglo: merativas de formación de conglomerados y técnicas no jerárquicas. En este ejemplo se va a emplear la técnica jerárquica que consiste en considerar en primera instancia cada observación como un cluster y posteriormente agrupar las obsevarciones más "similares", las observaciones que menos disten las unas de las otras, por eso lo primero que debemos hacer es calcularnos una matriz de distancias entre pares de observaciones. En este punto se realiza un inciso para explicar un aspecto de R que no había comentado hasta ahora. Con R se puede hacer multitud de análisis estadísticos y además existe un grupo de programadores que colaboran con más paquetes y más programas. Para poder emplear estos paquetes es Análisis Cluster - Alumna: Javiera Soledad Carmona López 37 37 necesario tenerlos en una librería library que en mi caso está en: C:\Archivos de programa\R\rw1051\library En esta librería tengo todos los paquetes de los que puedo disponer, pero cuando tu abres una sesión de R es necesario que carges el paquete que vas a emplear. Para hacer esto está la función library(nombre_librería) o bien abrimos el menú Packages de R y seleccionamos el paquete que queremos utilizar. Os he contado esto porque para realizar el análisis cluster necesitamos cargar en paquete mva: > library(mva) Ya estamos en disposición de poder empezar a realizar los cálculos pertinentes para nuestro análisis. Como hemos dicho antes lo primero es calcular la matriz de distancias y para ello tenemos la función dist: > matriz.distancias Análisis Cluster - Alumna: Javiera Soledad Carmona López 38 38 Cluster completo method="complete" Cluster promedio method="centroid" También se tiene el método Ward que es una técnica inferencial de formación de conglomerados que se basa en la minimización de la suma de cuadrados dentro de los cluster que se pueden formar. Por defecto el método que tiene hclust en "complete". A continuación se muestra cómo funciona hclust: > clusterI summary(clusterI) Length Class Mode merge 58 -none- numeric height 29 -none- numeric order 30 -none- numeric labels 30 -none- character method 1 -none- character call 2 -none- call dist.method 1 -none- character Se ha creado un objeto clusterI que contiene 7 variables a partir de las cuales realizaremos el análisis. R nos ha hecho las tareas de cálculo pero ahora somos nosotros los que tenemos que continuar determinando cuantos grupos se deben tomar y como analizar los grupos creados. Comenzamos "atacando" el Análisis Cluster - Alumna: Javiera Soledad Carmona López 39 39 objeto clusterI creado viendo la variable merge. Esta variable merge indica como se han ido formando los cluster: > attach(clusterI) > merge [,1] [,2] [1,] -3 -23 #se unen la obs 3 y la obs 23 que forman el cluster '1' [2,] -13 -19 #se unen las 13 y 19 formando el '2' [3,] -1 -4 #la 1 y la 4 [4,] -26 3 #la 26 con el cluster 3 (observaciones 1 y 4) formando el '4' [5,] 1 2 #el cluster 1 y 2 formando de este modo el cluster '5' ... [27,] 24 25 #se unen el cluster 24 y 25 [28,] 20 26 #el 20 y el 26 [29,] 27 28 #el 27 y el 28 Esto ofrece una idea de la forma en la que se van uniendo, pero no se puede establecer una regla de unión entre observaciones, sería más útil ordenar el conjunto de datos de menor a mayor de forma que se pudiera hacer una regla de unión entre observaciones (recordar: que cuanto menor es el valor de la componente más potente y más grande es el coche) y de este modo se podría ver intuitivamente la forma que tienen de unirse los datos. Para ordenar los datos empleamos la función sort: > ordenado dist.ordenado clusterII attach(clusterII) > merge [,1] [,2] [1,] -13 -14 [2,] -11 -12 [3,] -7 -8 #los gama media [4,] -9 3 #enseguida se unen [5,] 1 2 [6,] -22 -23 #los más simples [7,] -16 -17 #se van uniendo [8,] -10 5 [9,] -24 -25 [10,] -27 -28 [11,] -19 -20 [12,] -6 4 [13,] -29 -30 [14,] -15 Parece que los coches de gama media se unen enseguida, insistimos en que la componente principal ofrecía una medida de la potencia-prestaciones- Análisis Cluster - Alumna: Javiera Soledad Carmona López 40 40 tamaño de los coches, cuanto menor era la componente más potente, más rápido y más grande era el coche. Pues como se decía los gama media se unen con facilidad, también ocurre esto con los coches más pequeños que son los siguientes en agruparse, por último son los coches "buenos" los que se van agrupando. Poco a poco los gama media se acercan a los coches buenos dejando de lado a las observaciones superiores a la 20ª como se puede ver en los pasos [18] con observaciones 24,25,26; [23] con observaciones 27,28,29,30 y [24] cuyas observaciones son 22,23,18,21,19,20 posteriormente en [25] y [27] se unen. Determinar el número de cluster con esta variable merge es bastante complicado por eso no puede servir mejor para analizar como se van creando los grupos. ¿Cómo determinar el número de cluster? En mi opinión la mejor manera es el análisis gráfico, el dendograma que es un gráfico de formación de cluster, para hacerlo se emplea la función plot.hclust(clusterII): Análisis Cluster - Alumna: Javiera Soledad Carmona López 41 41 Este dendograma se puede admitir dos cortes que se exponen de manera gráfica para que se entienda mejor, los cortes se han realizado con el paint de Windows: Análisis Cluster - Alumna: Javiera Soledad Carmona López 42 42 Estas son las 2 opciones que se plantean: en la primera opción se puede por un lado formar dos grupos donde tendríamos los coches medianos-grandes donde las observaciones 1, 2 y 3 parece que les cuesta unirse (son coches muy potentes y grandes) y donde las observaciones de 4 a la 16 son muy parecidos; y por el otro lado tenemos los coches utilitarios (observaciones de la 18 a la 30) que si se pueden considerar bastante parecidos entre sí aunque los hay un poco mejores. La segunda opción sería el hacer los cuatro grupos donde el grupo I encuadraría a los coches "menos malos" el grupo II a lo "malos", el grupo III a los "mejores" y el grupo IV a los "buenos". Este es el análisis mediante el método completo, veamos el dendograma para el método promedio: > clusterIII plot.hclust(clusterIII) Análisis Cluster - Alumna: Javiera Soledad Carmona López 43 43 A la vista de este gráfico también se pueden hacer tres grupos, además por este método se distinguen muy claramente las tres primeras observaciones como los mejores coches quedando más unidos los coches "menos malos" con los "buenos" con lo que se podía establecer un grupo que podían ser los utilitarios dentro de los cuales los hay mejores y peores. Análisis Cluster - Alumna: Javiera Soledad Carmona López 44 44 8. Conclusiones Durante el desarrollo del informe se pudo apreciar que el análisis cluster puede ser muy útil como técnica de reducción de datos. Pero dado que su aplicación es más un arte que una ciencia, se puede abusar fácilmente o aplicar mal por parte de los investigadores. Diferentes algoritmos y medidas entre objetos pueden afectar a los resultados existentes. La selección del conglomerado de la solución final se basa en la mayoría de los casos tanto en consideraciones objetivas como subjetivas. El investigador prudente, por lo tanto considera estos temas y siempre evalúa el impacto de todas las decisiones. El análisis cluster, junto con el análisis multidimensional, debido a su falta de base estadística para inferir de la población, tiene una mayor necesidad de aplicarse varias veces bajo condiciones cambiantes. Si el investigador procede con cautela, sin embargo, el análisis cluster puede ser un instrumento valioso en la identificación de pautas latentes mediante la sugerencia de agrupaciones (conglomerados) de objetos que no son dicernibles mediante otras técnicas multivariantes. Análisis Cluster - Alumna: Javiera Soledad Carmona López 45 45 9. Bibliografía Curso de R “Capítulo 10”. Consulta: 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R10.html. Curso de R. Consulta 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R11.html. Hair, Anderson Tatham & Black, 2008. Análisis multivariante, 5ta edición, pp. 491-532. Mariel, P. Análisis cluster: una aplicación a los Departamentos de la provincia de Córdoba. Perea, J. Análisis multivariante para investigación en sistemas Agropecuarios. Curso de Postgrado en Herramientas Estadísticas Avanzadas. Pérez López C., Santín González D. “Minería de Datos: Técnicas y Herramientas”. Thomson Paraninfo S. A. España. 2007. ISBN 978-84-9732-492-2. Vicente, J.Introducción al Análisis de Cluster. Universidad de Salamanca. Departamento de Estadística, pp 1-22.