Enfoque basado en distancias de algunos métodos estadísticos multivariantes

1) Introducción<br/><br/>Una de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas.<b...

Descripción completa

Detalles Bibliográficos
Autor: Fortiana Gregori, Josep
Tipo de recurso: tesis doctoral
Estado:Versión publicada
Fecha de publicación:1992
País:España
Institución:CBUC, CESCA
Repositorio:TDR. Tesis Doctorales en Red
OAI Identifier:oai:www.tdx.cat:10803/1563
Acceso en línea:http://www.tdx.cat/TDX-1028109-114440
http://hdl.handle.net/10803/1563
Access Level:acceso abierto
Palabra clave:Representacions euclidees
Mètodes de predicció
Geometria Mètica
Anàlisi multivariant
Ciències Experimentals i Matemàtiques
51
id ES_f384b3cdbdf7fdd2e3aa28bfe4c43764
oai_identifier_str oai:www.tdx.cat:10803/1563
network_acronym_str ES
network_name_str España
repository_id_str
dc.title.none.fl_str_mv Enfoque basado en distancias de algunos métodos estadísticos multivariantes
title Enfoque basado en distancias de algunos métodos estadísticos multivariantes
spellingShingle Enfoque basado en distancias de algunos métodos estadísticos multivariantes
Fortiana Gregori, Josep
Representacions euclidees
Mètodes de predicció
Geometria Mètica
Anàlisi multivariant
Ciències Experimentals i Matemàtiques
51
title_short Enfoque basado en distancias de algunos métodos estadísticos multivariantes
title_full Enfoque basado en distancias de algunos métodos estadísticos multivariantes
title_fullStr Enfoque basado en distancias de algunos métodos estadísticos multivariantes
title_full_unstemmed Enfoque basado en distancias de algunos métodos estadísticos multivariantes
title_sort Enfoque basado en distancias de algunos métodos estadísticos multivariantes
dc.creator.none.fl_str_mv Fortiana Gregori, Josep
author Fortiana Gregori, Josep
author_facet Fortiana Gregori, Josep
author_role author
dc.contributor.none.fl_str_mv Cuadras, C. M. (Carlos María)
Universitat de Barcelona. Departament d'Estadística
dc.subject.none.fl_str_mv Representacions euclidees
Mètodes de predicció
Geometria Mètica
Anàlisi multivariant
Ciències Experimentals i Matemàtiques
51
topic Representacions euclidees
Mètodes de predicció
Geometria Mètica
Anàlisi multivariant
Ciències Experimentals i Matemàtiques
51
description 1) Introducción<br/><br/>Una de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas.<br/><br/>Los Métodos de Regresión y Discriminación basados en Distancias, propuestos por Cuadras, proporcionan predicciones estadísticas aplicando propiedades geométricas de una representación euclídea. Tienen la ventaja de permitir el tratamiento de Variables continuas, cualitativas de tipo nominal y ordinal, binarias y, en general, cualquier mixtura de estas variables.<br/><br/>Esta memoria es una contribución al estudio de estos métodos de predicción basados en distancias. En lo sucesivo emplearemos la abreviatura "DB" para referirnos él estos métodos.<br/><br/>2) Fundamento teórico de la predicción DB<br/><br/>Supongamos que se ha medido una variable respuesta "Y" sobre un conjunto "U" de "n" objetos, definidos por unas coordenadas "Z", y se desea predecir el valor Y(n+l) de esta variable para un nuevo objeto "omega" definido por las coordenadas "Epsilon"(n+1). <br/><br/>Aplicando una función distancia adecuada se obtiene una matriz "delta" de distancias entre los objetos "U", y de ella las coordenadas "X" de los "U" en cierto espacio euclídeo RP. Existe una expresión para las coordenadas euclídeas X(n+l) de "omega".<br/><br/>Si "Y" es continua (regresión DB), la predicción Y(n+l) se obtiene calculando regresión lineal sobre las variables "X" y aplicando a X(n+1) la ecuación de regresión obtenida. Si "Y" es discreta, con estados que equivalen a sub-poblaciones de "U" (discriminación DB), se asigna "omega" a aquella subpoblación para la cual es mínima la distancia euclídea entre su centro de gravedad y X(n+l). Conviene observar que en la práctica no se emplean en general estas construcciones teóricas, sino cálculos equivalentes.<br/><br/>3) La distancia Valor Absoluto<br/><br/>La elección de la función distancia es crítica para estos métodos. Para cada problema concreto se puede elegir una medida de distancia que refleje el conocimiento del modelo.<br/><br/>Existen, sin embargo, algunas medidas de distancia "standard", adecuadas a gran número de problemas. Un caso notable es el de la distancia Valor Absoluto, cuya fórmula se aborda en esta tesis. Se ha observado que da lugar a predicciones excelentes, comparables a las de una regresión no lineal. Uno de los objetivos de este trabajo ha sido precisamente dar una justificación teórica a este buen comportamiento.<br/><br/>En el teorema (2.2.1) se muestra que para todo conjunto "U" de puntos en R(n) existe una configuración de puntos en un espacio euclídeo R(P) que reproduce la matriz ele distancias valor absoluto entre los "U".<br/><br/>Seguidamente se realiza el estudio teórico de la estructura de coordenadas principales asociada a esta distancia para "n" puntos sobre la recta real (al ser no bilineal la función distancia, en general "n-1" coordenadas son no triviales).<br/><br/>El caso de puntos equidistantes se resuelve analíticamente, partiendo de una configuración euclídea inicial X(o) (convencional, con el único requerimiento de reproducir las distancias valor absoluto entre los puntos dados), y a partir de ella se obtienen las componentes principales. Las coordenadas principales resultan aplicando a la matriz X(o) la rotación resultante. Este método indirecto es más accesible que el usual para la obtención de Coordenadas Principales.<br/><br/>En el teorema (2.4.1) se expresan los elementos de la columna "j" de la matriz de coordenadas principales como los valores de una función polinómica de grado "j" en unos puntos "z(i)" fijos.<br/><br/>Este teorema se deduce del estudio de una familia paramétrica de matrices cuyo problema de valores y vectores propios se resuelve mediante una ecuación en diferencias. La fórmula de recurrencia se identifica como la de los polinomios de Chehychev. Empleando propiedades de estos polinomios se llega a expresiones explícitas.<br/><br/>Estas matrices tienen notables propiedades combinatorias. En particular el teorema (3.3.1) muestra que todos sus vectores propios se obtienen aplicando a1 primero de ellos potencias de una matriz de permutación con signo.<br/><br/>Si se dispone de un modelo paramétrico y de una distancia entre individuos estadísticos aplicable a dicho modelo, se puede emplear la versión para variables aleatorias de las funciones discriminantes. La distancia entre individuos más adecuada es la deducida de la Geometría Riemanniana de la variedad de parámetros, que tiene por tensor métrico la "Métrica de Rao".<br/><br/>Se han calculado las funciones discriminantes DB para variables aleatorias que siguen algunas distribuciones conocidas. En particular, de la proposición (5.4.2), para variables multinomiales las funciones discriminantes DB coinciden con el tradicional estadístico Ji cuadrado, y de la (5.4.5), para variables normales con matriz de covarianzas común conocida, las funciones discriminantes DB coinciden con las clásicas (lineales) de Fisher.<br/><br/>4)Representación de Poblaciones<br/><br/>Se propone una distancia entre poblaciones, obtenida como diferencia de Jensen a partir de promedios sobre las distancias entre los individuos. El teorema (5.5.1) permite interpretarla como distancia euclídea entre los centros de gravedad de los puntos que representan los individuos de cada población.<br/><br/>Se demuestra que generaliza la de Mahalanobis, pues coincide con ella en poblaciones normales, si se emplea como distancia entre individuos la deducida de la Geometría Diferencial.<br/><br/>Calculando esta distancia para todos los pares de sub-poblaciones se obtiene una matriz, a la que se aplica Multidimensional Scaling, dando lugar a un representación euclídea que generaliza el Análisis Canónico de Poblaciones clásico, es decir, para poblaciones normales se obtienen los mismos resultados que con dicho análisis. Este método no proporciona regiones de confianza para los valores medios de las poblaciones. Se sugiere el empleo de "bootstrap" para dicho cálculo.<br/><br/>5)Aspectos computacionales<br/><br/>Se discuten algunos puntos relevantes de la implementación realizada de los algoritmos DB en los programas MULTICUA ®, así como de la estimación "bootstrap" de la distribución de probabilidad de las distancias entre poblaciones, con especial énfasis en las dificultades debidas a las grandes dimensiones de los objetos tratados.<br/><br/>6)Puntos arbitrarios sobre una recta<br/><br/>En este caso se llega a una descripción cualitativa de las coordenadas principales, que permite todavía describir la primera coordenada como una dimensión lineal, la segunda como una dimensión cuadrática, la tercera como una dimensión cúbica, etc.<br/><br/>La proposición (4.1.1) reduce el problema al estudio de los cambios de signo de las componentes de los vectores propios de una matriz "C". En (4.1.2) se muestra que "C" es oscilatoria, propiedad equivalente a la de tener todos los menores no negativos. Un teorema de Gantmacher sobre matrices oscilatorias da la descripción de los signos.<br/><br/>7)Coordenadas principales de una variable aleatoria uniforme<br/><br/>La técnica empleada para obtener las coordenadas principales de un conjunto unidimensional discreto de puntos da lugar a una generalización aplicable a una distribución continua uniforme en el intervalo (0,1). La "configuración euclídea" de partida es un proceso estocástico con parámetro continuo. El cálculo de componentes principales se sustituye por el cálculo de las funciones propias de la función de covarianza del proceso, y de ellas una sucesión (numerable) de variables aleatorias centradas C(j).<br/><br/>En (4.2.1) se muestra que estas variables son incorrelacionadas, igualmente distribuidas, y con una sucesión de varianzas sumable, de suma igual a la "variabilidad total" del proceso (traza del núcleo), y por ello el apropiado llamarlas "coordenadas principales de la variable aleatoria uniforme".<br/><br/>Aplicando a este modelo de coordenadas principales el esquema de predicción DB se propone una medida de bondad de ajuste de una muestra a una distribución dada.<br/><br/>8)Análisis discriminante DB<br/><br/>Las funciones discriminantes DB descritas más arriba pueden obtenerse directamente de los elementos de la matriz de distancias, sin precisar ninguna diagonalización, según resulta de (5.2.1) y (5.2.2). En consecuencia, el cálculo es rápido y efectivo.
publishDate 1992
dc.date.none.fl_str_mv 1992
2009
2009
2011
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
format doctoralThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://www.tdx.cat/TDX-1028109-114440
http://hdl.handle.net/10803/1563
url http://www.tdx.cat/TDX-1028109-114440
http://hdl.handle.net/10803/1563
dc.language.none.fl_str_mv Español
language_invalid_str_mv Español
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universitat de Barcelona
publisher.none.fl_str_mv Universitat de Barcelona
dc.source.none.fl_str_mv TDX (Tesis Doctorals en Xarxa)
reponame:TDR. Tesis Doctorales en Red
instname:CBUC, CESCA
instname_str CBUC, CESCA
reponame_str TDR. Tesis Doctorales en Red
collection TDR. Tesis Doctorales en Red
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1869424384904527872
spelling Enfoque basado en distancias de algunos métodos estadísticos multivariantesFortiana Gregori, JosepRepresentacions euclideesMètodes de prediccióGeometria MèticaAnàlisi multivariantCiències Experimentals i Matemàtiques511) Introducción<br/><br/>Una de las aplicaciones estadísticas de la Geometría Métrica es la representación de conjuntos, consistente en determinar puntos en un espacio de métrica conocida (frecuentemente euclídea) cuyas distancias reproduzcan exacta o aproximadamente las observadas.<br/><br/>Los Métodos de Regresión y Discriminación basados en Distancias, propuestos por Cuadras, proporcionan predicciones estadísticas aplicando propiedades geométricas de una representación euclídea. Tienen la ventaja de permitir el tratamiento de Variables continuas, cualitativas de tipo nominal y ordinal, binarias y, en general, cualquier mixtura de estas variables.<br/><br/>Esta memoria es una contribución al estudio de estos métodos de predicción basados en distancias. En lo sucesivo emplearemos la abreviatura "DB" para referirnos él estos métodos.<br/><br/>2) Fundamento teórico de la predicción DB<br/><br/>Supongamos que se ha medido una variable respuesta "Y" sobre un conjunto "U" de "n" objetos, definidos por unas coordenadas "Z", y se desea predecir el valor Y(n+l) de esta variable para un nuevo objeto "omega" definido por las coordenadas "Epsilon"(n+1). <br/><br/>Aplicando una función distancia adecuada se obtiene una matriz "delta" de distancias entre los objetos "U", y de ella las coordenadas "X" de los "U" en cierto espacio euclídeo RP. Existe una expresión para las coordenadas euclídeas X(n+l) de "omega".<br/><br/>Si "Y" es continua (regresión DB), la predicción Y(n+l) se obtiene calculando regresión lineal sobre las variables "X" y aplicando a X(n+1) la ecuación de regresión obtenida. Si "Y" es discreta, con estados que equivalen a sub-poblaciones de "U" (discriminación DB), se asigna "omega" a aquella subpoblación para la cual es mínima la distancia euclídea entre su centro de gravedad y X(n+l). Conviene observar que en la práctica no se emplean en general estas construcciones teóricas, sino cálculos equivalentes.<br/><br/>3) La distancia Valor Absoluto<br/><br/>La elección de la función distancia es crítica para estos métodos. Para cada problema concreto se puede elegir una medida de distancia que refleje el conocimiento del modelo.<br/><br/>Existen, sin embargo, algunas medidas de distancia "standard", adecuadas a gran número de problemas. Un caso notable es el de la distancia Valor Absoluto, cuya fórmula se aborda en esta tesis. Se ha observado que da lugar a predicciones excelentes, comparables a las de una regresión no lineal. Uno de los objetivos de este trabajo ha sido precisamente dar una justificación teórica a este buen comportamiento.<br/><br/>En el teorema (2.2.1) se muestra que para todo conjunto "U" de puntos en R(n) existe una configuración de puntos en un espacio euclídeo R(P) que reproduce la matriz ele distancias valor absoluto entre los "U".<br/><br/>Seguidamente se realiza el estudio teórico de la estructura de coordenadas principales asociada a esta distancia para "n" puntos sobre la recta real (al ser no bilineal la función distancia, en general "n-1" coordenadas son no triviales).<br/><br/>El caso de puntos equidistantes se resuelve analíticamente, partiendo de una configuración euclídea inicial X(o) (convencional, con el único requerimiento de reproducir las distancias valor absoluto entre los puntos dados), y a partir de ella se obtienen las componentes principales. Las coordenadas principales resultan aplicando a la matriz X(o) la rotación resultante. Este método indirecto es más accesible que el usual para la obtención de Coordenadas Principales.<br/><br/>En el teorema (2.4.1) se expresan los elementos de la columna "j" de la matriz de coordenadas principales como los valores de una función polinómica de grado "j" en unos puntos "z(i)" fijos.<br/><br/>Este teorema se deduce del estudio de una familia paramétrica de matrices cuyo problema de valores y vectores propios se resuelve mediante una ecuación en diferencias. La fórmula de recurrencia se identifica como la de los polinomios de Chehychev. Empleando propiedades de estos polinomios se llega a expresiones explícitas.<br/><br/>Estas matrices tienen notables propiedades combinatorias. En particular el teorema (3.3.1) muestra que todos sus vectores propios se obtienen aplicando a1 primero de ellos potencias de una matriz de permutación con signo.<br/><br/>Si se dispone de un modelo paramétrico y de una distancia entre individuos estadísticos aplicable a dicho modelo, se puede emplear la versión para variables aleatorias de las funciones discriminantes. La distancia entre individuos más adecuada es la deducida de la Geometría Riemanniana de la variedad de parámetros, que tiene por tensor métrico la "Métrica de Rao".<br/><br/>Se han calculado las funciones discriminantes DB para variables aleatorias que siguen algunas distribuciones conocidas. En particular, de la proposición (5.4.2), para variables multinomiales las funciones discriminantes DB coinciden con el tradicional estadístico Ji cuadrado, y de la (5.4.5), para variables normales con matriz de covarianzas común conocida, las funciones discriminantes DB coinciden con las clásicas (lineales) de Fisher.<br/><br/>4)Representación de Poblaciones<br/><br/>Se propone una distancia entre poblaciones, obtenida como diferencia de Jensen a partir de promedios sobre las distancias entre los individuos. El teorema (5.5.1) permite interpretarla como distancia euclídea entre los centros de gravedad de los puntos que representan los individuos de cada población.<br/><br/>Se demuestra que generaliza la de Mahalanobis, pues coincide con ella en poblaciones normales, si se emplea como distancia entre individuos la deducida de la Geometría Diferencial.<br/><br/>Calculando esta distancia para todos los pares de sub-poblaciones se obtiene una matriz, a la que se aplica Multidimensional Scaling, dando lugar a un representación euclídea que generaliza el Análisis Canónico de Poblaciones clásico, es decir, para poblaciones normales se obtienen los mismos resultados que con dicho análisis. Este método no proporciona regiones de confianza para los valores medios de las poblaciones. Se sugiere el empleo de "bootstrap" para dicho cálculo.<br/><br/>5)Aspectos computacionales<br/><br/>Se discuten algunos puntos relevantes de la implementación realizada de los algoritmos DB en los programas MULTICUA ®, así como de la estimación "bootstrap" de la distribución de probabilidad de las distancias entre poblaciones, con especial énfasis en las dificultades debidas a las grandes dimensiones de los objetos tratados.<br/><br/>6)Puntos arbitrarios sobre una recta<br/><br/>En este caso se llega a una descripción cualitativa de las coordenadas principales, que permite todavía describir la primera coordenada como una dimensión lineal, la segunda como una dimensión cuadrática, la tercera como una dimensión cúbica, etc.<br/><br/>La proposición (4.1.1) reduce el problema al estudio de los cambios de signo de las componentes de los vectores propios de una matriz "C". En (4.1.2) se muestra que "C" es oscilatoria, propiedad equivalente a la de tener todos los menores no negativos. Un teorema de Gantmacher sobre matrices oscilatorias da la descripción de los signos.<br/><br/>7)Coordenadas principales de una variable aleatoria uniforme<br/><br/>La técnica empleada para obtener las coordenadas principales de un conjunto unidimensional discreto de puntos da lugar a una generalización aplicable a una distribución continua uniforme en el intervalo (0,1). La "configuración euclídea" de partida es un proceso estocástico con parámetro continuo. El cálculo de componentes principales se sustituye por el cálculo de las funciones propias de la función de covarianza del proceso, y de ellas una sucesión (numerable) de variables aleatorias centradas C(j).<br/><br/>En (4.2.1) se muestra que estas variables son incorrelacionadas, igualmente distribuidas, y con una sucesión de varianzas sumable, de suma igual a la "variabilidad total" del proceso (traza del núcleo), y por ello el apropiado llamarlas "coordenadas principales de la variable aleatoria uniforme".<br/><br/>Aplicando a este modelo de coordenadas principales el esquema de predicción DB se propone una medida de bondad de ajuste de una muestra a una distribución dada.<br/><br/>8)Análisis discriminante DB<br/><br/>Las funciones discriminantes DB descritas más arriba pueden obtenerse directamente de los elementos de la matriz de distancias, sin precisar ninguna diagonalización, según resulta de (5.2.1) y (5.2.2). En consecuencia, el cálculo es rápido y efectivo.<i>Distance Based (DB) Regression and Discrimination methods, proposed by Cuadras, give statistical predictions by exploiting geometrical properties of a Euclidean representation obtained from distances between observations. They are adequate to deal with mixed variables.<br/><br/>Choice of a suitable distance function is a critical step. Some "standard" functions, however, fit a wide range of problems, and particularly the Absolute Value distance. <br/><br/>This is explained showing that for "n" equidistant points on the real line, elements in the "j"-th row of the principal coordinate matrix are values of a "j"-th degree polynomial function. For arbitrary one-dimensional sets of points a qualitatively analogous result holds.<br/><br/>Using results from the theory of random processes, a sequence of random variables is obtained from a continuous uniform distribution on the (0, 1) interval. Their properties show that they deserve the name of "Principal Coordinates". The DB prediction scheme in this case provides a goodness-of-fit measuring technique.<br/><br/>DB discriminant functions are evaluated from distances between observations. They have a simple geometrical interpretation in the Euclidean representation of data. <br/><br/>For parametric models, distances can be derived from the Differential Geometry of the parametric manifold. Several DB discriminant functions are computed using this approach. In particular, for multinomial variables they coincide with the classic Pearson's Chi Square statistic, and for Normal variables, Fisher's linear discriminant function is obtained.<br/><br/>A distance between populations generalizing Mahalanobis' is obtained as a Jensen difference from distances between observations. It can be interpreted in terms of the Euclidean representation. Using Multidimensional Scaling, it originates a Euclidean representation of populations which generalizes the classical Canonical Analysis.<br/><br/>Several issues concerning implementation of DB algorithms are discussed, specially difficulties related to the huge dimension of objects involved.</i>Universitat de BarcelonaCuadras, C. M. (Carlos María)Universitat de Barcelona. Departament d'Estadística2011200919922009info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfapplication/pdfhttp://www.tdx.cat/TDX-1028109-114440http://hdl.handle.net/10803/1563TDX (Tesis Doctorals en Xarxa)reponame:TDR. Tesis Doctorales en Redinstname:CBUC, CESCAEspañolADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.info:eu-repo/semantics/openAccessoai:www.tdx.cat:10803/15632026-06-14T12:46:07Z
score 15,300724