AgronomJa colombiana. 1995, Volumen XII No.1;p;ig 66-71 METonos ESTAOISTICOS MULTIVARIADOS EN BIOLOGIA MOLECULAR Y SU APLICACION EN INVESTIGACI6N AGRiCOLA Orlando Martinez Wilches 1 RESUMEN Los metodos estadisticos como elementos de apo- yo en la investigaci6n agricola son fundamentales, puesto que cuantifican y cualifican objetivamente los resultados de la investigaci6n. Estos metodos y procedimientos estadisticos, varian segun la natu- raleza y estructura del resultado experimental. Asi, si las ciencias biol6gicas ba.sicas proponen e inno- van procedimientos y tecnicas que describan la va- riabllidad de poblaciones agron6micas, entonces es necesario proveer de herramientas estadisticas a las nuevas propuestas experimentales. En el caso de la Agronomia, la biologia molecular y las disciplinas afines han presentado reciente- mente los metodos de isoenzimas, RFLPS y RAPDS para detenninar la variabilidad, composi- ci6n y estructura genetica de individuos. poblacio- nes naturales y experimentales. Como tecnicas es- tadisticas para experimentos agron6micos que usan isoenzimas. RFLPS y RAPDS como marca- dores geneticos se analiza y discute el uso de las distancias geneticas, indices de Similitud dendo- gramas y escalas multidimensionales. MlILTIVARIAT~STATISTICAL METHODS IN MOLECULAR BIOLOGY: AND THEIR USE IN AGRONOMIC RESEARCH SUMMARY Statistical methods as support elements in the agronomic research are basic. The importance rely on their objetive capacity of quantify and qualify the results of the investigations. Statistical methods to be applyed vary according to the structure and na- ture of the experimental result. Hence, if the basic biological sciences propose or introduce methods and techniques that describe the variability of agro- nomic populations, it is necessary to provide of sta- Prolesor titular. Facullad de Agronomia, Universidad Nacional de Colombia. Sanlafe de Bogota. Colombia. 66 tistical tool to the new experimental biologicaJ pro- positions. In agronomic research, the molecular biology and siml1ar disciplines have proposed the isoenzymes, RFLP'S and the RAPDS to evaluate the variability, composition and genetic structure of natural and domesticated populations. In this review, it is discussed and described the use of genetic distances, coefficients of similarity, den- dograms and multidimensional scaling as statisti- cal techniques in agronomic experiments which use isoenzymes RFLP'S and RAPDS as genetic markers. INTRODUCCION McCalla (1994) senala cuatro graodes tendencias de la agricultura en los ultimos anos, asi: La inter~ dependencia global e Integral de los paises por el mercado de bienes y seNicios: el desarrollo acele- rado de las comunicaciones y la informaci6n tecno- 16gica en la agricultura, tanto a nivel de productor, como en las negociaciones de las multinacionales; el consenso mundial y la preocupaci6n de los pai- ses por la ecologia y el ambiente donde los recur- 50S naturales disponibles ya son finitos; y finalmen- te, la revolucl6n de la blologla molecular y su acelerado desarrollo en los ultimos 20-30 anos. Esta disciplina y olras atines a ella, han ampliado el conocimiento de la genetica, la evolucion y el funcionamiento de los organismos biol6gicos. Ini- cialmente. se preveia que. mediantes estas t~cni­ cas biotecnol6gicas, se obtendria una rapida trans- formaci6n de la agricultura. Sin embargo, tales observaciones estaban sobre- estimadas y se con~ sidera que nos eneontramos en los primaros esta- dos del impaclo y aplicaei6n que estas teenologias puedan causar en el desarrollo y la productividad agricola de los paises. Los pr6ximos anos se preve serlin promisorios y exitosos. TECNICAS ESTAOfsTICAS MOLECULARES: Los metodos y procedimientos estadlsticos dispo- nibles para el analisis de los resultados proven;en- tes de ensayos biotecnol6gicos se pueden agrupar en las siguientes categorias: 1. Aquallos que tianan como prop6sito avaluar la variabilidad, clasificaci6n, estructura y eompo- slci6n genetica de las poblaciones. 2. los dasarrollados para la conslrucci6n de ma- pas cromos6micos 0 gen6micos, cuando se utilizan marcadores genetieos molecutares, y 3. lo denominados QLT (Quantitative trait loci), los cuales son loci asociadas can caracteres cuantitativos de importaneia econ6mica, como el rendimiento y que proveen al fitomejorador de una herramienta molecular agil, precisa y oportuna de selecci6n indirecta por los carac- teres cuantitativos de interes envueltos en el programa de fitomejoramiento. Este escrito solo se ocupa de los primeros, es de- cir, de aquellos que, en general, describen la varia- bilidad genetica de las poblaciones. En particular, su uso sa enfatiza en poblaciones, que. convencio- nalmente, se reconocen como ·recursos geneticos naturales·, las cuales son indispensables, como su nombrelo indica, para et desarrollo y progreso fu- turo d.e la agricultura. . MARCADORES GENETICOS Las variables, los caracteres 0 parametros, que se han utilizado para observar y detectar la variabili- dad presenle en los seres vivos, son numerosas. Los marcadores geneticos son una clase de estos y, con ellos, se espera que reflejen la variabilidad debida principatmenle a los genes. Los marcadores morfol6gicos - cuantitativos se consideran como el resultado de los efeclas com- binados de muchos genes y el ambiente. par ejem- plo altura de planta. numero de petalos, longitud de la mazorca. Para su evatuaci6n. se requiere de una medida, conteo 0 calificaci6n. los marcadores bioquimicos estan eonstituidos par las isoenzimas y las proteinas. Mediante la tee- nica de la electroforesis en gel, se hace posible el estudio de la variaci6n de las proteinas y enzimas en organismos vivos,'asi: Las muestras de tejidos S9 homogenizan (muelen) para Iiberar las enzimas y proteinas de las c6lulas. EI sobrenadante del ho- mogenizado (parte liquida), sa coloca en un gel de almid6n, agar, poliacrilamida 0 alguna sustancia gelatinosa. EI gel se somete, durante horas, a co- rriente electrica continua y cada proteina del gel migra en una direcci6n y velocidad, la cual depen- de de la carga electrica neta de la proteina y del tamano molecular. Despues, el gel se trata con una soluci6n quimica con un sustrato especifico para la enzima en estudio y una sal que produce una man- eha (banda) coloreada, que refleja la migraci6n de la enzima. La utilidad del metodo radica en el he- cho de que el genotipo del locus genetico que co- difiea la enzima puede ser inferido a partir del nu- mera y posiciones de las bandas observadas· en los geles (Ayala y Kiger. 1984). Los marcadores moleculares de mayor usc en La de- tecci6n de la variabilidad genetica, 10 constituyen los RFLPS y los RAPDS. Los RFLPS son una c1ase de enzimas. lIamadas enzimas de restricci6n. Son nu- cleasas producidas por diferentes microorganismos y tienen la capacidad de reconocer ciertos 5itios (si- tios de restricci6n) constituldos por secuencias de bases especificas en el ADN. Si una secuencia es· peciflca de bases eslS presente en el sitio de restric· ci6n, la enzima de restricci6n corta el ADN en ese silio. Par 10 tanto, una cadena Iarga de ADN sa pue- de reduci r a una serle de fragmentos de tamano finite segun el corte de la enzima de restricci6n. EI numera de fragmentos producidos y el tamana de cada lrag- menlo refleja los sitios de restricc16n en la cadena del DNA. Los fragmentos de restricci6n producidos por el corte de la endonucleasa (por ejemplo Hind III) de un lejido se someten al proceso de electroforesis en agar; los fragmentos migran con la presencia de Ia corriente ehktrica y la velocidad de migraci6n depen· de del peso molecular de cada fragmento. Posterior- mente, el gel se colorea con bromuro de etidio y el patron de migraci6n de los fragmentos se obselVa direclamenle mediante manchas coloreadas de una manera similar a las isoenzimas y proteinas (Kochet, 1994). Los marcadores moleculares, conocidos como RAPDS 0 Ap·PCR, tienen como base la reacci6n en cadena de la polimerasa (una enzima, que. bajo ciertas circunstancias, produce replicas de cade- nas seneillas de AON). los RAPOS (segmentos, amplificados, aleatorios de ADN) es una t~cnica para estudiar la variabilidad genetica, la cual per- mite la detecci6n de secuencias polim6rficas de ADN, utilizando cebadares (Primers) sencillos con secuencias arbilrarias de oligonucleotidos. Las se- cuencias se amplifiean 0 sa generan can la infor- maci6n ADN del tejido de la especie en estudio y mediante la reacci6n en cadena de la polimerasa. AI igual que las isoenzimas, el material procesado se samete a electroforesis en agar y los segmentos amplifieados migran por la acci6n de la corriente electrica y la velocidad de migraci6n depende de su peso molecular. Despues, el gel se colorea can 67 bromuro de aUdio y el patr6n de la migraci6n de los segmentos de ADN se observ8 directamente me- diante manchas coloreadas (Williams et ai, 1990, Welsh and Mcclelland, 1991). Cuadro 1. Cuantificaci6n de la a-p esterasa en cinco colecciones de cacao. Coleeelonea B INDiCES 0 COEFICIENTES DE SIMILITUD Una medida de semejanza para comparar dos co- lecciones (Ia A y la B), ulilizando los resultados del Cuadra 1, serla aquella que relacionara el numero de bandas (unos 0 ceras) que simuMneamente compartan las dos accesiones. El siguiente cuadra provee la informaci6n necesaria para relacionar las ausencias y presencias comunes entre el par de accesiones. ORDEN A B C D E' ESTANDARD 1 0 1 0 1 0 1 2 1 0 1 1 0 1 3 1 1 1 1 0 1 4 0 1 0 0 0 1 5 1 1 1 0 0 1 6 1 1 1 0 1 1 7 0 1 0 0 1 1 8 1 0 1 1 1 1 9 1 0 1 1 0 1 10 0 0 1 1 0 1 CUANnFICACI6N DE LOS MARCADORES BIOQU(UICOS Y MOLECULARES los resultados experimentales de un ensayo biol6gi· co donde se ulilicen las proteinas. enzimas, RFlPS o RAPOS es el mismo son un conjunto de bandas coloreadas en el gel que representan el comporta- miento de la variabilidad. Como ilustraci6n, se consi- deran cinco colecciones de una especie agricola, por ejemplo cacao, las cuales se somelieron a un estu- dio de diversidad enzimatica. En la Figura 1. se pre- sentan los resultados correspondientes a una corrida de Ia ~ esterasa y sa observa el patron (las bandas) de variaci6n de las colecciones y. an la ultima colul1)- na, corresponde al astandard, el cual expresa todas las bandas posibles producidas por las cinco colee- cionas. EI problema es como cuantificar las bandas y una vez cuantiflCadas, propener medidas estadis- ticas que expresen la variabindad entre las colectas en estudio. las bandas de la Figura 1 se pueden cuanlificar mediante una funci6n indicadora. esto es. asignar et valor 1 sl la banda estA presente y cero 51 esta no 10 estA. AI aplicar dicha funci6n 81 ejemplo de la • esterasa, se obtlene el Cuadro 1 y ella refleja la variabilidad de las bandas pera ya de una forma cuantitativa y num6rica, a Ie cual se Ie pueden pro- poner medidas esladistlcas que expresen la diver- sidad enzimatica entre las colectas en estudio. Figura 1. Patron de variabilidad de cinco colec~ ciones de cacaco asociados con la ( ) esterasa. Coleccl6n A o o --:--+--:--1 n=._ ORDEN A B C 0 E STANDARD 1 - · . 2 - ~ · - 3 · · . · - 4 · - 5 · - - - . 8 · · - . - 7 · - - 8 - . - - 9 - - - - 10 - - - 68 Dos medidas de semejanza (SAB) entre A. B se- rian: SAB =a/n SAB =(a+d)/n entonees se puede calcular un cuadra (matriz) de coelicientes de similitud entre todas las eoleccio- nes. Adicionales a las anteriores. se han propuesto di- ferentes indices de simililud. En el Cuadra 2, se expresan los mas comunes. su interpretaci6n y el autor. Eslos indices fueron originalmente creados para estudios de poblaciones de insectos, eeologla y en la especie humana. donde, al evaluar el eom- portamienlo ante una sarie de estlmulos congnocl- tivas, la presencia y la ausencia de caracteristicas son comunes. Cuadro 2. Coeficientes de similitud. Coeflclente Interprelacl6n Autor 8+b Jgual peso a 0-0 y 1-1 Sokal, Michener 1958 n a No conlabiliza 0-0 Jaccard,l908 a+b+c 2a Doble peso a 1·1 no Dice. 1945 2a + b +c contabiliza 0-0 28 Nei.1987 b+c De los coeficientes 0 indices de similitud que se consignaron en el Cuadro 2, el de Jaccard posee ciertas caracter'lsticas matem~ticas y estadisticas que 10 haeen mas litil. sokal y Sneath (1963), Go- wer (1966). Por tat motivo se construyo la matriz de similitud entre todas las accesiones de cacao, con los resultados del Cuadro 1. La matriz de coeficien- tes de similitud de Jaccard se expresa a eontinua~ cl6n: A 1.00 B 0.33 1.00 C 0.86 0.30 1.00 0 0.50 0.25 0.63 1.00 E 0.29 9.29 0.25 0.13 1.00 Matriz de eoeficientes de similitud de Jaccard para las cinco aceeslons de cacao. DISTANCIAS EUCLIDIANA· GEOMETRICA· GEN~nCA La distancia Euclidiana entre dos coledas es la aplicaci6n del Teorema de Pitagoras, ados carae- ter'isUcas (X1 y X2) de A y B, asl: A =(X.~I • XA2l B =(XBlo XB2)'------_........ x, 02AB= d2 =a2 + b2 02AB=(XA1 - XB1)2 + {XA2 - XB2)2 para k· caraeteristicas. DAB 2 = L (XA~XBJ?l k La distaneia euclidiana es intuitillamente atrayente, fscil de entender, es una medida geom~trica que po- see numerosas caraclensticas algebraicos • mate- maticas. de alii su amplio usa en investigaciones en las ciencias biol6gicas, econ6micas y sociales. La distancia gen~tica es una medida que expresa la divergencia entre dos poblaciones, razas 0 co- laetas, divergencia atribuible exclusivamente a ge- nes 0 a conjuntos de los mismos. Si pi es la fre- cuencia del i-esimo gene de la poblaci6n A y qi 10 es para la poblaci6n B entonees una medida de distancia gen~tjca entre A y B es la distancia eucti· deana aplieada a la frecuencia de los genes asi: DAs 2 L (Pi _ q/)2 / Se han propuesto diferentes medidas de distancia genetica, como son la de Rogers, Prevosti. Cava- lli-sforza. Nei. etc.; para su construcci6n sa han considerado aspectos geometricos, matematicos y biol6gicos, entre otros (Nei, 1987). DISTANCIAS E INDICES DE SIMILITUD Los indices 0 coelicientes de similaridad son medi- das de semejanza entre bandas electrofor~ticas; algunos de elias estan relacionados con las distan- cias, mediante funciones algebraicas. Es decir, ba- jo ciertas ci rcunstancias, es posible calcula r distan- das euclidianas a partir de los indices de similitud. Entre las expresiones Que relaeionan los caeficien- tes y las distancias se encuentran: 021j =1 - 2Sij 02ij = 2 (1 - Sij) 02.ij =. 1 (1 • Si/) 69 yentes, de tal forma que sa puedan hacer inferen- cias estadisticas de semejanzas 0 diferancias en y entre los grupos provistos por el analisis. Los grupos establecidos por el analisis forman par- tieiones y subdivisiones en conjuntos menores 0 reagrupamientos en mayores y eventualmente, se puede finalizar con una estructura jerflrquica de agrupamlenlo. A esta estruclura se Ie conoee co- mo -jerarquizaci6n en tlrbol-, La estructura jerar- quica de agrupamiento 0 la estructura en arbol, se puede representar en un diagrama 0 figura bidi- mensional y a tal representaci6n se conoee como -dendograma-. En general,los dendogramas. se construyen a par- tir de una matriz p x p de distancias 0 de coeficien~ tes de similitud. Entonces, las p(p-1 )/2 posibles dis- tancias 0 similitudes obtenidas de p poblaciones sa condensan en el dendograma, 10 cual facilita y sim- plifica enormemente las inferencias de semejanza o disimililud entre los diferentes grupos y subgru- pos de poblaciones en estudio. A continuaci6n. se presenta el dendograma elabo- rado a partir de la matriz de distancias de las cinco colectas de cacao. EI dendograma se obtuvo me- diante el metodo de distaneia minima (Single linka- ge). En cuanto a los matodos de construcci6n (al- gorilmo) de los dendogramas, son diversos y remitiremos allector consultar ellobri de Sokal y Sneath (1963) 0 lambian otros mas recientes de analisis multivariado, los cuales describen con de- lalle los procedimientos existentes para la elabora- ci6n de los dendogramas. Sin embargo, tal como 10 muestra Gower (1966). no siempre as posible calcutar distancias euclidea- nas a partir de similaridades. Para lograr la conver- si6n, la matriz de similaridad tiene que ser definida semi positiva. De las similaridades expresadas en el Cuadro 2, solamenta, las definidas por Sokal y Michener (1958) Jaccard (1908) poseen esta con- dici6n. Gower (1966) enfatiza tambian en usar la expresi6n 2(1 - Sij). A continuaci6n, se expresa la matriz de distancias entre las colectas de cacao, la matriz se calcula mediante la expresi6n 2(1 -Sij) propuesta por Go- wer y a partir de la matriz de coeficientes de simili- tud (Si/) previamente estlmados. A 0.00 B 1.34 0.00 C 0.28 1.40 0.00 0 1.00 1.50 0.74 0.00 E 1.42 1.42 1.50 1.74 0.00 Matriz de distancias entre las accesiones de cacao. Hasta ahora, para cuantificar el patr6n de bandas electroforeticas se han propuesto diferentes coefi- eientes de similaridad, distancias geneticas. geo- matricas y euclideanas. Sin embargo, euando S8 estudian varias poblaciones, por ejemplo 20, que es un tamano ml1s bien Intermadio, el numaro total de distancias entre pares de poblaciones sena de (20 x 19) 2 = 190. Por 10 tanto. se toma dispendioso re5umlr eslas 190 distaneias y, a partir de elias, realizar las inducciones y deducciones poblaciona- les. Entonces el siguienta paso, as eJ manejo de una matriz de distancias y, con ella, hacer inferen- das estadisticas. Sa discuten los dendogramas y las coordenadas principales que son dos metodos grMico- estadisticos que proveen al investigador que usa marcadores moleeulares y bioquimicos en la dascripci6n de la variabilidad de poblaciones biol6gicas de buenas guias. Los dendogramas y las escalas multidimensionales resumen la matriz de distancias. A C o B E o 0.75 1.50 OENDOGRAMAS-CONGLOMERADOS EI prop6sito fundamental del aniilisis de conglome- rados es-p·roveer al investigador de -agrupaciones naturales- de-un conjunto de individuos, razas, 0 variedades. Sa busea colocar conjuntos de indivi- duos en grupos exhaustivos y mutuamente exclu- 70 EI dendograma permite estableeer relaciones de similitud entre las colectas A y B e incluso de estas con D y tamblen cierto grado de diferenciaci6n en- tre las colectas ByE con el resto de aecesiones. Las bandas de la Figura 1, poco 0 nada ofreel an al investigador en cuanto a similitud y diferenciacl6n entre las accesiones. Por 10 tanto, al patr6n de bandas electrofor~ticas provenientes da las isoenzimas, los RFLPS 0 los RAPDS, se Ie ha provisto de m~todosestadisticos formales (distancias. similitudes, dendogramas), de tal manera que su variabilidad, bioquimica. mo- lecular y, en general, genetica sa puede discrimi- nary cuantificar. COORDENADAS PRINCIPALES Es un conjunto de t~nicas estadistico-matemc\U- cas, para encontrar una configuraci6n da puntos a partir de una matriz de distancias. Para usar al as- calamlento multidimensional necesariamente, se requiere que las distancias sean euclidianas. Como i1ustraci6n de la tecnica, consid~re el si- guiente ejemplo: Suponga un mapa de Colombia y un conjunto de ciudades; sa solicita construir una tabla (matriz) de distancias entre las ciudades; sim- plemente can una regia se medirian las distancias en el mapa y, luego, se convertirian a distancias reales en kIlometros. Ahora, considere al problema inverso: Dada una matriz de distancias antre las ciudades construya el mapa (las coordenadas). En primer t~rmino, dado un conjunto de distancias eu- clidianas no existe una represantaci6n unlca de puntos que origine las distancia5 y, 851, si conoee- mos la distancia entra Cali - Ibague no sabemos si Cali asIA al oriente - occidente - norte 0 sur delba- gu~. Tecnicamente, significa que no conocemos la localizaci6n y orientaci6n de la configuraci6n. EI problema de localizaci6n se resuelve colocando el centro de gravedad de la con~guraci6n en el on- gen. EI problema de orientaci6n se resuelve me- diante una transformaci6n ortogonal, de tal forma que los angu~os y distancias no se modifiquen. La aplicaci6n de esta tecnica estadistica a los da- tos provenientes de ensayos biotecnol6gicos agri- colas as inmediata, ya que, a partir de las bandas electroforeticas, se construyen indices da similari a dad y, con estos, distancias euclideanas, alas cua- les S8 aplican las escalas multidimenslonales para encontrar un plano de coordenadas princlpales, donde las relaciones de semejanza y divergencia entre poblaciones biol6gicas sa discriminan y cuantifican con cierto grado de sencillez. BIBLIOGRAFrA 1. Ayala, J.F. y J.A. Kiger. Gen~tlca modems. 1984. 2. Gower, J.Ca Some distance properties of latent root and vector methods used in multivariate analysis Biometrika: 53:325-328. 1966. 3. Kochel, G. Introduction to RFLP mapping and plant breeding applications. 1994. 4. Nel, M. Molecular Evolutionary Genetics. Co- lumbia University Press, N.Y. 1994. 5. Sokal, R.R. and Sneath, P.H.A. Principles of numerical taxonomy, London: Freeman. 1987. 6. William, J.G.K. et a!. DNA polymorphisms am- plified by arbitrary primers are useful as genetic markers Nucleic Acids Research. 18-6531- 6535.1963. 7. Welsh, J. and M. McClelland. Finger printing genomes using peR with arbitrary primers. Nu- cleic Acids Research. 18:7213-7218. 1990. 8. Welsh, J. and M. McClelland. Finger printing genomes using peR with arbitrary primers. Nu- cleic Acids Research. 18:7213-7218. 1970. 71