Read 1299-60 (Metodología para mejorar la predicción...) text version

METODOLOGÍA PARA MEJORAR LA PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS

METHODOLOGY TO IMPROVE THE PREDICTION FOR DIAMETER DISTRIBUTION PARAMETERS

Juan M. Torres-Rojo1, Octavio S. Magaña-Torres2 y Miguel Acosta-Mireles2

1 Centro de Investigación y Docencia Económicas. Carr. México-Toluca Núm. 3655. 01210, Col. Lomas de Santa Fé, México, D. F. ([email protected]). 2Campo Experimental "Valle de México". INIFAP. 56230, Chapingo, Estado de México.

RESUMEN

La predicción de parámetros es un procedimiento ampliamente usado para predecir distribuciones de variables aleatorias a través de un conjunto de variables exógenas relacionadas con la distribución. Uno de los procedimientos de predicción usa modelos lineales, cuyos ajustes generalmente son pobres y en la mayoría de la veces se violan algunos supuestos básicos del modelo de regresión lineal. Se presenta una comparación entre la forma tradicional de ajuste de los modelos de predicción de parámetros y un procedimiento donde se corrige el problema de endogeneidad del sistema de ecuaciones de predicción, así como la violación de los supuestos de normalidad, homoscedasticidad y ausencia de correlación de errores. Ambos procedimientos se comparan con distribuciones diamétricas no usadas en el ajuste y provenientes de la misma población. Los resultados muestran que ambos procedimientos proporcionan estimadores significativamente similares y que los modelos de predicción corregidos, a pesar de tener menor bondad de ajuste, brindan mejores predicciones. De aquí que las correcciones a violaciones de los supuestos básicos del modelo lineal mejoran las relaciones que deben conservar los parámetros para recuperar las funciones de densidad reales. Palabras clave: Distribución Weibull, ecuaciones simultáneas, endogeneidad, índice de Reynolds.

ABSTRACT

Parameter prediction is a procedure widely used to recover density functions of random variables from a set of exogenous variables related to the distribution. One of the prediction procedures uses linear models whose fits are generally poor and most of them violate some basic assumptions for the linear regression model. This paper compares the traditional procedure of fitting parameter prediction models with a proposed procedure where the problem of endogeneity in the system of equations is corrected, as well as the violation of assumptions of normality, homoscedasticity and no autocorrelation in the error term. Both procedures are compared with distributions not used to fit the models and which are from the same population. Results show that both procedures yield significantly similar estimates and that the set of parameters estimated from the corrected prediction models yield better predictions, although their goodness of fit is lower than the traditionally estimated parameters. Hence, corrections to the linear model assumptions improve the relationships that the parameters must maintain in order to recover the actual density function. Key words: Weibull distribution, simultaneous equations, endogeneity, Reynolds index.

INTRODUCTION

INTRODUCCIÓN

L

a técnica de predicción del crecimiento y rendimiento que utiliza distribuciones diamétricas se ha popularizado para modelar rodales regulares y uniespecíficos, aunque existen algunos ejemplos para rodales irregulares (Murphy y Farrar, 1988). Para generar este tipo de modelos se han utilizado funciones de distribución de probabilidades (fdp) para caracterizar las distribuciones diamétricas de poblaciones forestales. Sin embargo, el uso de la distribución Weibull se ha generalizado (Bailey y Dell, 1973; Smalley y Bailey, 1974; Clutter y Belcher, 1978; Bailey et al., 1982), dada la

T

Recibido: Junio, 1999. Aprobado: Mayo, 2000. Publicado como ENSAYO en Agrociencia 34: 627-637. 2000.

he technique for growth and yield predictions by using diameter distributions has been popularized for modeling regular and single specific stands, although there are examples for irregular stands, too (Murphy and Farrar, 1988). To generate this type of models, probability distribution functions (pdf) have been used to characterize diameter distributions of forest populations. However, the use of the Weibull distribution has been generalized (Bailey and Dell, 1973; Smalley and Bailey, 1974; Clutter and Belcher, 1978; Bailey et al., 1982), given the wide variety of forms that allow modeling. The applications of the Weibull model in México to predict present and future yield include the work of Torres and Brodie (1990) in Pinus hartwegii Lindl., Castillo (1988)3 in P. patula Schl. et Cham., Ramírez and Fierros (1989) in P. caribaea var.

627

628

AGROCIENCIA VOLUMEN 34, NÚMERO 5, SEPTIEMBRE-OCTUBRE 2000

amplia variedad de formas que permite modelar. Las aplicaciones en México del modelo Weibull para predecir el rendimiento actual y futuro incluyen los trabajos de Torres y Brodie (1990) en Pinus hartwegii Lindl., Castillo (1988)3 en P. patula Schl. et Cham., Ramírez y Fierros (1989) en P. caribaea var. hondurensis (Sénécl.) W. H. G. Barret et Golfari, Acosta et al. (1997) en P. montezumae Lamb., y Torres et al. (1991) y Fuente (1998)4 en P. rudis Endl. Los primeros trabajos de esta clase se orientaron a modelar los estimadores de los parámetros de la fdp en forma explícita. El modelaje se hace generalmente mediante modelos lineales; como variables predictoras se usan algunos atributos del rodal, como densidad, altura total, índice de sitio o edad. Tal procedimiento se ha denominado, en forma general, "predicción de parámetros". Las suposiciones de las relaciones lineales de estos modelos pueden tener algún fundamento biológico; sin embargo, la precisión generada ha sido baja. Por ejemplo, Clutter y Belcher (1978) citan valores del coeficiente de determinación (R2) de 0.107, 0.357 y 0.20, asociados con los modelos para predecir "a", "b" y "c", mismos que respectivamente representan los estimadores de los parámetros de localización, escala y forma de la función Weibull. Otros estudios muestran los bajos ajustes obtenidos en la predicción de estimadores (Smalley y Bailey, 1974). Existen ejemplos donde los ajustes son excelentes, sin embargo, el poder predictivo de los estimadores es muy bajo (Cao y Burkhart, 1984; Fuente, 19984). Para solucionar este problema se desarrolló otra técnica de predicción, en la cual, en lugar de predecir directamente los estimadores, se predice alguna otra variable de mayor relación con las variables de estado del rodal, que tenga relación directa con los parámetros de la distribución. Así, surge la técnica conocida como "recuperación de parámetros" (Hyink y Moser, 1979), que consiste en recobrar los estimadores de parámetros de la distribución, a partir de sus momentos no-centrales, momentos centrales, o bien, un conjunto de percentiles. Dada la mayor relación entre momentos (o percentiles en su caso) y atributos del rodal, esta técnica ha brindado mejores ajustes en los modelos (Borders y Patterson, 1990). El procedimiento tiene una ventaja adicional, ya que las predicciones del área basal calculada explícitamente (i.e., calculada a través de un modelo exógeno) y el área basal recuperada de la distribución predicha resultan similares, dependiendo de la precisión del modelo de predicción explícita. Sin embargo, esta técnica tiene dos desventajas: 1) Al usar una función ligeramente truncada o con parámetros de localización adicionales, el conjunto

hondurensis (Sénécl.) W.H.G. Barret et Golfari, Acosta et al. (1997) in P. montezumae Lamb., and Torres et al. (1991), and Fuente (1998)4 in P. rudis Endl. The first studies of this kind were oriented toward modeling the estimators of pdf parameters explicitly. Modeling is generally done using linear models; as predicting variables some attributes of the stand are used, such as density, total height, and site index or age. This procedure has been given the general name of "parameter prediction." The assumptions about the linear relationships of these models could have some biological basis; however, precision of the predictions has been low. For example, Clutter and Belcher (1978) cite values of the determination coefficient (R2) of 0.107, 0.357, and 0.20, associated to models for predicting "a," "b," and "c," which respectively represent the estimators of location, scale, and form parameters of the Weibull function. Other studies show the poor goodness of fit obtained in the prediction of estimators (Smalley and Bailey, 1974). There are examples in which the goodness of fit is excellent; however, the predictive power of the estimators is very low (Cao and Burkhart, 1984; Fuente, 1998). To solve this problem, another prediction technique was developed. Instead of directly predicting the estimators, it predicts another variable, more related to the variables of the stand status and directly related to the distribution parameters. Thus, the technique known as "parameter recovery" (Hyink and Moser, 1979) emerged. This consists of recovering distribution parameter estimators, departing from their non-central moments, central moments, or a set of percentiles. Given the greater relationship among moments (or percentiles, in its case) and the attributes of the stand, this technique has resulted in better model fits (Borders and Patterson, 1990). The procedure has an additional advantage, since the predictions of the basal area calculated explicitly (i.e., calculated by means of an exogenous model) and those of the basal area, recovered from the predicted distribution, are similar, depending on the precision of the explicit prediction model. However, this technique has two drawbacks: 1) When a slightly truncated function, or one with additional location parameters, is used, the set of parameters has to be recovered through iterative procedures, which in some cases, could result in a distribution totally different from the actual one; in these cases poor predictions are produced. 2) When it is applied to natural stands, where categories without frequencies, or truncations exist, the procedure may provide estimations that are not very reliable. Some researchers

3 Castillo S., M. A. 1988. Modelo para estimación de incremento y producción maderable neta en Pinus caribaea var. hondurensis Barr. y Golf., de la Sabana, Oax. Tesis. División de Ciencias Forestales, Universidad Autónoma Chapingo. Chapingo, Edo de México. 81 p. 4 Fuente E., A. de la. 1998. Crecimiento y predicciones de rendimiento de rodales coetáneos de Pinus rudis Endl. de pueblos mancomunados, Ixtlán, Oaxaca. Tesis de Doctorado. Colegio de Postgraduados. Montecillo, Edo. de México. 176 p.

TORRES-ROJO ET AL.: PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS

629

de parámetros se debe recuperar por procedimientos iterativos, lo que en algunos casos puede resultar en una distribución totalmente diferente a la real; en estos casos produce malas predicciones; y 2) Cuando se aplica a masas naturales en donde existen categorías sin frecuencias, o truncamientos, el procedimiento puede brindar estimaciones poco confiables. Algunos investigadores han enfatizado tales desventajas y comprueban que el procedimiento es ineficiente comparado con otros procedimientos de predicción de estructuras diamétricas (Borders y Patterson, 1990; Nepal y Somers, 1992; Vanclay, 1995). Por otro lado, estas dos desventajas no son aplicables al procedimiento de predicción de parámetros mientras se cumplan las siguientes condiciones: 1) Que el conjunto de estimadores usado sea un conjunto de estimadores suficientes; y 2) Que se logre mantener las relaciones básicas entre los estimadores predichos a través de las relaciones lineales. En esta contribución se da seguimiento a la segunda desventaja antes citada. Se propone un procedimiento para mejorar los ajustes entre variables de estado y estimadores de parámetros, mismo que también mantiene las relaciones básicas entre estos últimos. El análisis centra la atención en las relaciones que deben existir entre los parámetros de una distribución Weibull, así como los requisitos que debe cumplir el conjunto de ecuaciones predictoras. METODOLOGÍA

Características del modelo El procedimiento de estimación de parámetros no impone restricción alguna al modelo que debe usarse para la predicción de cada estimador (Bailey y Dell, 1973). Sin embargo, existen relaciones entre los parámetros y entre éstos y algunas variables de la distribución que evidentemente se deben guardar. Por ejemplo, es importante considerar que el parámetro "a" tiene una relación directa con el diámetro mínimo, por lo que este último es la mejor variable predictora de "a". Adicionalmente, el parámetro de localización tiene una relación muy conocida con el parámetro de escala, misma que tiene la forma (Miller y Freund, 1965): b = X0.63- a (1)

have emphasized these drawbacks and have shown that the procedure is inefficient, compared with other prediction procedures for diameter structures (Borders and Patterson, 1990; Nepal and Somers, 1992; Vanclay, 1995). Furthermore, these two drawbacks do not apply to the procedure of parameter prediction if they satisfy the following conditions: 1) That the set of estimators used is a set of sufficient estimators, and 2) That the basic relationship among predicted estimators is maintained through linear relationships. In this paper, follow-up is given to the second of the two drawbacks. A procedure is proposed to improve the fits among state variables and parameter estimators. The procedure also maintains the basic relationships among the latter. The analysis focuses attention on the relationships that must exist among the parameters of a Weibull distribution, as well as on the requirements the set of predicting equations must satisfy. METHODOLOGY

Characteristics of the model The procedure for parameter estimation does not impose any restriction on the model used for the prediction of each estimator (Bailey and Dell, 1973). However, there are some relations among parameters and between these and some variables of the distribution that must evidently be kept. For example, it is important to consider that parameter "a" has direct relation to the minimum diameter, so that the latter is the best predicting variable of "a." In addition, the location parameter has a well-known relationship to the scale parameter, which has the form (Miller and Freund, 1965): b = X0.63- a (1)

where X0.63 is the value of the 63rd percentile of the accumulated distribution. This relationship has popularized the use of the combined variable "a + b" to improve the predictions of the scale and location parameters (Smalley and Bailey, 1974), and this evidently indicates that both variables are determined simultaneously, that is, they are endogenous. The scale parameter "b" shows the shift of the distribution on the abscissa axis and, as was mentioned, has a close relationship to the location parameter. From a biological instance, the value of the scale parameter depends on the relative density and productivity of the site, among other variables, both of which must be included in prediction models. The form parameter "c" also has an analytical relationship to the location and scale parameters. However, this relationship is not linear, but has the form:

a = m'i bGi

donde X0.63 es el valor del 63-er percentil de la distribución acumulada. Tal relación ha popularizado el uso de la variable combinada "a + b" para mejorar las predicciones de los parámetros de escala y localización (Smalley y Bailey, 1974) y evidentemente indica que ambas variables se determinan de manera simultánea, esto es, son endógenas. El parámetro de escala "b" muestra el desplazamiento de la distribución en el eje de las abscisas y, como se señaló, tiene estrecha relación

(2)

630

AGROCIENCIA VOLUMEN 34, NÚMERO 5, SEPTIEMBRE-OCTUBRE 2000 where Gi represents the gamma function of (1 + i/c), and m'i is the ith non-central moment of the diameter distribution. Parameter "c" reflects the form of the distribution, which depends largely on the age of the population and its level of competition. Several authors of population ecology have shown that the distributions with a positive bias (small c values) are frequent in masses with high competition, while in over-mature populations, distributions with a negative bias are frequent (White and Harper, 1970). Thus, the prediction of this parameter should consider both, the endogeneity of the rest of the parameters and the variables that assess competition. The original procedure of parameter prediction considers that a linear relationship of good fit is capable of efficiently estimating the three parameters and, once predicted, these can recover the diameter distribution very approximately. However, all linear models must satisfy certain requirements for the predictions or inferences from the model parameters to be appropriate. In the particular case of the set of equations used to predict parameters, these must fulfill the following requirements: 1. Relationship among equations. As mentioned, the procedure of parameter prediction consists of estimating sets of estimators u, v and w, which allow prediction of the parameter estimators of the Weibull function using a set of variables of the stand status (x1, x2, and x3), that is, a system of predicting equations:

con el parámetro de localización. Desde el punto de vista biológico, el valor del parámetro de escala depende, entre otras variables, de la densidad relativa y la productividad del sitio, que deben incluirse en los modelos de predicción. Por su parte, el parámetro de forma "c", también tiene una relación analítica con los parámetros de localización y escala. Sin embargo, tal relación no es lineal sino de la forma:

a = m'i bGi

(2)

donde Gi representa la función gama de (1 + i/c) y m¢ es el i-ésimo i momento no central de la distribución diamétrica. El parámetro "c" refleja la forma de la distribución, misma que depende en gran medida de la edad y del nivel de competencia de la población. Varios autores, en ecología de poblaciones, han mostrado que las distribuciones con sesgo positivo (valores pequeños de c) son frecuentes en masas con alta competencia, mientras que en poblaciones sobremaduras son frecuentes las distribuciones con sesgo negativo (White y Harper, 1970). De aquí que la predicción de este parámetro debe considerar tanto la endogeneidad de los demás parámetros como las variables que evalúen competencia. El procedimiento original de predicción de parámetros considera que una relación lineal de buen ajuste es capaz de estimar eficientemente los tres parámetros y que una vez predichos, éstos pueden recobrar la distribución diamétrica en una forma muy aproximada. Sin embargo, todo modelo lineal debe cumplir ciertos requisitos para que las predicciones o la inferencia sobre los parámetros del modelo sean apropiadas. En el caso particular del conjunto de ecuaciones utilizadas para predecir los parámetros, éstas deben cumplir con los siguientes requisitos: 1. Relación entre ecuaciones. Como se ha señalado, el procedimiento de predicción de parámetros consiste en estimar conjuntos de estimadores u, v y w, que permitan predecir los estimadores de los parámetros de la función Weibull a través de un conjunto de variables de estado del rodal (x1, x2 y x3). Esto es, un sistema de ecuaciones predictoras de la forma:

a = X¢ u + e1 1 b = X¢ v + e2 2 c = X¢ w + e 3 3

(3)

a = X¢ u + e1 1 b = X¢ v + e2 2 c = X¢ w + e 3 3

(3)

where a, b and c represent the vectors of dimension n x 1 (where n is the size of the sample) of the parameter estimators a, b and c, respectively. X1, X2 and X3 represent matrixes of dimension n x k1, n x k2, and n x k3, respectively, which integrate the information of the predicting variables of the ith equation, while ei represents the vector of errors (of dimension n x 1) of the ith equation. Assuming that a, b and c are related through Equations 1 and 2, it is evident that one or more of the dependent variables are endogenous in each equation and the set of errors ei are correlated. Thus, the set of Equations 3 should be estimated by a procedure that considers the relationship between the errors of the three equations and the endogeneity of the dependent variables, as in the procedures for estimation of simultaneous equations. 2. Basic assumptions of the linear regression model. For the predictions derived from the set of linear models (3) to be suitable, the estimators of the parameters u, v and w must comply with properties, such as efficiency, sufficiency and unbiased. These properties are assessed through the characteristics of the errors (residual) produced by the fit. If these errors have a mean of zero and uniform variance (homoscedastic), and are not correlated, then the ordinary least square estimates of the system of equations in (3) have the desired properties. Furthermore, if the errors have a particular distribution, it is possible to draw inferences from the characteristics of the parameters. All this together allows the prediction of values to be more reliable.

donde a, b y c representan los vectores de dimensión n x 1 (donde n es el tamaño de la muestra) de estimadores de los parámetros a, b y c respectivamente; X1, X2 y X3 representan las matrices de dimensión n x k1, n x k2, y n x k3 respectivamente, que integran la información de las variables predictoras de la i-ésima ecuación, mientras que ei representa el vector de errores (de dimensión n x 1) de la i-ésima ecuación. Evidentemente, si se considera que a, b y c están relacionados a través de las Ecuaciones 1 y 2, entonces una o algunas de las variables dependientes son endógenas en cada ecuación y los conjuntos de errores

TORRES-ROJO ET AL.: PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS ei están correlacionados. De aquí que el conjunto de Ecuaciones 3 debe estimarse a través de un procedimiento que considere la relación entre los errores de las tres ecuaciones y la endogeneidad de las variables dependientes, tal como los procedimientos de estimación de ecuaciones simultáneas. 2. Supuestos básicos del modelo de regresión lineal. Con objeto de que las predicciones derivadas del conjunto de modelos lineales (3) sean apropiadas, los estimadores de los parámetros u, v y w deben cumplir con propiedades como eficiencia, suficiencia y que sean insesgados. Estas propiedades se evalúan a través de las características de los errores (residuales) producidos por tales ajustes. Si estos errores tienen media cero, varianza uniforme (homoscedásticos) y no están correlacionados, entonces los estimadores de cuadrados mínimos ordinarios del sistema de ecuaciones en (3) tienen las propiedades deseables. Aún más, si los errores tienen una distribución en particular entonces es posible inferir sobre las características de los parámetros. Todo ello en conjunto permite que la predicción de valores sea más confiable. 3. Forma funcional. Los estimadores calculados para cada distribución se pueden derivar de una amplia gama de procedimientos, cada uno de los cuales produce un conjunto de estimadores que aproximan la distribución diamétrica (Torres et al., 1992). En poblaciones naturales con problemas de multimodalidad, truncamiento o presencia de categorías vacías, frecuentemente el mejor conjunto de estimadores no es el analíticamente más eficiente. De aquí que la selección de un conjunto de estimadores eficientes requiere seleccionar dentro de una amplia variedad de éstos. Si se sigue la estrategia de seleccionar el mejor conjunto de estimadores (para la distribución de diámetros) dado un conjunto de variables de estado, es probable que un modelo lineal produzca residuales que no tengan una distribución normal, ya sea porque se obtienen de diferentes procedimientos o porque se guardan relaciones no lineales (Ecuaciones 1 y 2). Por esta razón es necesario que antes de iniciar cualquier ajuste, se encuentre alguna transformación (en este caso de la variable dependiente) que corrija las variables dependientes, de tal forma que éstas sean normales, homoscedásticas, que tengan un valor esperado que sea lineal en los parámetros del modelo y que adicionalmente aseguren una distribución para los errores. La forma usual de aplicar esta corrección es mediante una transformación Box-Cox de la forma:

631

3. Functional form. The calculated estimators for each distribution can be derived from a wide range of procedures, each one of which produces a set of estimators that approaches the diameter distribution (Torres et al., 1992). In natural populations with problems of multimodality, truncation, or empty categories, frequently the best set of estimators is not analytically the most efficient. Thus, the selection of a set of efficient estimators requires selection from a wide variety. If the strategy of selecting the best set of estimators (for the distribution of diameters), given a set of state variables, is followed, it is probable that a linear model produces residuals that do not have a normal distribution, either because they are obtained from different procedures or because they have nonlinear relationships (Equations 1 and 2). This is why it is necessary, before beginning any fit adjustment, to find a transformation (in this case, of the dependent variable) that would correct the dependent variables so that these are normal, homoscedastic, have an expected value being linear in the parameters of the model, and also assure a distribution for the errors. The usual form of applying this correction is through a Box-Cox transformation, which has the form:

y l -1 = X¢b + e l

where b is the vector of estimators (linear) and e represents the error vector. In this transformation it is assumed that there is a value for l, so that the transformed dependent variable is distributed normally, is homoscedastic, and has a linear relationship with the estimators (Judge et al., 1985). Data and analysis The data base used consisted of 147 observations taken from three measurements from 49 sites of permanent sampling (squares 50 x 50 m) located in the Forestry Experimental Station, San Juan Tetla, Puebla. The characteristics of the sites and the measured variables (number of trees per unit of area and normal diameter of each tree) are described in Acosta et al. (1997). The data were divided into two sets: the first consisted of the first and third measurement and was used for calculating estimators, while the second was integrated by the second measurement and served to validate and compare the predictions. Calculating estimators of parameters of the Weibull function was done with the diameters of each plot. Estimators were calculated with the WEST system (Magaña et al., 1992)5, which allows the calculation of estimators with 10 different procedures and offers the Kolmogorov and Smirnov (K-S) and c2 statistics to evaluate the goodness of fit of each set of estimators. In addition, for each plot, the main state variables, such as mean diameters and quadratic average, number of individuals, site index, age and density index (Acosta et al., 1997), among others, were calculated. To assess the quality of the predictions, obtained from the linear models of parameter prediction with the corrections mentioned, the following procedure was carried out. For the traditional fit, the most efficient set of estimators was taken for each plot; that is, the set for

y l -1 = X¢b + e l

donde b es el vector de estimadores (lineales) y e representa el vector de errores. En esta transformación se supone que existe un valor para l, tal que la variable dependiente transformada se distribuye normalmente, es homoscedástica y tiene una relación lineal con los estimadores (Judge et al., 1985). Datos y análisis La base de datos utilizada consistió de 147 observaciones provenientes de tres mediciones de 49 sitios de muestreo permanente

632

AGROCIENCIA VOLUMEN 34, NÚMERO 5, SEPTIEMBRE-OCTUBRE 2000 which the K-S test gave the lowest deviation value, or the largest value of c2. Then, several models were run considering diverse independent variables that had no relationship whatsoever with the parameter, but improved the fits. The estimators were calculated by Ordinary Least Squares (SAS, 1985). The models were assessed using the value of R2, the mean squared error (MSE), the value of F, and the significance and congruence of the estimator signs included in the model. For the fit of the models with corrections, as with traditional fits, a set of parameter estimators with the best fits was selected for each plot, following the same criteria as for the previous case. Later, a system of simultaneous equations, including the three parameters and perfectly identified, was defined. This property was included to identify a set of restrictions in the system that would lead to a single solution for the set of estimators. In addition, it was required that the system should include only variables reporting the basic characteristics of the diameter distribution, as mean diameter (D) and quadratic diameter (Dq). The specification used for the equation system is:

(cuadrados de 50 x 50 m) ubicados en el Campo Experimental Forestal, San Juan Tetla, Puebla. Las características de los sitios y las variables medidas (número de árboles por unidad de superficie y diámetro normal de cada árbol) se indican en Acosta et al. (1997). Los datos se dividieron en dos conjuntos; el primero se integró por la primera y tercera medición y se utilizó para el cálculo de estimadores, mientras que el segundo se integró por la segunda medición y sirvió para la validación y comparación de las predicciones. El cálculo de estimadores de parámetros de la función Weibull se efectuó con los diámetros de cada parcela. Los estimadores se calcularon con el sistema WEST (Magaña et al., 1992)5 que permite calcular estimadores por 10 procedimientos diferentes y brinda los estadísticos Kolmogorov y Smirnov (K-S) y c² para evaluar la bondad de ajuste de cada conjunto de estimadores. Además, para cada parcela se calcularon las principales variables de estado tales como diámetros medio y cuadrático promedio, número de individuos, índice de sitio, edad e índice de densidad (Acosta et al., 1997), entre otras. A fin de evaluar la calidad de las predicciones obtenidas de los modelos lineales de predicción de parámetros producidos, ya sea en forma tradicional, o bien, estimados con las correcciones señaladas, se realizó lo siguiente. Para el ajuste tradicional se tomó el conjunto de estimadores más eficientes para cada parcela, esto es, aquel conjunto para el cual la prueba K-S arrojaba el menor valor de desviación, o bien, el mayor valor de c². Después, se corrieron varios modelos considerando diversas variables independientes que no sólo tuvieran alguna relación con el parámetro, sino que mejoraran los ajustes. Los estimadores se calcularon por Cuadrados Mínimos Ordinarios (SAS, 1985). Los modelos se evaluaron de acuerdo con su valor de R², el cuadrado medio del error (CME), el valor de F y la significancia y congruencia de los signos de los estimadores incluidos en el modelo. Para el ajuste de los modelos con correcciones, al igual de lo que se hizo con los ajustes tradicionales, se seleccionó el conjunto de estimadores de parámetros de mejor ajuste para cada parcela siguiendo los mismos criterios que en el caso anterior. Posteriormente, se definió un sistema de ecuaciones simultáneas que incluyera los tres parámetros y que además fuera una sistema perfectamente identificado. Esta propiedad se incluyó con el fin de identificar un conjunto de restricciones en el sistema que obligase a una sola solución para el conjunto de estimadores. Adicionalmente, se requirió que el sistema incluyera sólo variables que reflejaran las características básicas de la distribución diamétrica como diámetro medio (D) y diámetro cuadrático (Dq). La especificación usada para el sistema de ecuaciones es:

a = a1b + a 2 D + a 3 Dq + e1 b = b 0 + b1a + b 2 D + e2 c = g1a + g 2b + g 3 D + e3

(4)

System 4 is a perfectly identified system with three endogenous variables (a, b and c), three exogenous variables (constant, D and Dq), and two restrictions in each equation. Besides, care was taken that the system should include only exogenous variables that identify the distribution, in this case, the first two non-central moments (D and Dq). Once the system of equations defined, correction for normality of the dependent variable proceeded for each equation. The procedure of Box and Cox (1964) was used. Fitting of the entire system was then done simultaneously using the Three Stage Least Square (SAS, 1985). A comparison was made with the set of data reserved for validation. This set corresponds to the second measurement of the same population, and thus, minimal differences were expected. The basic statistics were $ $ $ calculated for each plot. Then, the values a, b and c were calculated with traditional linear models and the corrected models. These estimators were evaluated with respect to the original distribution using the K-S statistic, c2 and the Reynolds et al. (1988) error index. Also, the predictions of basal area were compared on the basis of the absolute value of the difference between predicted and observed basal area

ABO - AB P , and the absolute value of the difference between

a = a1b + a 2 D + a 3 Dq + e1 b = b 0 + b1a + b 2 D + e2 c = g1a + g 2b + g 3 D + e3

(4)

predicted and observed average diameter DO - D P . The error index of Reynolds et al. (1988) is defined as the weighted sum of the absolute differences between predicted and observed number of trees in each diameter category. Weighting can be done with volume or value, although the authors state that any other weighting can be used. Since the objective of this work is to evaluate the predictive

El Sistema 4 es perfectamente identificado con tres variables endógenas (a, b y c), tres variables exógenas (constante, D y Dq) y

5

Magaña T., O. S., J. M. Torres R., y M. Acosta M. 1992. WEST: Programa para estimar los parámetros de la función de distribución de probabilidades Weibull. Documento de trabajo. Campo Experimental Valle de México, Instituto Nacional de Investigaciones Forestales y Agropecuarias. Chapingo, Edo. de México. 27 p.

TORRES-ROJO ET AL.: PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS dos restricciones en cada ecuación. Además, se cuidó que el sistema sólo incluyera variables exógenas que identifican a la distribución, en este caso los dos primeros momentos no centrales (D y Dq). Una vez definido el sistema de ecuaciones, se procedió a corregir por normalidad de la variable dependiente en cada ecuación. Para ello se utilizó el procedimiento de transformación de Box y Cox (1964). Después, se procedió a realizar el ajuste de todo el sistema en forma simultánea, mediante el procedimiento de Cuadrados Mínimos de Tres Etapas (CM3E) (SAS, 1985). La comparación se hizo con el conjunto de datos reservado para validación. Este conjunto corresponde a la segunda medición de una misma población, por lo cual se esperarían diferencias mínimas. Para ello se calcularon los estadísticos básicos de cada parcela. Posterior-

633

power of the two different systems of equations, the basal area of each category was used as the weight, so that the modified index of Reynolds et al. (1988) was:

IER =

MC i=mC

å

niP - niO abiO

where IER represents the modified Reynolds et al. (1988) error index;

niP and niO represent the predicted and observed number of trees,

respectively, in the ith diameter class; abiO is the observed basal area in the ith diameter class, while mC and MC are the minimum and maximum diameter class, respectively.

$ $ $ mente se calcularon los valores de a, b y c con los modelos lineales

tradicionales y los modelos corregidos. Enseguida se procedió a evaluar tales estimadores con respecto a la distribución original usando los estadísticos K-S, c² y el índice de error de Reynolds et al. (1988). Adicionalmente, se compararon las predicciones de área basal, con base en el valor absoluto de la diferencia entre área basal predicha y observada ABO - AB P , así como el valor absoluto de la diferencia entre el diámetro promedio predicho y el observado DO - D P . El índice de error de Reynolds et al. (1988) se define como una suma ponderada de la diferencias absolutas entre el número de árboles predicho y el observado en cada categoría diamétrica. La ponderación puede hacerse con volumen o valor, aunque los autores establecen que puede usarse cualquier otro ponderador. Como el objetivo de este trabajo es evaluar el poder predictivo de los dos diferentes sistemas de ecuaciones se usó como ponderador el área basal de cada categoría, de tal forma que el índice de Reynolds et al. (1988) modificado fue:

RESULTS AND DISCUSSION The traditionally fitted linear models produced the following estimators:

$ a =-0.888026 b + 0.793927 D + 0.186722 Dq (0.0072) (0.0265) (0.0244) (**) (**) (**) R² = 0.993, CME = 0.2013, F = 5757.67

$ b = 0.000345 + 1.073639 D (0.0001) (0.0107) (**) (**) R² = 0.987, CME = 31.1931, F = 10059

$ ln(c ) = 0.111187 ln ( D) + 0.018238 AB (0.0372) (0.0041) (**) (**) R² = 0.936, CME = 0.075, F = 908.2

IER =

MC i=mC

å

niP - niO abiO

donde IER representa el índice de error de Reynolds et al. (1988) modificado; niP y niO representan respectivamente el número de árboles predicho y el observado en la i-ésima categoría diamétrica; abiO es el área basal observada en la i-ésima categoría diamétrica, mientras que mC y MC son, respectivamente, la mínima y máxima categoría diamétrica.

RESULTADOS Y DISCUSIÓN Los modelos lineales ajustados en forma tradicional produjeron los siguientes estimadores:

$ a =-0.888026 b + 0.793927 D + 0.186722 Dq (0.0072) (0.0265) (0.0244) (**) (**) (**) R² = 0.993, CME = 0.2013, F = 5757.67

where AB represents the basal area per hectare (m2), ln (.) is the natural logarithm of (.), and the rest of the variables follow the same nomenclature. The values in parentheses represent standard errors of the estimators; R2 represents the coefficient of determination; F, the statistical value of F; and CME, the model variance. The Box-Cox transformation on each of the models in System 4 indicated that the only variable requiring transformation is the equation of the c parameter. The confidence interval (95%) for l associated with the transformation of parameter c is -0.22£l£0.05; thus, the transformation ln(c) was selected as suitable. The system of equations corrected by normality of the dependent variable is, therefore,

a = a1b + a 2 D+ a 3 Dq + e1 b = b 0 + b1a + b 2 D + e2 ln(c) = g 1a + g 2 b + g 3 D + e3

634

AGROCIENCIA VOLUMEN 34, NÚMERO 5, SEPTIEMBRE-OCTUBRE 2000

$ b = 0.000345 + 1.073639 D (0.0001) (0.0107) (**) (**) R² = 0.987, CME = 31.1931, F = 10059

$ ln(c ) = 0.111187 ln ( D) + 0.018238 AB (0.0372) (0.0041) (**) (**) R² = 0.936, CME = 0.075, F = 908.2

When the Three Stage Least Squares procedure is used, the following estimators are generated:

$ a =-0.822744 b + 0.745055 D + 0.166071 Dq (0.06210) (0.0566) (0.0370) (**) (**) (**) R² = 0.922, CME = 0.3352, F = 485.25

donde AB representa el área basal por hectárea (m²), ln(.) es el logaritmo natural de (.), y las demás variables siguen la misma nomenclatura. Por su parte, los valores en paréntesis representan los errores estándar de los estimadores; R² representa el coeficiente de determinación; F, el valor del estadístico F y CME, la varianza del modelo. La transformación Box-Cox sobre cada uno de los modelos en el Sistema 4 indicó que la única variable que requiere transformación es la ecuación del parámetro c. El intervalo de confianza (95 %) para l asociada con la transformación del parámetro c es: -0.22£l£0.05, de aquí que se eligió la transformación ln(c) como la transformación adecuada. De esta forma el sistema de ecuaciones corregido por normalidad de la variable dependiente es:

a = a1b + a 2 D+ a 3 Dq + e1 b = b 0 + b1a + b 2 D + e2 ln(c) = g 1a + g 2 b + g 3 D + e3

$ b = 2.781662 -1.542264 a + 1.075373 D (1.6626) (0.306451) (0.032407) (NS) (**) (**) R² = 0.905, CME = 4.719, F = 585.75 $ ln(c) =-0.515771 a - 0.493622 b + 0.573069 D (0.155125) (0.110901) (0.124886) (**) (**) (**) R² = 0.879, CME = 0.162, F = 295.71

with the following variance-covariance matrix among equations:

å -1

å

-1

LM 0.3352 = 10685 MM-0..0210 N

10685 -0.0210 . 4.7195 -0.5217 -0.5217 0.1624

OP PP Q

Al emplear Cuadrados Mínimos de Tres Etapas se generaron los siguientes estimadores:

$ a =-0.822744 b + 0.745055 D + 0.166071 Dq (0.06210) (0.0566) (0.0370) (**) (**) (**) R² = 0.922, CME = 0.3352, F = 485.25 $ b = 2.781662 -1.542264 a + 1.075373 D

(1.6626) (0.306451) (0.032407) (NS) (**) (**) R² = 0.905, CME = 4.719, F = 585.75

$ ln(c ) =-0.515771 a - 0.493622 b + 0.573069 D (0.155125) (0.110901) (0.124886) (**) (**) (**) R² = 0.879, CME = 0.162, F = 295.71

con una matriz de varianza-covarianza å -1 entre ecuaciones de la forma:

It can be observed that the traditional model for predicting parameter a is similar to the corrected model. Looked upon individually, the traditional fit has less variance and more efficient estimators. However, correcting by the correlation of the errors among equations, efficiency is reduced between these models. The same occurs with the equations for estimating parameters b and c. In spite of the reduction in efficiency of each individual equation (measured by the variance of the estimators), the estimators derived from the equation system showed better predictive power in the test of validation (Table 1). This result could be due to the fact that the estimation through the system of linear equations forces the parameter estimators to conserve the relationship that must be kept (Equations 1 and 2) and inconsistent predictions are restricted by the relationship among these parameters. The recovered relationships are thus nearer to actual distributions, improving the quality of the set of prediction models. It was confirmed that in many cases the set of estimated parameters was totally different. However, the distribution predicted for both sets was not significantly different. Table 2 shows the average absolute differences between the parameter estimators of the Weibull

TORRES-ROJO ET AL.: PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS

635

å -1

LM 0.3352 = 10685 MM-0..0210 N

10685 -0.0210 . 4.7195 -0.5217 -0.5217 0.1624

OP PP Q

Obsérvese que el modelo para predecir el parámetro a es similar tanto para la forma tradicional como para la forma corregida. Visto individualmente, el ajuste tradicional tiene menor varianza y estimadores más eficientes; sin embargo, al corregir por la correlación de los errores entre ecuaciones se reduce la eficiencia entre estos modelos. Lo mismo sucede con las ecuaciones para estimar los parámetros b y c. A pesar de la reducción de eficiencia de cada ecuación individual (medida por la varianza de los estimadores), los estimadores derivados del sistema de ecuaciones mostraron mejor poder predictivo en la prueba de validación (Cuadro 1). Este resultado quizás se deba a que la estimación a través de un sistema de ecuaciones lineales fuerza a que los estimadores de parámetros conserven las relaciones que deben guardar (Ecuaciones 1 y 2) y se restrinjan predicciones inconsistentes con las relaciones entre estos parámetros. Ello da por resultado que las distribuciones recuperadas sean más aproximadas a las distribuciones reales, mejorando así la calidad del conjunto de modelos de predicción. Resulta de interés confirmar que en muchos casos el conjunto de parámetros estimados fue totalmente diferente; sin embargo, la distribución predicha por ambos conjuntos no fue significativamente diferente. El Cuadro 2 muestra las diferencias absolutas promedio entre los estimadores de parámetros de la distribución Weibull predichos con los dos procedimientos (tradicional y corregido), así como los resultados de una prueba de diferencia de medias entre dos poblaciones6. Se aprecia que no existe evidencia empírica para rechazar la hipótesis de igualdad en los valores predichos para los parámetros obtenidos con ambos procedimientos. Esto indica que es necesario considerar en el ajuste de modelos de predicción tres aspectos básicos: a) el parámetro c no guarda una relación lineal con los momentos o con los parámetros a y b; b) los modelos deben considerar las relaciones entre parámetros, esto es, existe un problema de endogeneidad en el sistema de ecuaciones de predicción de parámetros; y c) el ajuste de los modelos debe considerar la endogeneidad de las variables y la alta relación entre los errores de las ecuaciones predictoras. Evidentemente en esta última observación debe considerarse un modelo que permita recuperar los parámetros dada una proyección. Por ejemplo, el sistema de ecuaciones en (4) tiene que

distribution predicted with the two procedures (traditional and corrected), as well as the results of a test of mean differences between two populations6 . There is no empirical evidence to reject the hypothesis of equality in the predicted values for the parameters obtained with both procedures. This indicates that it is necessary to consider three basic aspects in prediction model fitting: a) Parameter c does not have a linear relationship with the moments or with parameters a and b. b) The models should take into account the relationship among parameters; that is, there is a problem of endogeneity in the system of parameter prediction equations. And c) model fitting should consider variable endogeneity and the strong relationship among the errors in prediction equations. Evidently, for this last observation, a model that permits the recovery of the parameters should be considered, given the projection. For example, the system of equations in (4) has to be solved simultaneously to identify equations that allow the calculation of a given parameter, parting exclusively from D and Dq. CONCLUSIONS The most common procedure for predicting diameter structures in México is recovering density functions with the parameter prediction procedure. Here, it is shown that the traditional way of fitting prediction equations could

Cuadro 1. Promedio de estadísticos y criterios de comparación de las distribuciones predichas para la segunda medición. Table 1. Means of statistics and comparison criteria of the predicted distributions for the second measurement. Estadístico / Criterio de comparación K-S promedio c² promedio IER promedio

DO - D P promedio ABO - AB P promedio

Cálculo tradicional 0.4532 108.2152 20.35 3.2804 0.3876 49 43 49

Cálculo corregido 0.2893 196.3157 18.79 1.8305 0.1035 10 2 49

Número de distribuciones significativamente diferentes a 0.10 Número de distribuciones significativamente diferentes a 0.05 Tamaño de la muestra (n)

Distribuciones que fueron significativamente diferentes con la prueba K-S al 0.10 y 0.05 de nivel de significancia v Diameter distributions, significantly different, considering the K-S statistic with a significance level of 0.10 and 0.05.

6 La prueba consistió en comparar las medias de los valores de los parámetros predichos con ambos conjuntos de ecuaciones. Se realizó una prueba para cada parámetro v The test consisted of comparing the means of the values of the predicted parameters with both sets of equations. A test was made for each parameter.

636

AGROCIENCIA VOLUMEN 34, NÚMERO 5, SEPTIEMBRE-OCTUBRE 2000 Cuadro 2. Diferencias entre estimadores de parámetros calculados con el método tradicional y las correcciones. Table 2. Differences among parameter estimators calculated using the traditional method and the corrections. Estimador del parámetro a b c

resolverse simultáneamente para identificar ecuaciones que permitan calcular un determinado parámetro a partir exclusivamente de D y Dq. CONCLUSIONES El procedimiento más común para predecir estructuras diamétricas en México es el de recuperación de funciones de densidad con el procedimiento de predicción de parámetros. Aquí se muestra que la forma tradicional de ajustar las ecuaciones de predicción podría predecir distribuciones muy sesgadas si no se consideran tanto las relaciones básicas entre los parámetros, como la no linealidad existente entre éstos y las variables exógenas del modelo. Adicionalmente se demuestra que el procedimiento de ajuste no debe ser con ecuaciones individuales, sino uno que considere la relación entre los errores de las diferentes ecuaciones (correlación entre parámetros). Al considerarse tales recomendaciones tanto en la formulación de modelos como en el procedimento de ajuste, se obtienen distribuciones diamétricas predichas significativamente más aproximadas a las reales, que las predichas por los modelos derivados con la estrategia tradicional de ajuste y construcción. LITERATURA CITADA

Acosta M., M., J. M. Torres R. y C. Rodríguez F. 1997. Predicción del rendimiento de Pinus montezumae Lamb. usando modelos de distribuciones diamétricas. Ciencia Forestal 22(81): 71-90. Bailey, R. L., and T. R. Dell. 1973. Quantifying diameter distributions with the Weibull function. For. Sci. 19: 97-104. Bailey, R. L., N. C. Abernethy, and E. P. Jones. 1982. Diameter distribution models for repeatedly thinned slash pine plantations. USDA. For. Ser. Gen. Tech. Rep. SO-34. 53 p. Borders, B. E., and W. D. Patterson. 1990. Projecting stand tables: A comparison of the Weibull diameter distribution method, a percentile-based projection method, and a basal area growth projection method. For. Sci. 36: 413-424. Box, G. E. P., and D. R. Cox. 1964. An analysis of transformations. J. Stat. Soc. 26: 211-243. Cao, Q. V., and H. E. Burkhart. 1984. A segmented distribution approach for modeling diameter frequency data. For. Sci. 30: 129137. Clutter, J. L., and D. M. Belcher. 1978. Yield of site prepared slash pine plantations in lower coastal plain of Georgia and Florida. In: Growth for Long Term Forecasting for Timber Yields. Division of Forest and Wildlife Resources. Virginia Polythecnic Institute. Rep. FWS-1-78. Hyink, D. M., and J. W. Moser. 1979. Application of diameter distributions for yield projection in uneven-aged forests. In: Forest Resource Inventories. Frayer, W. E. (ed.). Proc. SAF/IUFRO Workshop. Dept. Forestry and Wood Science. Colorado State Univ. pp: 906-916. Judge, G. G., W. E. Griffiths, R. C. Hill, H. Lütkepohl, and T-Ch. Lee. 1985. The Theory and Practice of Econometrics. 2nd ed. John Wiley and Sons. 1019 p. Miller, I., and J. E. Freund. 1965. Probability and Statistics for Engineers. Englewood Cliff, N. J. Prentice Hall, Inc. 456 p.

Diferencia absoluta promedio 1.3058 1.9394 0.0850

Valor de t

Probabilidad >|t| 0.7155 0.3134 0.3751

0.37 1.01 0.89

Estadístico de la prueba de la hipótesis H0: dc = dt, donde dc es el parámetro estimado con el método corregido y dt es el parámetro estimado con el método tradicional v Statistic for the Hypothesis test H0: d c= dt, where dc is the estimated parameter with the correction and dt is the parameter estimated using the traditional procedure.

predict very biased distributions if the basic relationship among parameters, as well as the non-linearity existing among these and the exogenous variables of the model, are not considered. Besides, it is demonstrated that the procedure used to fit models should not be carried out with individual equations, but one should consider the relationship among the errors of the different equations (correlation between parameters). When considering such recommendations in both, model formulation and the fitting procedure, predicted diameter distributions are obtained which are significantly closer to real distributions than those predicted by models derived with the traditional strategy of fitting and construction.

--End of the English version--

Murphy, P. A., and R. M. Farrar. 1988. A framework for stand structure projection of uneven-aged loblolly-shortleaf pine stands. For. Sci. 34: 321-332. Nepal, S. K., and G. L. Somers. 1992. A generalized approach to stand table projection. For. Sci. 38: 120-133. Ramírez M., H. y A. M. Fierros G. 1989. Estimación del rendimiento y crecimiento de Pinus caribaea var. hondurensis a través de su distribución diamétrica. In: Memoria Cuarta Reunión del Grupo de Trabajo de IUFRO. Silvicultura de los Neotrópicos. Salazar, R. (ed.). Antigua, Guatemala. 3-7 de abril de 1989. CATIE. Turrialba, Costa Rica. pp: 459-474. Reynolds, M. R. Jr., T. E. Burke, and W. Huang. 1988. Goodness-oftests and model selection procedures for diameter distribution models. For. Sci. 34: 373-379. SAS Institute. 1985. SAS Introductory Guide for Personal Computers. Version 6th. Raleigh, N.C. USA. 111 p. Smalley, G. W., and R. L. Bailey. 1974. Yield tables and stand structure for loblolly pine plantations in Tennessee, Alabama and Georgia highlands. USDA. For. Serv. Res. Pap. SO-96. 81 p. Torres R., J. M., and J. D. Brodie. 1990. A demonstration of benefits from an optimization approach to the economic analysis of natural pine stands in Central Mexico. For. Ecol. Manage. 36(2): 267278.

TORRES-ROJO ET AL.: PREDICCIÓN DE PARÁMETROS DE DISTRIBUCIONES DIAMÉTRICAS Torres R., J. M., C. Rodríguez F., O. S. Magaña T., H. Aguirre D. y A. M. Fierros G. 1991. Predicción de la producción de Pinus rudis en Aloapan, Oaxaca. In: Memorias Taller Internacional sobre Modelos Forestales. Instituto Forestal. Santiago de Chile. 5-7 de marzo de 1991. pp: 227-239. Torres R., J. M., M. Acosta M. y O. S. Magaña T. 1992. Métodos para estimar los parámetros de la función Weibull y su potencial para

637

ser predichos a través de atributos del rodal. Agrociencia, Serie Rec. Nat. Renovables 2: 57-76. Vanclay, J. 1995. Growth models for tropical forests: A synthesis of models and methods. For. Sci. 41: 7-42. White, J., and J. L. Harper. 1970. Correlated changes in plant size and number in plant populations. J. Ecol. 58: 467-85.

Information

1299-60 (Metodología para mejorar la predicción...)

11 pages

Report File (DMCA)

Our content is added by our users. We aim to remove reported files within 1 working day. Please use this link to notify us:

Report this file as copyright or inappropriate

247029