Comment : Référence : |
La méthode REGRESS produit une équation linéaire qui convient le mieux à un jeu de points de données numériques, et utilise cette équation pour créer une nouvelle colonne dans la sortie de rapport. L'équation peut être basée sur une à trois valeurs indépendantes.
Cette méthode évalue des valeurs en supposant que la variable dépendante (y, les nouvelles valeurs) et les variables indépendantes (x1, x2, x3) se sont liées par l'équation linéaire suivante :
y = a1*x1 [+ a2*x2 [+ a3*x3]] + b
Lorsqu'il y a une valeur indépendante, l'équation représente une ligne droite. Cela produit les mêmes valeurs que FORECAST en utilisant la méthode REGRESS. Lorsqu'il y a deux variables indépendantes, l'équation représente un plan, et lorsqu'il y a trois variables indépendantes, elle représente un hyperplan. Vous devez employer cette technique lorsque vous avez des raisons de croire que la variable dépendante peut être approximée par une combinaison linéaire des variables indépendantes.
REGRESS emploie une technique appelée « moindres carrés ordinaires » pour calculer des valeurs pour les coefficients (a1, a2, a3 et b) qui minimisent la somme des différences carrées entre les données et la ligne, le plan ou l'hyperplan résultants.
ON {sortfield} RECAP y[/fmt] = REGRESS(n, x1, [x2, [x3,]] z);
où :
est un champ dans la source de données. Ce champ ne peut pas être parmi ceux des paramètres de REGRESS. Une nouvelle équation de régression linéaire se produit chaque fois que le critère de tri change de valeur.
est la nouvelle colonne numérique calculée par l'application de l'équation de régression. Vous ne pouvez pas employer DEFINE ou COMPUTE avec un champ de ce nom.
est le format d'affichage de y. S'il est omis, le format par défaut est D12.2.
est un nombre entier de 1 à 3, indiquant le nombre de variables indépendantes.
sont les noms de champ à utiliser comme variables indépendantes. Toutes ces variables doivent être numériques et peuvent être indépendantes les unes des autres.
est un champ numérique existant que l'on suppose être approximativement dépendant linéairement des variables indépendantes et est utilisé pour produire l'équation de régression.
La requête suivante utilise la source de données GGSALES afin de calculer une colonne DOLLARS. Les champs BUDUNITS, UNITS et BUDDOLLARS sont des variables indépendantes. Le champ DOLLARS fournit les valeurs réelles à évaluer:
DEFINE FILE GGSALES YEAR/Y = DATE; MONTH/M = DATE; PERIOD/I2 = MONTH; END
TABLE FILE GGSALES PRINT BUDUNITS UNITS BUDDOLLARS DOLLARS BY PERIOD ON PERIOD RECAP EST_DOLLARS/F8 = REGRESS(3, BUDUNITS, UNITS, BUDDOLLARS, DOLLARS); WHERE CATEGORY EQ 'Coffee' WHERE REGION EQ 'West' WHERE UNITS GT 1600 AND UNITS LT 1700 END
La sortie est :
WebFOCUS |