Calificando nuevas observaciones usando Proc FASTCLUS
PROC FASTCLUS se utilza para aplicar el algoritmo k-means para agrupamiento (cluster) de observaciones. Todas las observaciones en el data set de entrenamiento son asignadas a grupos basado en las variables incluidas en el data set. Calificar o puntuar nuevas observaciones puede ser todo un reto ya que las reglas de asignación dependen de los valores de las nuevas observaciones.
Lo anterior se puede lograr usando la opcion SEED en Proc FASTCLUS.
/*Grupos o clusters en el data set de entrenamiento */
%let indsn = input; *data set the entrada (entrenamiento);
%let nclus = maxclus; *número de cluster-grupos a calcular usando k-means;
%let indvars = varlist; *lista de variables a utlizar en el proceso de agrupamiento;
%let valid = val_data; *data set que queremos califcar o puntuar;
proc fastclus data=&indsn maxclusters = &nclus outseed= clusterSeeds;
var &indvars;
run;
/*Puntuando el nuevo data set*/
proc fastclus data=&valid out=&valid._scored seed = clusterSeeds maxclusters = &nclus maxiter = 0;
var &indvars;
run;
Referencia:
“Data Preparation for Analytics Using SAS” By Gerhard Svolba, Gerhard Svolba, Ph.D.
SASludos,
Alberto