SAS y XML
Luego de un largo y merecido receso vuelvo con algunos tips que espero les facilite su día a día con SAS.En esta ocasión les voy a hablar sobre archivos XML y como SAS puede interactuar con ellos.
No pretendo dictar una cátedra sobre XML, para aquellos que quieran saber más sobre ellos pueden encontrarar en internet toda la información que necesitan y NO necesitan sobre este tema
Segun Wikipedia XML, siglas en inglés de Extensible Markup Language (lenguaje de marcas extensible) es hoy en dia el medio mas popular para intercambio de data. XML no es realmente un lenguaje en particular, sino una manera de definir lenguajes para diferentes necesidades. Algunos de estos lenguajes que usan XML para su definición son XHTML, SVG, MathML.
XML no ha nacido sólo para su aplicación en Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto,hojas de cálculo, etc.
SAS ha provisto distinto metodos de lectura/escritura de archivos XML desde la version 8.2. Vamos a darle un vistazo a los mas populares:
-Libname XML
SAS posee su propio para motor lectura/escritura para XML. La gran diferencia entre este tipo de libreria y las demás (Base, Oracle, ODBC, etc) es que a punta a un solo archivo XML, es decir, cada archivo XML que desees crear debe tener asociado un Libname XML distinto (puedes usar el mismo Libname si deseas reemplazar el archivo).
Para que todos (los lectores de este post y mi persona) utilizemos el mismo archivo XML, vamos a empezar por crear uno y posteriormente vamos a leerlo desde SAS. Para nuestros ejemplos vamos a usar SASHELP.Class
Paso a Paso:
*1) Definimos nuestra liberia XML
- El nombre de la liberia es: xmlout
- Definimos el motor de la liberia que es: xml- El archivo a ser creado es class.xml en el directorio C:\ ;
Libname xmlout xml ‘C:\class.xml’;
*2) Simplemente usamos un Paso de Datos para crear nuestro primer XML. No pensaste que fuera tan fácil!!!;
data xmlout.class;
set sashelp.class;run;
Ahora hagamos doble click en nuestro recién creado archivo y podrán notar que es muy similar a HTML. Como les comente anteriormente, no voy a ir en detalle sobre la estructura del archivo, esa info la encuentran facilmente en la super autopista de la información.
Ahora vamos a leer nuestro archivo nuevamente en SAS. Me imagino que ya tienen idea de como es el proceso. En este particular podemos hacerlo de 2 maneras, ya que solo vamos a leer el archivo podemos utilizar el libname anterior o creamos uno nuevo.
data MyXMLClass;set xmlout.class;
run;
otra forma
Libname xmlin xml ‘C:\class.xml’;
data MyXMLClass;
set xmlin.class;
run;
Para determinar que hemos leído el archivo correctamente podemos usar el siguiente código:
proc print data=MyXMLClass;
run;
proc contents data=MyXMLClass;
run;
-ODSOtra manera de crear archivos XML sin necesidad de usar librerías es usando ODS. Abajo un ejemplo bastante sencillo
ods xml file=’C:\odsclass.xml’;
Data myxml;
set sashelp.class;
run;
ods xml close;
Al abrir este archivo podrán notar que el cuerpo del archivo es mas complejo,la estructura es jerárquica, posee información relacionada con el proc print y otra serie de datos que hacen que estan opción sea poco apropiada. Como ejercicio intente leer el archivo odsclass.xml usando una librería XML. Vieron los resultados?
Nota: si de verdad le quieren hacer la vida imposible a alguien que necesite leer un XML generado por ustedes, entonces utilicen la opcion del ODS, de lo contrario nunca la utilizen.
-XML mapper: Leyendo complejos archivos de XML.
En la vida real no siempre nos topamos con archivos rectangulares (del tipo usado para crear tablas) sino que a menudo nos encontramos con archivos que poseen estructuras con jerarquías muy complejas y debemos idearnos una forma de extraer la data que realmente necesitamos.
A partir de la versión 9.1, SAS provee una herramienta llamada XML mapper que nos ayuda a seleccionar sólo la data que necesitamos del el archivo XML. Para los que poseen SAS 9.1 o superior Si hacen click en Inicio -> Programas -> SAS deberían poder encontrar el SAS XML Mapper. Para la 8.2 creo que hay la opción de descargalo de SAS support.
El XML mapper los ayudara a crear un mapa del archivo con la data que necesitan, seguidamente deberan salvar dicho mapa en algun directorio para poder ser invocado desde SAS asi como sigue:

filename class ‘C:\class.xml’;
filename SXLEMAP ‘.map’;
libname MyClass xml xmlmap=SXLEMAP access=READONLY;
SASludos,
Alberto
Tip publicado en SAScommunity
Conferencia del Grupo de Usuarios de Puerto Rico
La conferencia será el día 10 de diciembre en San Juan.
Para mayor información sobre la conferencia visita el siguiente link.
SASludos,
Alberto
Conferencia del Grupo de Usuarios de Jamaica
Visita el siguiente link para mayor sobre la agenda de esta conferencia.
SASludos,
Alberto
Nuevo Foro para SAS Web Report Studio
Este es el link al foro:
http://support.sas.com/forums/forum.jspa?forumID=52
SASludos,
Alberto
Proc Sort nodup vs Proc sort Nodupkey
La respuesta esperada sería decir que Nodup (Noduprecs) elimina las observaciones o filas duplicadas comparando todas la variables en el data set mientras que Nodupkey las elimina basada en las variables utilizadas en la sentencia BY.
Lamentablemente debo decirles que esto no es 100% correcto.
Contrariamente a lo que se cree, cuando se usa la opción Nodup SAS no tiene manera de saber sobre estas observaciones o filas duplicadas a menos que éstas, por suerte, se encuentren en secuencia contigua en el data set.
Veamos el siguiente ejemplo de Nodup usando las fechas de las Ligas ganadas por el FC Barcelona, fíjense que el año 1993 esta repetido 2 veces pero no en secuencia contigua:
data Ej_nodup;
input liga $ equipo $ yyyy ;
cards;
LaLiga Barsa 1993
LaLiga Barsa 1991
LaLiga Barsa 1992
LaLiga Barsa 1993
;
Proc sort nodup data=Ej_nodup ;
by liga equipo;
run;
proc print;run;
Obs liga equipo yyyy
1 LaLiga Barsa 1993
2 LaLiga Barsa 1991
3 LaLiga Barsa 1992
4 LaLiga Barsa 1993
Como podrán haber detallado, la opción nodup no eliminó la observación repetida.
Veamos ahora este ejemplo con las observaciones repetidas en secuencia contigua:
data Ej_nodup;
input liga $ equipo $ yyyy ;
cards;
LaLiga Barsa 1993
LaLiga Barsa 1993
LaLiga Barsa 1991
LaLiga Barsa 1992
;
Proc sort nodup data=Ej_nodup ;
by liga equipo;
run;
proc print;run;
Obs liga equipo yyyy
1 LaLiga Barsa 1993
2 LaLiga Barsa 1991
3 LaLiga Barsa 1992
Ahora sí eliminó la observación duplicada debido a que se encontraban de forma contigua.
Si para el mismo ejemplo utilizamos la opción Nodupkey solo nos quedará una sola observación con la combinación de la sentencia BY
data Ej_nodupkey;
input liga $ equipo $ yyyy ;
cards;
LaLiga Barsa 1993
LaLiga Barsa 1993
LaLiga Barsa 1991
LaLiga Barsa 1992
;
Proc sort nodupkey data=Ej_nodupkey ;
by liga equipo;
run;
proc print;run;
Obs liga equipo yyyy
1 LaLiga Barsa 1993
Agregando la variable yyyy a lista BY estaríamos obteniendo el resultado deseado:
data Ej_nodupkey;
input liga $ equipo $ yyyy ;
cards;
LaLiga Barsa 1993
LaLiga Barsa 1993
LaLiga Barsa 1991
LaLiga Barsa 1992
;
Proc sort nodupkey data=Ej_nodupkey ;
by liga equipo yyyy;
run;
proc print;run;
Obs liga equipo yyyy
1 LaLiga Barsa 1991
2 LaLiga Barsa 1992
3 LaLiga Barsa 1993
Para finalizar este post, mi recomendación es siempre usar la opción Nodupkey.
SASludos,
Alberto
Ejemplo: Diseño de Experimentos usando Proc Anova
Para los que no lo saben SAS tiene su propio modulo de DOE con interfaz gráfica (Base SAS) que contiene una gran cantidad de diseños pre-establecidos. Para los humanos comunes como nosotros que solo tenemos el STAT exiten 2 procedimientos el ANOVA y GLM para llevar acabo este tipo de análisis.
En este ejemplo solo contiene el Proc ANOVA que solo debe ser usado cuando el diseño es balanceado.
Para aquellos que tienen el Montgomery de Diseño de Experimentos (la edición verde) es el ejemplo de la pág 219.
data montgomery_pag219;
do replica=1 to 3;
do catalizador=-1 to 1 by 2;
do reactivo=-1 to 1 by 2;
input y @; output;
end;
end;
end;
cards;
28 36 18 31
25 32 19 30
27 32 23 29
;
proc anova data=montgomery_pag219;
class reactivo catalizador;
model y= reactivo catalizador reactivo*catalizador;
run;
SASludos,
Alberto