Utilizando Datos Gráficos y Visuales en la Ciencia: Lectura e interpretación de gráficos
¿Sabia usted que la frase "una imagen vale mil palabras" aplica a la ciencia? Datos complejos pueden ser bien difíciles de entender sin ser mostrados de manera visual, entonces los científicos comúnmente utilizan representaciones visuales para ayudar durante el análisis de datos.
Si usted ojea cualquier revista o libro de texto, rápidamente notará que el texto está intercalado con gráficos y figuras. En algunas revistas, casi el 30% del espacio está ocupado por gráficos (Cleveland, 1984), tal vez sobrepasando el dicho de que "una foto vale mil palabras". A pesar de que muchas revistas y periódicos también incluyen gráficos, la representación visual de los datos es fundamental en la ciencia y representa algo muy diferente de las fotografías e ilustraciones publicadas en revistas y periódicos. A pesar de que los datos numéricos están inicialmente recopilados en tablas o bases de datos, frecuentemente están representados en forma gráfica para ayudar a los científicos a visualizar e interpretar la variación, el patrón y las tendencias dentro de los datos.
Los datos se encuentran al centro de cualquier esfuerzo científico. Los científicos en diferentes campos recopilan datos de muchas diferentes maneras, desde la magnitud y lugar de los terremotos, a la longitud de los picos de los pinzones, a la concentración de dióxido de carbono en la atmósfera, entre otras. Durante siglos se han usado las representaciones visuales de los datos científicos - Copérnico dibujo esbozos esquemáticos de las órbitas planetarias alrededor del sol, por ejemplo - pero la representación visual de los datos numéricos en gráficos es un desarrollo más reciente.
Utilizando gráficas para presentar datos numéricos
En 1786, William Playfair, un economista escocés, publicó El atlas comercial y político (The Commercial and Political Atlas), que contenía una variedad de estadísticas presentadas en gráficos. Entre éstas había una imagen en la Figura 1, con un gráfico que comparaba las exportaciones desde Inglaterra con las importaciones a Inglaterra, desde Dinamarca y Noruega entre 1708 a 1780 (Playfair, 1786). (Incidentalmente, William Playfair era el hermano de John Playfair, el geólogo que dilucidó el trabajo fundamental de James Hutton, sobre los procesos geológicos para el público (ver nuestros módulos The Rock Cycle: Uniformitarianism and Recycling).
El gráfico de Playfair presentaba un poderoso mensaje de manera muy sucinta. Dicho gráfico muestra el tiempo en el eje horizontal (x) y el dinero en libras esterlinas en el eje vertical (y). La línea amarilla muestra el valor monetario de las importaciones de Inglaterra desde Dinamarca y Noruega; la línea roja muestra el valor monetario de las exportaciones a Dinamarca y Noruega desde Inglaterra. A pesar de que una tabla de datos numéricos mostraría la misma información, no sería inmediatamente aparente que algo importante ocurrió alrededor de 1753: Inglaterra empezó a exportar más de lo que importaba, poniendo la "balanza a favor de Inglaterra". Esta simple visualización de un gran conjunto de datos numéricos hacía más fácil su rápida comprensión.
Los gráficos y las figuras se convirtieron en componentes habituales de la ciencia y de la comunicación científica, y el uso de los gráficos ha aumentado considerablemente en las revistas académicas en los últimos años, casi doblando su promedio de 35 gráficos por revista a más de 60 entre los años 1985 y 1994 (Zacks et al., 2002). Este aumento ha sido atribuido a varias causas, incluidos los programas de computación que permiten la fácil producción de gráficos, al igual que la producción de grandes y complejos conjuntos de datos que requieren visualización para ser interpretados.
Los gráficos no son las únicas formas de visualización de datos , pues mapas, satélites, imágenes, animaciones y más imágenes especializadas, como las representaciones orbitales atómicas, también están formadas por datos, y también se han convertido en mucho más comunes. La creación, el uso y la lectura de formas visuales de datos es sólo un tipo del análisis e interpretación de datos (ver nuestro módulo Datos: Análisis e Interpretación), pero es ubicuo a través de todos los campos y métodos de investigación científica.
Punto de Comprensión
Interpretando los gráficos
La mayoría de los gráficos publicados en revistas científicas relacionan dos variables. Casi el 85% de los gráficos publicados en la revista Science, de hecho, muestra la relación entre dos variables, una en el eje x y otra en el eje y (Cleveland, 1984). A pesar de que existen muchos tipos de gráficos, saber cómo interpretar un gráfico de dos variables puede ayudarle a cualquiera a descifrar no sólo la inmensa mayoría de gráficos en la literatura científica, sino también ofrece un punto de partida para examinar gráficos más complejos. Como un ejemplo, imagínese tratando de identificar una tendencia cualquiera a largo plazo, en la tabla del datos que registra las concentraciones de dióxido de carbón, tomadas durante varios años en Mauna Loa (Tabla 1; apriete en el pasaje siguiente para ver la tabla completa de datos).
Las variables son sencillas - el tiempo en meses está en la fila superior de la tabla, los años, en la columna a la izquierda y la concentración de dióxido de carbón (CO2), dentro de los cuadrados individuales de la tabla. Sin embargo, es un desafió para la mayoría de la gente entender esta cantidad de información numérica. Tendría que mirar cuidadosamente la tabla completa para ver una tendencia. Pero si tomamos estos mismos datos y los ponemos en un gráfico, se vería así (Fig. 2).
Leer una gráfica involucra los siguientes pasos:
Describiendo la gráfica: El eje x muestra una variable en el tiempo en unidades de años y el eje y muestra la gama de la variable de las concentraciones de partes de unidades de CO2 por millón (ppm). Los puntos son medidas individuales de concentraciones - los números mostrados en la Tabla 1. Por consiguiente, el gráfico nos muestra el cambio en las concentraciones del CO2 atmosférico en el tiempo.
Describiendo los datos y las tendencias: La línea conecta las medidas consecutivas, haciendo que sea más fácil ver las tendencias a corto y largo plazo dentro de los datos. En el gráfico, es fácil ver que la concentración de CO2 atmosférico aumentó regularmente con el tiempo, desde unas ppm de 315 en 1958 a su nivel actual de aproximadamente 375 ppm. Dentro de esa tendencia a largo plazo, también es fácil ver que hay ciclos anuales, de corto plazo, de aproximadamente 5 ppm.
Haciendo interpretaciones: En el gráfico, los científicos pueden derivar información adicional de los datos numéricos, por ejemplo, cuán rápido se eleva la concentración de CO2. Este índice se puede determinar calculando la cuesta de la tendencia a largo plazo en los datos numéricos y ver este índice en el gráfico lo hace aparentemente fácil. Mientras que un observador agudo podía haber logrado ver en la tabla el aumento de las concentraciones de CO2 en el transcurso de las cinco décadas, sería muy difícil hasta para un científico entrenado, notar el ciclo anual del CO2 atmosférico en los datos numéricos - una característica elegantemente demostrada en el zigzag de la línea.
Poner los datos en una forma visual es un paso en el análisis e interpretación de los datos y los gráficos bien diseñados ayudan a los científicos a interpretar sus datos. La interpretación consiste en explicar por qué hay una elevación en el largo plazo en las concentraciones de CO2 atmosférico además de la fluctuación anual, lo cual va más allá del gráfico en sí y pone los datos en su contexto. Al ver el ciclo regular y repetitivo de alrededor de 5 ppm, los científicos se han dado cuenta que la fluctuación puede estar relacionada con los cambios naturales en el planeta debidos a la actividad temporal de las plantas. La representación visual de estos datos también ayuda a los científicos a darse cuenta que el aumento de las concentraciones de CO2 en las cinco décadas mostradas, ocurren paralelamente con la revolución industrial y, por consiguiente, están relacionadas casi con seguridad al creciente número de actividades humanas que emiten CO2 (IPCC, 2007).
Es importante notar que ninguna de estas tendencias (el aumento a largo plazo o el ciclo anual) ni la interpretación pueden ser vistas con una sola medida o punto de referencia de los datos. Esta es una de las razones por la que casi nunca se escucha a los científicos usar el singular de la palabra dato. Imagine que hay un solo punto en el gráfico. Usted puede dibujar una línea que lo atraviesa en cualquier dirección. La práctica rigurosa científica requiere múltiples puntos de referencia para que la interpretación sea clara, y un gráfico puede ser crítico no solamente al mostrar los datos en sí, sino demostrando sobre cuántos datos el científico está basando su interpretación.
Acabamos de seguir un corto y lógico proceso para extraer mucha información de este gráfico. A pesar de que una infinita variedad de datos puede aparecer en forma gráfica, este mismo procedimiento puede aplicarse cuando se lee cualquier gráfico:
- Describa el gráfico:¿Qué dice el título? ¿Qué variable está representada en el eje x? ¿Qué hay en el eje y? ¿Cuáles son las unidades de medición? ¿Qué significan los símbolos y colores?
- Describa los datos: ¿Cuál es la gama numérica de los datos? ¿Qué tipo de patrones puede ver en la distribución de los datos cuando se los traza?
- Interprete los datos: ¿Cómo se relacionan los patrones que ve en el gráfico con otras cosas que sabe?
Se hace las mismas preguntas si observa un gráfico con dos variables o algo más complejo. Debido a que la creación de gráficos es una forma de analizar datos, es importante examinar los gráficos de los científicos, tanto como su interpretación escrita.
Punto de Comprensión
La estimación del error y la incertidumbre en los datos visuales
Los gráficos y otras representaciones visuales de la información científica comúnmente contienen otro elemento clave del análisis de datos científicos - una medida de incertidumbre o error dentro de las medidas (vea nuestro módulo Data: Uncertainty, Error, and Confidence). Por ejemplo, el gráfico en la Figura 3 presenta medidas promedio de emisiones de mercurio de la tierra en diferentes horas en el curso de un mismo día. Las barras de errores en cada barra vertical proveen la desviación natural estándar de cada medida, y están incluidas para demostrar que los cambios en la emisión en el tiempo son mayores que la inherente variabilidad dentro de cada medida (para más información, vea nuestro módulo Data: Statistics).
La demostración gráfica de los datos también puede ser usada no solamente para demostrar errores, sino para cuantificar errores e incertidumbre en un sistema. Por ejemplo, la Figura 4 muestra una cromatografía de un derrame de petróleo. Los picos en la cromatografía (la línea azul) proveen información sobre los químicos identificados en el derrame, y el tamaño de los picos puede proveer un estimado de la relativa concentración de ese químico específico en el derrame. Sin embargo, antes de que se pueda extraer esta información del gráfico, hay que calcular el error y la incertidumbre instrumental (la línea roja) y substraerlos de las áreas pico. Como puede ver en la Figura 4, la variabilidad instrumental disminuye a medida que se va de izquierda a derecha en el gráfico y por consiguiente, en este caso, la demostración gráfica del error es decisiva para el análisis acertado de los datos.
Punto de Comprensión
El uso indebido de las imágenes científicas
El mal uso de los gráficos puede resaltar tendencias que no existen realmente, o pueden hacer desaparecer tendencias reales. In 2006, Christopher Monckton, un periodista y antiguo consejero gubernamental británico, publicó un artículo en el Daily Telegraph, un periódico nacional cotidiano británico, que cuestionaba el concepto del cambio climático y sugería que el Informe de las Naciones Unidad sobre este tema era defectuoso. Monckton incluyó en su artículo la Figura 5, sugiriendo que el gráfico inferior, que muestra relativamente un cambio mínimo en la temperatura durante los últimos 1000 años, cuestionaba el gráfico superior usado en el Intergovernmental Panel on Climate Change donde se mostraba un rápido aumento reciente de la temperatura.
Estas son técnicas comunes usadas para distorsionar formas visuales de datos – manipulando ejes, cambiando una de las variables en una comparación, cambiando cálculos sin una total explicación – lo que puede distorsionar una verdadera comparación.
La visualización espacial y tridimensional de los datos
Aparte de los gráficos, hay otros tipos de datos visuales. Puede pensar que un mapa topográfico o una imagen satelital es una foto o un esbozo de la superficie de la Tierra, pero ambas imágenes son maneras de visualizar los datos espaciales. Un mapa topográfico muestra datos recopilados en una elevación y la ubicación de características geográficas como lagos y picos montañosos (ver la Figura 6). Estos datos pueden haber sido recopilados en el campo por topógrafos o al observar fotografías aéreas, pero, no obstante, el mapa no es una foto de una región, sino una representación visual de los datos. El mapa topográfico en la Figura 6, en realidad, está logrando una segunda meta, más allá de visualizar simplemente los datos: está tomando datos tridimensionales (las variaciones en la elevación terrestre) y exponiéndolos en dos dimensiones en un pedazo de papel liso.
De la misma manera, las imágenes satelitales son frecuentemente malentendidas como fotografías de la tierra tomadas desde el espacio, pero en realidad, son mucho más complejas que eso. Un satélite registra datos numéricos para cada píxel, y lo hace a ciertas ondas de longitud predefinidas en el espectro electromagnético (para mayor información vea nuestro módulo Luz y Electromagnetismo). En otras palabras, la imagen en sí misma es una visualización de los datos que ha sido procesada a partir de los datos crudos recibidos del satélite. Por ejemplo, el satélite Landsat registra datos en siete ondas de longitud diferentes, tres en el espectro visible y cuatro en las ondas de longitud infrarrojas. La imagen compuesta de cuatro de esas ondas de longitud está expuesta en la imagen de la porción de las Montañas Rocosas de Colorado de la figura 7. La gran zona roja en la porción inferior a la derecha de la imagen no es vegetación roja en la montaña; por el contrario, es una región con altos valores para la emisión de ondas de longitud infrarroja (o térmica). De hecho, en esta región ocurrió un gran incendio forestal, conocido como el Incendio Hayman, el mes anterior a la toma de la imagen satelital en Julio del 2002.
Punto de Comprensión
Trabajando con los datos basados en imágenes
La llegada de las imágenes satelitales expandió ampliamente un método de recopilación de datos: la extracción de datos de una imagen. Por ejemplo, de una serie de imágenes satelitales del incendio Hayman , tomadas mientras ardía el bosque, los científicos y administradores forestales pudieron extraer datos sobre la extensión del incendio (que ardió en lugares alejados de la tierra forestal nacional, que no podían ser monitoreados por la gente), la tasa de difusión y la temperatura a la que ardía. Al comparar dos imágenes satelitales, podían encontrar áreas que se habían incendiado en el curso de un día, una semana, o un mes. Por consiguiente, a pesar de que las imágenes consistían en datos numéricos, se pudo extraer información adicional de estas imágenes como recopilación de datos.
Se puede tomar otro ejemplo del ámbito de la física atómica. En 1966, Sir Isaac Newton descubrió que cuando la luz del sol pasa a través de un prisma se divide en un característico arco iris de luz. Casi 200 años después de Newton, John Herschel y W.H. Fox Talbot demostraron que al calentarse las sustancias, emiten una luz que pasa a través de un prisma y cada elemento emite un característico patrón de brillantes líneas de color, pero no entendían el por qué (ver la Figura 8). En 1913, el físico danés Neils Bohr usó estas imágenes para hacer una propuesta asombrosa: sugirió que la línea espectral de cada elemento se produce por el movimiento de los electrones entre las diferentes órbitas y, por consiguiente, estos espectros podía proveer información sobre la configuración de los electrones de los elementos (para más información vea nuestro módulo Teoría Atómica II). Usted puede efectivamente calcular la diferencia en energía potencial entre los electrones orbitales en los átomos, al analizar el color (y por consiguiente la longitud de onda) de la luz emitida.
Las fotografías y videos son también datos visuales. En 2005, un grupo de científico, en el laboratorio ornitológico Cornell, publicó sus descubrimientos sobre un pájaro que se creía extinguido en América del Norte: el pájaro carpintero de pico marfil había sido visto en Arkansas (Fitzpatrick et al., 2005). La evidencia primordial de los autores consistía del metraje de video y de fotografías de un pájaro volando que incluyeron en el trabajo, junto con un detallado análisis de las características de las imágenes. El video sugería que el pájaro era un carpintero de pico marfil. (Puede leer este artículo y ver las fotografías aquí.)
Los gráficos en las publicaciones
Muchas áreas de estudio dentro de la ciencia tienen gráficos más especializados que se usan para tipos específicos de datos. Los biólogos evolucionistas, por ejemplo, usan los árboles que han evolucionado, o cladogramos, para mostrar cómo están relacionadas las especies, qué características comparten y cómo evolucionan con el tiempo. Los geólogos usan un tipo de gráfico llamado estereográfico que representa el interior de un hemisferio para mostrar la orientación de las capas de la roca en espacios tridimensionales. Hoy en día, muchos campos usan gráficos tridimensionales para representar tres variables, aunque no representen en realidad el espacio tridimensional.
Sin importar qué tipo de gráfico se use, la creación de visualizaciones de datos claros y entendibles, tiene una importancia fundamental en todas las ramas de la ciencia. En reconocimiento de las contribuciones críticas de las visualizaciones a la ciencia, la fundación National Science Foundation y la asociación American Association for the Advancement of Science, patrocinan un concurso anual llamado Science and Engineering Visualization Challenge, que juzga las propuestas sobre la base de su impacto visual, de la eficiencia en la comunicación y de la originalidad (NSF, 2007). De la misma manera, la lectura e interpretación de los gráficos es una destreza clave para todos los niveles, desde el estudiante recién introducido en la ciencia, al investigador científico. Los gráficos son un componente clave de los trabajos de investigación científica, ya que es por ese medio que frecuentemente se presentan nuevos datos. La presentación de datos que señalan de dónde se extraen conclusiones, le brinda a otros científicos la oportunidad de analizar los datos por su propia cuenta, un proceso que tiene como propósito mantener los experimentos y análisis científicos lo más objetivo posibles. A pesar de que se necesitan las tablas para registrar los datos, los gráficos les permiten a los lectores visualizar complejos conjuntos de datos de una manera simple y concisa.