Muestreo de líneas de alta densidad en Power BI

Artículo
03/23/2023

El algoritmo de muestreo de Power BI mejora los objetos visuales que representan muestreos de datos de alta densidad. Por ejemplo, puede crear un gráfico de líneas a partir de los resultados de ventas de las tiendas, donde cada tienda tiene más de 10 000 recibos de ventas al año. Un gráfico de líneas de dicha información de ventas realizaría un muestreo de los datos de cada tienda, y crearía un gráfico de líneas de varias series que, por lo tanto, representa los datos subyacentes. Asegúrese de seleccionar una representación significativa de esos datos para ilustrar cómo las ventas varían con el tiempo. Esta es una práctica habitual al visualizar datos de alta densidad. Los detalles del muestreo de datos de alta densidad se describen en este artículo.

Screenshot of line charts, showing the high-density sampling data.

Nota:

El algoritmo de muestreo de alta densidad que se describe en este artículo está disponible tanto en Power BI Desktop como en el servicio Power BI.

Cómo funciona el muestreo de líneas de alta densidad

Anteriormente, Power BI seleccionaba una colección de puntos de datos de muestra en el intervalo completo de datos subyacentes de manera determinista. Por ejemplo, con datos de alta densidad en un objeto visual que abarca un año natural, podría haber 350 puntos de datos de muestra que aparecen en el objeto visual, cada uno de los cuales se seleccionó para garantizar que toda la gama de datos estuviera representada en dicho objeto. Para entender cómo ocurre esto, imagine que traza el precio de una acción a lo largo de un año y selecciona 365 puntos de datos para crear un gráfico de líneas. Es decir, un dato por día.

En ese caso, dentro de cada día hay muchos valores para la cotización en bolsa. Por supuesto, hay un mínimo y un máximo diarios, pero estos pueden producirse en cualquier momento durante el día mientras la bolsa de valores está abierta. Para el muestreo lineal de alta densidad, si la muestra de datos subyacentes se tomara a las 10:30 de la mañana y a las 12:00 del mediodía cada día, se obtendría una instantánea representativa de los datos subyacentes, como el precio a estas dos horas. Sin embargo, es posible que la instantánea no refleje el precio máximo y mínimo real de la acción para ese punto de datos representativo de ese día. En esta y otras situaciones, el muestreo es representativo de los datos subyacentes, pero no siempre refleja puntos importantes, que en este caso serían las cotizaciones máximas y mínimas diarias.

Por definición, se muestrean los datos de alta densidad para crear visualizaciones de forma razonablemente rápida que responden a interactividad. Si hay demasiados puntos de datos en un objeto visual pueden provocar que se ralentice y disminuya la visibilidad de las tendencias. La forma de muestrear los datos es lo que impulsa la creación del algoritmo de muestreo para ofrecer la mejor experiencia de visualización. En Power BI Desktop, el algoritmo proporciona la mejor combinación de capacidad de respuesta, representación y conservación clara de los puntos importantes en cada segmento de tiempo.

Cómo funciona el nuevo algoritmo de muestreo de líneas

El algoritmo para el muestreo lineal de alta densidad está disponible para los objetos visuales de gráfico de líneas y gráfico de áreas con un eje x continuo.

En los objetos visuales de alta densidad, Power BI segmenta de forma inteligente los datos en fragmentos de alta resolución y, después, elige los puntos importantes para representar cada fragmento. Este proceso de segmentación de datos de alta resolución se optimiza para garantizar que el gráfico resultante sea visualmente indistinguible de la representación de todos los puntos de datos subyacentes, pero es más rápido e interactivo.

Valores mínimos y máximos de los objetos visuales de líneas alta densidad

En cualquier visualización, se aplican las siguientes limitaciones:

3500 es el número máximo de puntos de datos que se muestran en la mayoría de objetos visuales, independientemente del número de puntos de datos subyacentes o de series (vea las excepciones en la siguiente lista). Por lo tanto, si tiene 10 series con 350 puntos de datos cada una, el objeto visual habrá alcanzado su límite máximo de puntos de datos totales. Si tiene una serie, podría tener hasta 3500 puntos de datos si el nuevo algoritmo considera que ese es el mejor muestreo para los datos subyacentes.
Hay 60 serie como máximo para cualquier objeto visual. Si tiene más de 60 series, divida los datos y cree varios objetos visuales con 60 series o menos cada uno. Es recomendable usar una segmentación para mostrar solo segmentos de los datos, pero solo para determinadas series. Por ejemplo, si se muestran todas las subcategorías en la leyenda, podría usar una segmentación de datos para filtrar por la categoría general en la misma página del informe.

El número máximo de límites de datos es mayor para los siguientes tipos de objetos visuales, que son excepciones al límite de 3 500 puntos de datos:

150 000 puntos de datos máximo para objetos visuales de R.
30 000 punto de datos para objetos visuales de mapa de Azure.
10 000 puntos de datos para algunas configuraciones de gráficos de dispersión (el valor predeterminado de los gráficos de dispersión es 3500).
3500 para todos los demás objetos visuales que usan el muestreo de alta densidad. Algunos otros objetos visuales pueden visualizar más datos, pero no usarán el muestreo.

Estos parámetros garantizan que los objetos visuales de Power BI Desktop se representen rápidamente, respondan a la interacción con los usuarios y no supongan una sobrecarga computacional indebida en el equipo que representa el objeto visual.

Evaluación de puntos de datos representativos para objetos visuales lineales de alta densidad

Cuando el número de puntos de datos subyacentes supera el máximo de puntos de datos que se pueden representar en el objeto visual, se inicia un proceso denominado discretización. La discretización fragmenta los datos subyacentes en grupos denominados ubicaciones y, luego, refina de forma iterativa esos contenedores.

El algoritmo crea tantas ubicaciones como sea posible para crear la mayor granularidad para el objeto visual. Dentro de cada ubicación, el algoritmo encuentra el valor de datos mínimo y máximo, para garantizar que los valores importantes y significativos (por ejemplo, los valores atípicos) se capturan y muestran en el objeto visual. Basándose en los resultados de la discretización y la evaluación posterior de los datos que realiza Power BI, se determina la resolución mínima para el eje x del objeto visual, con el fin de garantizar la máxima granularidad para el objeto visual.

Como se mencionó anteriormente, la granularidad mínima en cada serie es de 350 puntos y la máxima de 3500. Las excepciones se enumeran en los párrafos anteriores.

Cada ubicación se representa mediante dos puntos de datos, que se convierten en los puntos de datos representativos de la ubicación en el objeto visual. Los puntos de datos son el valor alto y bajo de esa discretización. Al seleccionar los valores altos y bajos, el proceso de discretización garantiza que cualquier valor alto importante, o valor bajo significativo, se captura y aparece representado en el objeto visual.

Si esto le parece mucho análisis para garantizar que el valor atípico ocasional se captura y se muestra correctamente en el objeto visual, tiene razón. Esa es la razón exacta del algoritmo y el proceso de discretización.

Información sobre herramientas y muestreo de líneas de alta densidad

Es importante tener en cuenta que este proceso de discretización, que da como resultado la captura y representación de los valores mínimos y máximos en una ubicación determinada, puede afectar a cómo la información sobre herramientas muestra los datos cuando se mantiene el mouse sobre los puntos de datos. Para explicar cómo y por qué ocurre esto, se recurrirá otra vez al ejemplo sobre cotizaciones en bolsa.

Imagine que va a crear un objeto visual basado en las cotizaciones en bolsa y que compara dos paquetes de acciones diferentes: ambos usan el muestreo de alta densidad. Los datos subyacentes de cada serie tienen muchos puntos de datos. Por ejemplo, tal vez capture el precio de las acciones cada segundo del día. El algoritmo de muestreo de líneas de alta densidad realiza la discretización de forma independiente para cada serie.

Ahora supongamos que el primer paquete de acciones sube de precio a las 12:02, y diez segundos más tarde, vuelve a bajar rápidamente. Este es un punto de datos importante. Cuando se produce la discretización de esas acciones, la subida de las 12:02 será un punto de datos representativo en esa ubicación.

Sin embargo, para el segundo paquete de acciones, a las 12:02 no hubo ninguna subida o bajada en la ubicación que incluía esa hora. Quizás el alto y bajo de la ubicación que incluye 12:02 se produjo tres minutos más tarde. En esa situación, cuando se crea el gráfico de líneas y se mantiene el puntero sobre las 12:02, verá un valor en la información sobre herramientas para el primer paquete de acciones. Esto se debe a que hubo un salto a las 12:02 y ese valor se seleccionó como punto de datos alto de esa ubicación. Sin embargo, no verá ningún valor en la información sobre herramientas a las 12:02 para el segundo paquete de acciones. El motivo es que el segundo paquete de acciones no tenía un valor ni alto ni bajo en la ubicación que incluyera las 12:02. Por lo tanto, no hay datos que mostrar para el segundo paquete de acciones a las 12:02, y por lo tanto, no se muestra ningún dato de información sobre herramientas.

Esta situación aparece con frecuencia en la información sobre herramientas. Los valores altos y bajos de una ubicación específica probablemente no coincidan perfectamente con los puntos de valor del eje x escalados uniformemente, y la información sobre herramientas no muestra el valor.

Cómo activar el muestreo de líneas de alta densidad

De forma predeterminada, el algoritmo está activado. Para cambiar este valor, vaya al panel Formato, en la tarjeta General y, en la parte inferior, verá un control deslizante llamado Muestreo de alta densidad. Seleccione el control deslizante para activarlo o desactivarlo.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Consideraciones y limitaciones

El nuevo algoritmo para el muestreo lineal de alta densidad es una mejora importante en Power BI, pero hay algunas consideraciones que debe conocer a la hora de trabajar con datos y valores de alta densidad.

Debido a una mayor granularidad y al proceso de discretización, es posible que las informaciones sobre herramientas solo muestren un valor si hay datos representativos que estén alineados con el cursor. Para más información, consulte la sección Información sobre herramientas y muestreo lineal de alta densidad de este artículo.
Cuando el tamaño de un origen de datos global es demasiado grande, el algoritmo elimina series (elementos de leyenda) para dar cabida a la restricción máxima de importación de datos.
- En esta situación, el algoritmo ordena las series de leyendas alfabéticamente, comenzando por la lista de elementos de leyenda en orden alfabético hasta alcanzar el máximo de importación de datos, y no importa más series.
Cuando un conjunto de datos subyacente tiene más de 60 series, el número máximo de series, el algoritmo ordena las series alfabéticamente y elimina las series más allá de la 60ª serie ordenada alfabéticamente.
Si los valores de los datos no son de tipo numérico o de fecha y hora, Power BI no usa el algoritmo y vuelve al algoritmo anterior (muestreo de densidad no alta).
El valor Mostrar elementos sin datos no es compatible con el algoritmo.
El algoritmo no se admite cuando se usa una conexión dinámica a un modelo que se hospeda en SQL Server Analysis Services, versión 2016 o anterior. Se admite en modelos hospedados en Power BI o Azure Analysis Services.

Muestreo de alta densidad en los gráficos de dispersión de Power BI