Campionamento di linee ad alta densità in Power BI

Articolo
09/08/2023

L'algoritmo di campionamento in Power BI migliora gli oggetti visivi che campionino dati ad alta densità. Ad esempio, è possibile creare un grafico a linee dai risultati delle vendite dei punti vendita, ogni negozio ha più di 10.000 ricevute di vendita ogni anno. Un grafico a linee di tali informazioni sulle vendite campionerebbe i dati dei dati per ogni archivio e creerà un grafico a linee multise series che rappresenta i dati sottostanti. Assicurarsi di selezionare una rappresentazione significativa dei dati per illustrare la variazione delle vendite nel tempo. Questa pratica è comune nella visualizzazione dei dati ad alta densità. I dettagli del campionamento dei dati ad alta densità sono descritti in questo articolo.

Screenshot of line charts, showing the high-density sampling data.

Nota

L'algoritmo di campionamento ad alta densità descritto in questo articolo è disponibile sia in Power BI Desktop che in servizio Power BI.

Funzionamento del campionamento di linee ad alta densità

In precedenza, Power BI ha selezionato una raccolta di punti dati di esempio nell'intera gamma di dati sottostanti in modo deterministico. Ad esempio, con dati ad alta densità in un oggetto visivo che si estende su un anno di calendario, potrebbero essere presenti 350 punti dati di esempio visualizzati nell'oggetto visivo, ognuno dei quali è stato selezionato per garantire che l'intera gamma di dati sia stata rappresentata nell'oggetto visivo. Per comprendere come ciò accade, si immagini di tracciare un prezzo azionario in un periodo di un anno e di selezionare 365 punti dati per creare un oggetto visivo grafico a linee. Questo è un punto dati per ogni giorno.

In tale situazione, ci sono molti valori per un prezzo azionario entro ogni giorno. Naturalmente, c'è un alto e basso giornaliero, ma quelli possono verificarsi in qualsiasi momento durante il giorno in cui il mercato azionario è aperto. Per il campionamento di linee ad alta densità, se il campione di dati sottostante è stato acquisito alle 10:30 e alle 12:00 ogni giorno, si otterrebbe uno snapshot rappresentativo dei dati sottostanti, ad esempio il prezzo alle 10:30 e alle 12:00. Tuttavia, lo snapshot potrebbe non acquisire l'effettivo prezzo massimo e basso del prezzo azionario per quel punto dati rappresentativo quel giorno. In questa situazione e in altri casi, il campionamento è rappresentativo dei dati sottostanti, ma non sempre acquisisce punti importanti, che in questo caso sarebbero i prezzi azionari giornalieri alti e bassi.

Per definizione, i dati ad alta densità vengono campionati per creare visualizzazioni ragionevolmente rapide e reattive all'interattività. Troppi punti dati su un oggetto visivo possono sminuirlo e possono sottrarre dalla visibilità delle tendenze. Il modo in cui i dati vengono campionati è ciò che determina la creazione dell'algoritmo di campionamento per offrire la migliore esperienza di visualizzazione. In Power BI Desktop, l'algoritmo offre la migliore combinazione di velocità di risposta, rappresentazione e conservazione chiara di punti importanti in ogni sezione temporale.

Funzionamento del nuovo algoritmo di campionamento delle righe

L'algoritmo per il campionamento di linee ad alta densità è disponibile per gli oggetti visivi grafico a linee e grafico ad area con un asse x continuo.

Per un oggetto visivo ad alta densità, Power BI suddivide in modo intelligente i dati in blocchi ad alta risoluzione e quindi seleziona i punti importanti per rappresentare ogni blocco. Questo processo di sezionamento dei dati ad alta risoluzione viene ottimizzato per garantire che il grafico risultante sia visivamente indistinguibile dal rendering di tutti i punti dati sottostanti, ma è più veloce e più interattivo.

Valori minimi e massimi per gli oggetti visivi a linee ad alta densità

Per qualsiasi visualizzazione, si applicano le limitazioni seguenti:

3.500 è il numero massimo di punti dati visualizzati nella maggior parte degli oggetti visivi, indipendentemente dal numero di punti dati o serie sottostanti, vedere le eccezioni nell'elenco seguente. Ad esempio, se si dispone di 10 serie con 350 punti dati ciascuno, l'oggetto visivo ha raggiunto il limite massimo di punti dati complessivi. Se si dispone di una serie, potrebbe avere fino a 3.500 punti dati se l'algoritmo ritiene che il campionamento migliore per i dati sottostanti.
È previsto un massimo di 60 serie per qualsiasi oggetto visivo. Se sono presenti più di 60 serie, suddividere i dati e creare più oggetti visivi con 60 o meno serie ognuna. È consigliabile usare un filtro dei dati per visualizzare solo i segmenti dei dati, ma solo per determinate serie. Ad esempio, se vengono visualizzate tutte le sottocategorie nella legenda, è possibile usare un filtro dei dati per filtrare in base alla categoria complessiva nella stessa pagina del report.

Il numero massimo di limiti di dati è superiore per i tipi di oggetto visivo seguenti, che sono eccezioni al limite di 3.500 punti dati:

Massimo 150.000 punti dati per gli oggetti visivi R.
30.000 punti dati per gli oggetti visivi di Mappe di Azure.
10.000 punti dati per alcune configurazioni del grafico a dispersione (i grafici a dispersione per impostazione predefinita sono 3500).
3.500 per tutti gli altri oggetti visivi usando il campionamento ad alta densità. Altri oggetti visivi potrebbero visualizzare più dati, ma non useranno il campionamento.

Questi parametri assicurano che gli oggetti visivi in Power BI Desktop eseguano rapidamente il rendering, siano reattivi all'interazione con gli utenti e non comportino un sovraccarico di calcolo eccessivo nel computer che esegue il rendering dell'oggetto visivo.

Valutare i punti dati rappresentativi per oggetti visivi a linee ad alta densità

Quando il numero di punti dati sottostanti supera il numero massimo di punti dati che possono essere rappresentati nell'oggetto visivo, inizia un processo denominato binning . Binning suddivide i dati sottostanti in gruppi denominati bin e quindi affina in modo iterativo tali contenitori.

L'algoritmo crea il maggior numero possibile di bin per creare la massima granularità per l'oggetto visivo. All'interno di ogni contenitore, l'algoritmo trova il valore minimo e massimo dei dati per garantire che i valori importanti e significativi, ad esempio gli outlier, vengano acquisiti e visualizzati nell'oggetto visivo. In base ai risultati della binning e alla successiva valutazione dei dati da parte di Power BI, la risoluzione minima per l'asse x per l'oggetto visivo viene determinata per garantire la granularità massima per l'oggetto visivo.

Come accennato in precedenza, la granularità minima per ogni serie è di 350 punti e il massimo è 3.500 per la maggior parte degli oggetti visivi. Le eccezioni sono elencate nei paragrafi precedenti.

Ogni contenitore è rappresentato da due punti dati, che diventano i punti dati rappresentativi del bin nell'oggetto visivo. I punti dati sono il valore alto e basso per il bin. Selezionando l'elemento alto e basso, il processo di binning garantisce che qualsiasi valore elevato importante o un valore basso significativo venga acquisito e sottoposto a rendering nell'oggetto visivo.

Se sembra una grande quantità di analisi per garantire che l'outlier occasionale venga acquisito e visualizzato correttamente nell'oggetto visivo, si è corretti. Questo è il motivo esatto per l'algoritmo e il processo di binning.

Descrizioni comando e campionamento di linee ad alta densità

È importante notare che questo processo di binning, che comporta l'acquisizione e la visualizzazione del valore minimo e massimo in un determinato bin, può influire sul modo in cui le descrizioni comando visualizzano i dati quando si passa il puntatore del mouse sui punti dati. Per spiegare come e perché questo si verifica, esaminiamo l'esempio sui prezzi azionari.

Si supponga di creare un oggetto visivo basato sul prezzo azionario e di confrontare due azioni diverse, entrambe con campionamento ad alta densità. I dati sottostanti per ogni serie hanno molti punti dati. Ad esempio, forse si acquisisce il prezzo azionario ogni secondo del giorno. L'algoritmo di campionamento delle linee ad alta densità esegue la binning per ogni serie indipendentemente dall'altra.

Si supponga ora che il primo titolo salti in alto nel prezzo alle 12:02, quindi torna rapidamente indietro di 10 secondi più tardi. Questo è un punto dati importante. Quando si esegue il binning per tale stock, l'altezza alle 12:02 è un punto dati rappresentativo per tale contenitore.

Tuttavia, per il secondo stock, 12:02 non era un alto né un basso nel contenitore che includeva quel tempo. Forse l'alto e il basso per il bin che include 12:02 si è verificato tre minuti dopo. In questo caso, quando viene creato il grafico a linee e si passa il puntatore del mouse su 12:02, verrà visualizzato un valore nella descrizione comando per il primo titolo. Questo perché è saltato alle 12:02 e tale valore è stato selezionato come punto dati elevato del bin. Tuttavia, non verrà visualizzato alcun valore nella descrizione comando alle 12:02 per il secondo titolo. Questo perché il secondo titolo non ha un valore alto o basso per il bin che includeva 12:02. Di conseguenza, non sono presenti dati da visualizzare per il secondo titolo alle 12:02 e pertanto non vengono visualizzati dati di descrizione comando.

Questa situazione si verifica spesso con le descrizioni comando. I valori alti e bassi per un bin specifico probabilmente non corrispondono perfettamente ai punti di valore dell'asse x con scalabilità uniforme e la descrizione comando non visualizza il valore.

Come attivare il campionamento di linee ad alta densità

Per impostazione predefinita, l'algoritmo è Attivato. Per modificare questa impostazione, passare al riquadro Formattazione , nella scheda Generale e nella parte inferiore viene visualizzato il dispositivo di scorrimento campionamento ad alta densità. Selezionare il dispositivo di scorrimento per attivare o disattivare.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Considerazioni e limitazioni

L'algoritmo per il campionamento di linee ad alta densità è un miglioramento importante di Power BI, ma è necessario tenere presenti alcune considerazioni quando si lavora con valori e dati ad alta densità.

A causa di una maggiore granularità e del processo di binning, le descrizioni comando potrebbero mostrare un valore solo se i dati rappresentativi sono allineati al cursore. Per altre informazioni, vedere la sezione Descrizioni comando e campionamento a linee ad alta densità in questo articolo.
Quando le dimensioni di un'origine dati complessiva sono troppo grandi, l'algoritmo elimina serie (elementi legenda) per contenere il vincolo massimo di importazione dei dati.
- In questo caso, l'algoritmo ordina alfabeticamente la serie di legende, iniziando l'elenco di elementi della legenda in ordine alfabetico fino a raggiungere il valore massimo di importazione dei dati e non importa più serie.
Quando un set di dati sottostante ha più di 60 serie, il numero massimo di serie, l'algoritmo ordina in ordine alfabetico la serie ed elimina le serie oltre la 60a serie ordinata alfabeticamente.
Se i valori nei dati non sono di tipo numerico o di data/ora, Power BI non userà l'algoritmo e ripristina l'algoritmo di campionamento precedente non ad alta densità.
L'impostazione Mostra elementi senza dati non è supportata con l'algoritmo .
L'algoritmo non è supportato quando si usa una connessione dinamica a un modello ospitato in SQL Server Analysis Services versione 2016 o precedenti. È supportato nei modelli ospitati in Power BI o In Azure Analysis Services.

Campionamento ad alta densità nei grafici a dispersione di Power BI