Power BI 中的高密度線路取樣
Power BI 中的取樣演算法可改善取樣高密度數據的視覺效果。 例如,您可能會從零售商店的銷售結果建立折線圖,每個商店每年有超過 10,000 個銷售收據。 這類銷售資訊的折線圖會從每個商店的數據取樣數據,並建立多系列折線圖,以代表基礎數據。 請務必選取有意義的該數據表示法,以說明銷售隨著時間的變化。 這種做法在可視化高密度數據時很常見。 本文將說明高密度數據取樣的詳細數據。
注意
本文所述的高密度取樣演算法適用於Power BI Desktop和 Power BI 服務。
高密度線條取樣的運作方式
先前,Power BI 會以具決定性的方式選取完整範圍基礎數據的範例數據點集合。 例如,在跨越一個日曆年之視覺效果上的高密度數據時,視覺效果中可能會顯示 350 個範例數據點,每個數據點都已選取,以確保視覺效果中代表完整的數據範圍。 為了協助瞭解這種情況的發生方式,想像在一年內繪製股票價格,並選取 365 個數據點來建立折線圖視覺效果。 這是每天的一個數據點。
在這種情況下,每天股票價格有許多值。 當然,有每日高點和低點,但這些可能發生在股市開盤當天的任何時間。 針對高密度線條取樣,如果基礎數據樣本是每天上午 10:30 和下午 12:00 拍攝,您會取得基礎數據的代表性快照,例如上午 10:30 和下午 12:00 的價格。 不過,快照集可能不會擷取當天該代表性數據點的實際股價高點和低點。 在這種情況下,取樣代表基礎數據,但它並不總是擷取重要點,在這種情況下,這將是每日股價高點和低點。
根據定義,高密度數據會取樣,以合理快速地建立響應互動的視覺效果。 視覺效果上的數據點太多可能會使其陷入困境,而且可能會減去趨勢的可見度。 數據的取樣方式是驅動取樣演算法的建立,以提供最佳的視覺效果體驗。 在 Power BI Desktop 中,此演算法提供每次配量中重要點的最佳回應性、表示和清楚保留的組合。
新線路取樣演算法的運作方式
高密度折線取樣的演算法適用於具有連續 X 軸的折線圖和分區圖視覺效果。
針對高密度視覺效果,Power BI 會以智慧方式將數據分割成高解析度區塊,然後挑選重要點來代表每個區塊。 切割高解析度數據的流程經過微調,以確保產生的圖表在可視化上與呈現所有基礎數據點不同,但速度較快且更具互動性。
高密度線條視覺效果的最小值和最大值
針對任何視覺效果,適用下列限制:
3,500 是大多數視覺效果上顯示的數據點數目上限,不論基礎數據點或數列的數目為何,請參閱下列清單中的例外狀況。 例如,如果您的10個數列各有350個數據點,視覺效果已達到其最大整體數據點限制。 如果您有一個數列,如果演算法認為基礎數據的最佳取樣,則最多可能會有 3,500 個數據點。
任何視覺效果最多 有60個數列 。 如果您有 60 個以上的數列,請分割數據,並建立多個具有 60 個或更少數列的視覺效果。 最好使用 交叉分析篩選器 只顯示數據區段,但僅適用於特定數列。 例如,如果您要在圖例中顯示所有子類別,您可以使用交叉分析篩選器,依相同報表頁面上的整體類別進行篩選。
下列視覺效果類型的數據限制數目上限較高,這是 3,500 個數據點限制的例外 狀況:
- R 視覺效果的最大 150,000 個數據點。
- Azure 地圖視覺效果的 30,000 個數據點。
- 某些散佈圖組態的 10,000 個數據點(散佈圖預設為 3500)。
- 使用高密度取樣的所有其他視覺效果 3,500 。 有些其他視覺效果可能會將更多數據可視化,但不會使用取樣。
這些參數可確保Power BI Desktop中的視覺效果快速轉譯、回應用戶互動,而且不會造成計算機上轉譯視覺效果的不當計算負荷。
評估高密度線條視覺效果的代表性數據點
當基礎數據點數目超過視覺效果中可以表示的最大數據點時,就會開始稱為 量化 的程式。 量化會將基礎數據分割成稱為 bins 的 群組,然後反覆精簡這些量化。
演算法會盡可能建立多個量化,以建立視覺效果的最大粒度。 在每個量化內,演算法會尋找最小值和最大值,以確保在視覺效果中擷取和顯示重要且重要的值,例如極端值。 根據 Power BI 對數據量化的結果和後續評估數據的結果,決定視覺效果 X 軸的最小解析度,以確保視覺效果的最大粒度。
如先前所述,每個數列的最小粒度為 350 點,而且大多數視覺效果的最大值為 3,500。 例外 狀況 會列在前一個段落中。
每個量化都會以兩個數據點表示,這會成為視覺效果中的 bin 代表性數據點。 數據點是該量化的高值和低值。 藉由選取高和低,量化程式可確保在視覺效果中擷取和轉譯任何重要的高值或顯著低值。
如果這聽起來像是許多分析,以確保偶爾會擷取極端值,並在視覺效果中正確顯示,則正確無誤。 這是演算法和量化程式的確切原因。
工具提示和高密度線條取樣
請務必注意,這個量化程式會導致擷取和顯示指定量化中的最小值和最大值,可能會影響工具提示在將數據指標暫留在數據點上時顯示數據的方式。 為了說明這種情況的發生方式和原因,讓我們重新審視我們的股票價格範例。
假設您正在根據股價建立視覺效果,而且您正在比較兩個不同的股票,這兩種股票都使用 高密度取樣。 每個數位的基礎數據都有許多數據點。 例如,也許您每天每秒擷取股票價格。 高密度線條取樣演算法會針對彼此獨立執行每個數列的量化。
現在讓我們說,第一隻股票漲價在12:02,然後迅速回落10秒后。 這是重要的數據點。 當該庫存發生量化時,高點為 12:02 是該量化的代表數據點。
然而,對於第二隻股票,12:02在包含該時間的垃圾箱中不是高點也不是低點。 也許包含 12:02 的量化高點和低點發生在三分鐘後。 在此情況下,建立折線圖並將滑鼠停留在 12:02 上方時,您會看到第一個股票的工具提示中的值。 這是因為它跳到 12:02,且該值已選取為該 Bin 的高數據點。 不過,您不會在第二個股票的 12:02 看到工具提示中的任何值。 這是因為第二個股票沒有高或低的量化,包括12:02。 因此,第二個股票沒有數據要顯示在 12:02,因此不會顯示任何工具提示數據。
此工具提示會經常發生這種情況。 特定量化的高值和低值可能無法與平均縮放的 X 軸值點完全相符,而且工具提示不會顯示值。
如何開啟高密度線條取樣
根據預設,演算法為 [開啟]。 若要變更此設定,請移至 [一般] 卡片中的 [格式化] 窗格,然後沿著底部看到 [高密度取樣] 滑桿。 選取滑桿以開啟或關閉。
考量與限制
高密度線條取樣的演算法是 Power BI 的重要改進,但使用高密度值和數據時,您需要知道幾個考慮。
由於數據粒度和量化程式增加, 工具提示 只有在代表性數據與您的數據指針對齊時,才會顯示值。 如需詳細資訊,請參閱 本文中的工具提示和高密度線條取樣 一節。
當整體數據源的大小太大時,演算法會排除數列(圖例元素)以容納數據匯入最大條件約束。
- 在此情況下,演算法會依字母順序排序圖例數列,從依字母順序排列的圖例元素清單,直到達到數據匯入最大值為止,而且不會匯入更多數列。
當基礎數據集有超過 60 個數列時,數列數目上限、演算法會依字母順序排序數列,並排除超過第 60 個依字母順序排序數列的數位。
如果數據中的值不是數值或日期/時間類型,Power BI 將不會使用演算法,而且會還原為先前的非高密度取樣演算法。
演算法不支援 [顯示沒有資料設定的專案]。
使用 SQL Server Analysis Services 2016 版或更早版本中裝載之模型的即時連線時,不支援此演算法。 Power BI 或 Azure Analysis Services 中裝載的模型支援它。