Power BI Desktop의 2017년 9월 릴리스 및 Power BI 서비스에 대한 업데이트로 시작하는 새 샘플링 알고리즘은 분산형 차트가 고밀도 데이터를 나타내는 방법을 향상시키는데 사용 가능합니다.

예를 들어 매년 수만 개의 데이터 요소가 있는 각 상점의 경우 조직의 영업 활동에서 분산형 차트를 만들 수 있습니다. 이러한 정보의 분산형 차트는 사용 가능한 데이터에서 데이터(시간에 따른 판매 상황을 설명하기 위해 해당 데이터의 의미 있는 표현 선택)를 샘플링하고 기본 데이터를 나타내는 분산형 차트를 만듭니다. 이것은 고밀도 분산형 차트의 일반적인 사례이며 Power BI는 고밀도 데이터의 해당 샘플링을 향상시켰습니다. 해당 세부 정보는 이 문서에서 설명됩니다.

참고: 이 문서에서 설명된 고밀도 샘플링 알고리즘은 Power BI DesktopPower BI 서비스 모두의 분산형 차트에 적용되며 둘 다에서 사용할 수 있습니다.

고밀도 분산형 차트 작동 방식

이전에 Power BI는 분산형 차트를 만들기 위해 결정적 방식으로 기본 데이터의 전체 범위에서 샘플 데이터 요소의 컬렉션을 선택했습니다. 특히 Power BI는 분산형 차트 시리즈에서 데이터의 첫 번째 및 마지막 행을 선택하고 나머지 행을 균등하게 나누어서 총 3,500개의 데이터 요소가 분산형 차트에 그려집니다. 예를 들어 샘플에 35,000개의 행이 있는 경우 그리기 위해 첫 번째 및 마지막 행을 선택하면 모든 10번째 행이 그려집니다(35,000개/10행=모든 10번째 행=3,500개의 데이터 요소). 또한 이전에 데이터 시리즈에 그려질 수 없는 null 값 또는 지점(예: 텍스트 값)이 표시되지 않았으므로 시각적 개체를 생성하려고 고려하지 않았습니다. 이러한 샘플링을 사용하는 경우 분산형 차트의 인지된 밀도는 대표 데이터 요소에 기반했고 따라서 내재된 시각적 밀도는 기본 데이터의 전체 컬렉션이 아닌 샘플링된 지점에 따랐습니다.

고밀도 샘플링을 사용하는 경우 Power BI는 겹치는 지점을 제거하는 알고리즘을 구현하고 시각적 개체와 상호 작용할 때 시각적 개체의 지점에 연결될 수 있는지를 확인합니다. 또한 대표적인 샘플만 그리는 것이 아니라 시각적 개체에서 데이터 집합의 모든 지점을 표시하도록 하여 선택된 포인트의 의미에 대한 컨텍스트를 제공합니다.

기본적으로 고밀도 데이터를 샘플링하여 신속하게 만들 수 있고 대화형 작업에 반응하는 시각화를 활성화합니다.(시각적 개체의 너무 많은 데이터 요소가 있으면 진행이 어렵고 추세의 가시성을 손상시킬 수 있습니다.) 최상의 시각화 환경을 제공하고 모든 데이터를 표시하기 위해 이러한 데이터를 샘플링하는 방법으로 인해 샘플링 알고리즘이 생성됩니다. Power BI에서 알고리즘이 향상되어 전반적인 데이터 집합에서 중요한 지점의 응답성, 표현 및 선명한 보존의 최적 조합을 제공합니다.

참고: 고밀도 샘플링 알고리즘을 사용하는 분산형 차트는 모든 분산형 차트와 마찬가지로 정사각형 시각적 개체에 가장 잘 표현됩니다.

새로운 분산형 차트 샘플링 알고리즘 작동 방법

분산형 차트에 대한 고밀도 샘플링의 새로운 알고리즘은 기본 데이터를 보다 효율적으로 캡쳐하고 나타내며 겹치는 지점을 제거하는 메서드를 사용합니다. 각 데이터 요소에 작은 반지름부터 시작합니다(시각화의 지정된 지점에 대한 시각적 원 크기) 모든 데이터 요소의 반지름을 증가시킵니다. 두 개(이상)의 데이터 요소가 겹치는 경우 (증가된 반지름 크기의) 단일 원은 이러한 겹쳐진 데이터 요소를 나타냅니다. 알고리즘은 해당 반지름 값이 분산형 차트에 적절한 수의 데이터 요소(3,500개)를 표시할 때까지 데이터 요소의 반지름을 계속 증가시킵니다.

이 알고리즘의 메서드는 이상값을 결과 시각적 개체에 표시하도록 합니다. 중첩 구조를 결정하는 경우 알고리즘은 기본 시각화된 지점에 대한 정확도를 포함하여 지수 크기를 시각화하는 등 크기도 고려합니다.

또한 알고리즘은 분산형 차트의 전체적인 모양을 유지합니다.

참고: 분산형 차트에 고밀도 샘플링 알고리즘을 사용하는 경우 목표는 내재된 시각적 밀도가 아니라 데이터의 *정확한 배포*입니다. 예를 들어 특정 부분에서 겹치는 원(밀도)이 많은 분산형 차트가 표시되고 많은 데이터 요소가 클러스터되어야 한다고 가정할 수 있습니다. 고밀도 샘플링 알고리즘은 많은 데이터 요소를 표시하기 위해 하나의 원을 사용할 수 있으므로 이러한 내재된 시각적 밀도(또는 "클러스터링")는 표시되지 않습니다. 지정된 영역에서 자세한 내용을 보려면 슬라이서를 사용하여 확대할 수 있습니다.

또한 그릴 수 없는 데이터 요소(예: null 값 또는 텍스트 값)는 무시되므로 그릴 수 있는 다른 값을 선택하면 분산형 차트의 진정한 모양을 유지 관리할 수 있습니다.

분산형 차트에 대한 표준 알고리즘을 사용하는 경우

고밀도 샘플링을 분산형 차트에 적용할 수 없는 상황에서는 원래 알고리즘을 사용합니다. 이런 경우는 다음과 같습니다.

  • 세부 정보를 마우스 오른쪽 단추로 클릭할 경우 나타나는 메뉴에서 데이터가 없는 항목 표시를 선택하면 분산형 차트는 원래 알고리즘으로 되돌아갑니다.

  • 재생 축의 모든 값은 분산형 차트가 원래 알고리즘으로 되돌아가도록 만듭니다.

  • 분산형 차트에서 X 및 Y 축이 모두 누락되면 차트는 원래 알고리즘으로 되돌아갑니다.

  • 분석 창에서 비율 줄을 사용하면 차트가 원래 알고리즘으로 되돌아갑니다.

분산형 차트에 고밀도 샘플링을 사용하는 방법

고밀도 샘플링을 사용하려면 분산형 차트를 선택하고 서식 창으로 이동하고 일반 카드를 확장합니다. 해당 카드 맨 아래 근처에서 고밀도 샘플링이라는 설정/해제 슬라이더를 사용할 수 있습니다. 이 기능을 사용하려면 켜기로 밉니다.

참고: 슬라이더가 켜지면 Power BI는 가능하면 고밀도 샘플링 알고리즘을 사용하려고 합니다. 알고리즘을 사용할 수 없는 경우(예: 재생 축에서 값을 배치한 경우) 차트가 표준 알고리즘으로 되돌아가더라도 지정 슬라이더는 켜기 위치에 있게 됩니다. 재생 축에서 값을 제거하는 경우(또는 고밀도 샘플링 알고리즘을 사용할 수 있도록 조건이 변경된 경우) 슬라이더가 켜져 있으므로 차트는 자동으로 해당 차트에 대한 고밀도 샘플링을 사용합니다.

참고: 데이터 요소는 인덱스별로 그룹화 및/또는 선택됩니다. 범례는 알고리즘의 샘플링에 영향을 주지 않습니다. 시각적 개체의 순서 지정에만 적용됩니다.

고려 사항 및 제한 사항

고밀도 샘플링 알고리즘은 Power BI에 중요한 개선이지만 고밀도 값 및 분산형 차트를 사용할 때 알아야 할 몇 가지 고려 사항이 있습니다.

  • 고밀도 샘플링 알고리즘은 Power BI 서비스 기반 모델, 가져온 모델 또는 DirectQuery에 대한 라이브 연결만을 사용합니다.

자세한 내용

다른 차트에서 고밀도 샘플링에 대한 내용은 다음 문서를 참조하세요.