두 사람이 논의하고 있는 모습

증강 데이터 준비에 관한 입문서

기계 학습 및 기타 증강 분석을 통해 회사는 빠르게 인사이트를 얻을 수 있습니다.


증강 데이터 준비는 무엇인가요?

간단히 말해서, 증강 데이터 준비는 데이터 과학 및 분석에 대한 깊은 전문 지식이 부족한 비즈니스 사업가나 다른 작업자들이 분석을 위한 풍부하고 안정적인 데이터 세트를 생성할 수 있게 합니다. 증강 데이터 준비 도구는 기계 학습(ML) 및 인공 지능(AI)을 기반으로 하여 자동화된 셀프 서비스 플랫폼에서 제공되는 것으로, 원시 데이터를 찾고 검사하여 소비 가능한 형태로 바꿔주는 전환 프로세스를 가지고 있습니다. 이 도구는 인간의 지능이나 컨텍스트 인식을 대체하는 것이 아니라 향상시킵니다.

경쟁 우위를 확보하기 위해 리더와 LOB(기간 업무) 관리자, 파트너, 기타 사람들은 비즈니스 인텔리전스(BI) 및 비즈니스 분석에 의존하여 정확하고 시기적절하며 관련성 있는 인사이트를 제공합니다. 회사는 증강 데이터 준비를 통해 데이터 준비를 분산시키고 민주화하여 더 많은 직원이 이러한 인사이트를 생성하는 데 도움을 줄 수 있습니다.


증강 데이터 준비 도구는 어떻게 사용되나요?

증강 데이터 준비 도구를 사용하면 데이터 처리의 첫 번째이자 아마도 가장 중요한 단계인 분석 모델을 구축, 테스트, 학습시키는 데 필요한 데이터 세트를 생성하는 과정을 간소화할 수 있습니다.

일반적으로 데이터 준비는 코드를 작성하고 전문 소프트웨어를 사용하여 내부 운영 시스템에서 데이터를 추출하고 정리 및 구조화한 다음 데이터 웨어하우스에 로드를 준비하는 기술 팀에서 해야할 일이었습니다. 데이터 추출, 변환, 로드(ETL)로 알려진 이 프로세스는 복잡하고 시간이 많이 걸리며 오류가 발생하기 쉽습니다.

대부분의 일반 비즈니스 사용자는 ETL 작업을 스스로 수행할 기술이나 시간이 없습니다. 비즈니스 분석가, 개발자, 공식적인 데이터 과학 교육을 받지 않았지만 몇몇 고급 분석 작업을 수행하는 기타 작업자와 같은 일반 시민 데이터 과학자들도 분석할 데이터와 분석 방식을 결정하기 위해 데이터 엔지니어 및 기타 데이터 전문가에게 의존합니다.

시대가 바뀌었습니다. 이제 조직은 텍스트와 이미지를 비롯한 방대한 양의 정형, 반정형 및 비정형 데이터를 여러 개의 사일로화된 애플리케이션 및 시스템에 저장합니다. 일원화된 IT 및 데이터 관리 팀에서 시간과 리소스를 사용해 데이터를 수집하고 준비하고 회사의 다양한 분석 이니셔티브를 수행하는 경우는 거의 없습니다.

증강 데이터 준비 도구 덕분에 더 많은 사람들이 개입하여 함께 도울 수 있습니다. 포인트 앤 클릭 방식의 대화형 인터페이스가 특징인 이 도구는 데이터 준비와 관련된 데이터 기반 의사 결정 방식을 통해 사용자를 차근차근 안내해줍니다.


데이터 분석 단계는 어떻게 구성되나요?

데이터 랭글링 또는 데이터 먼징이라고도 하는 이 데이터 준비 프로세스는 데이터를 통합하고 구조화, 체계화하기 위한 일련의 순차적 활동으로 구성됩니다. 일반적으로 사용되는 범주로 나뉘어 아래에 설명된 이 데이터 준비 단계는 하나 이상의 특정 사용 사례를 가지고 신뢰할 수 있는 단일 데이터 세트를 만들어갑니다.

  1. 수집. 분석 팀은 의도한 분석 목표에 따라 내부 및 외부 데이터 소스에서 관련 데이터를 식별하고 가져옵니다. 예를 들어, 분석 목표가 고객 제품 선호도를 파악하는 것이면 팀은 CRM 및 영업 애플리케이션, 고객 설문조사, 소셜 미디어 피드백을 통해 양적 및 질적 데이터를 얻을 수 있습니다. 이러한 과정에서 팀은 모든 이해 관계자와 상의하여 신뢰할 수 있는 데이터 세트를 사용해야 합니다. 그렇지 않으면 편향되거나 왜곡된 분석 결과를 도출할 위험이 있기 때문입니다.
  2. 검색 및 프로파일링. 탐색 및 분석의 반복적인 단계를 통해 팀은 수집한 원시 데이터를 조사하여 각 데이터 세트 내의 개별 콘텐츠와 전체 구조를 더 잘 이해하게 됩니다. 데이터 세트 간의 관계도 연구합니다. 팀은 데이터 프로파일링을 통해 분석 모델의 개발 및 교육에 데이터를 사용하기 전에 해결해야 하는 이상, 불일치, 격차 데이터, 기타 문제에 대한 통계를 수집하고 요약합니다. 예를 들어, 시스템 전체에 저장된 이름, 주소와 같은 고객, 환자, 기타 데이터 세트는 종종 철자가 서로 다르거나 사용 방식에서 다른 경우가 많습니다.
  3. 정리. 이 단계에서 팀은 모든 데이터 품질 문제를 세심하게 수정해야 합니다. 정리 단계에는 결측값 채우기, 결함 있는 데이터 수정 또는 제거, 관련 없는 데이터 필터링, 민감한 데이터 마스킹과 같은 활동이 포함됩니다. 시간이 많이 걸리고 지루한 이 데이터 준비 단계는 데이터 정확성과 일관성을 보장하는 데 중요합니다. 정리는 데이터 조화를 이루어야 하는 방대한 볼륨 때문에 빅 데이터로 작업할 때 특히 중요합니다.
  4. 구조화. 이 단계에서는 모델링 도구를 통해 원활하게 데이터에 액세스할 수 있게 하는 테이블 구성을 설정해주는 데이터베이스 스키마를 개발해야 합니다. 스키마는 지속적으로 변화하는 데이터를 통합된 방식으로 저장하는 영구적인 구조라고 볼 수 있습니다. 모든 스키마 구성요소를 정의합니다.
  5. 변환 및 강화. 스키마가 결정되면 팀은 모든 데이터 형식이 일치하는지 확인해야 합니다. 계층을 조정하고 열과 필드를 추가, 병합 또는 삭제하는 것과 같이 일부 기존 데이터 형식을 변경해야 합니다. 또한 팀은 조직 내외부의 소스에서 가져온 행동, 인구 통계, 지리 및 기타 상황 정보를 사용하여 데이터를 향상시킬 수 있습니다. 강화된 데이터 세트를 통해 분석 모델은 보다 포괄적인 데이터 세트로 학습할 수 있으므로 보다 정확하고 가치 있는 인사이트를 제공할 수 있습니다.
  6. 검증. 이제 팀은 작성된 스크립트나 도구를 사용하여 데이터 세트의 품질과 정확성을 확인해야 합니다. 또한 사용자 및 프로젝트 모델링 도구에서 데이터에 쉽게 액세스할 수 있게 데이터 구조 및 형식이 프로젝트 요구 사항과 일치하는지 확인합니다. 데이터 세트의 크기에 따라, 팀은 전체 데이터 세트가 아닌 데이터 샘플을 테스트할 수 있습니다. 데이터 준비 프로세스의 마지막 단계로 넘어가기 전에 모든 문제를 해결해야 합니다.
  7. 게시. 팀에서 데이터의 품질이 높다고 확신하면 데이터를 대상 데이터 웨어하우스, 데이터 레이크 또는 다른 저장소로 전송합니다. 팀이나 조직 내의 다른 사람들이 분석 모델을 개발하고 테스트하기 위해 여기에 액세스할 수 있습니다.

기계 학습은 어떻게 데이터 준비 및 모델링을 향상시키나요?

증강 데이터 분석은 ML, 자동화, 자연어 생성(NLG), 데이터 시각화를 포함한 증강 분석을 통해 가능합니다. 예를 들어, 증강 데이터 검색은 AI 유형인 ML에 크게 의존하여 알고리즘과 통계 모델을 사용하여 데이터로부터 학습하고 인간 개입 없이 적용되고 실행됩니다.

ML을 사용하는 검색 도구들은 학습된 지식을 적용하여 모델이 해결해야 하는 문제와 테스트할 가설에 어떤 유형의 데이터 세트가 필요한지 판단합니다. 또한 이 도구들은 사용할 데이터 세트가 수집된 컨텍스트를 고려합니다. 그런 다음, 데이터 세트의 패턴을 신속하게 분석 및 추론하고 결합할 패턴을 지능적으로 제안합니다.

증강 데이터 검색은 ML 사용 뿐만 아니라 기계 학습 모델에 사용할 효과적인 데이터를 준비하는 데 도움이 됩니다. 예를 들어, 검색 도구는 ML 알고리즘을 사용하여 데이터를 정리 및 강화하고 이 데이터를 ML 모델 분석에 적합한 형식으로 변환하는 방법에 대해 사용자에게 추천해줍니다.


기업이 증강 데이터 준비로부터 얻는 이점은 무엇인가요?

산업계 전반에서 비즈니스 리더와 팀은 매일 데이터를 활용할 수 있는 새롭고 전략적인 방법을 탐색합니다. 증강 데이터 준비를 통해 IT 전문가의 도움 없이도 분석 프로젝트를 위한 혁신적인 아이디어를 기반으로 조치를 취할 수 있습니다.

증강 데이터 준비는 다음과 같은 조직 전반에서 이점을 제공합니다.

  • 생산성 향상. 자동화된 셀프 서비스 도구와 함께 직관적인 그래픽 사용자 인터페이스를 사용하는 숙련된 비즈니스 사용자는 여러 이질적인 소스에서 데이터를 신속하게 수집한 후 프로파일링하고 정리하고 다른 주요 데이터 준비 기능 안에서 데이터를 실행시킵니다. 또한 증강 데이터 준비를 통해 IT 및 데이터 전문가의 시간 소모적인 작업을 줄이거나 없앨 수 있습니다.
  • 고품질 데이터 제공. 데이터를 수동으로 준비하면 숙련된 데이터 과학자일지라도 실수로 부정확하고 관련 없는 데이터를 넣거나 중요한 데이터를 포함하지 못할 수 있습니다. 증강 데이터 준비는 품질 문제를 자동으로 찾아 수정하고 데이터 세트가 유효한 결과를 생성하도록 합니다.
  • ROI 가속화. 분석 프로젝트의 프런트엔드에서 높은 생산성을 확보하기 위해 데이터 모델링, 마이닝, 분석에 더 많은 시간과 리소스를 사용합니다. 수동 데이터 준비 작업에 얽매이는 대신, 사용자는 인사이트를 연구하고 비즈니스 운영 및 과제를 혁신하는 데 집중할 수 있습니다. 일단 구축된 데이터 세트는 여러 애플리케이션에서 사용될 수 있어 더욱 최적화된 투자 성과를 낼 수 있습니다.
  • 데이터 민주화 추진. 분석에 필요한 데이터를 준비하고 게시할 수 있는 도구 덕택에 비전문 사용자도 쉽게 원시 데이터로 작업할 수 있습니다. 또한 분석 문제에 가장 잘 알고 있는 사용자들은 자신이 가지고 있는 비즈니스 지식과 전문 지식을 활용하여 통계적으로 중요한 데이터 세트를 선택하고 프로젝트 목표 달성을 위해 데이터 구조화 및 강화에 도움을 줄 수 있습니다. 조직의 데이터 활용 능력이 향상됨에 따라 직원들은 데이터 기반의 의사 결정과 전략에 대해 더 많은 확신을 갖게 됩니다.
  • 비즈니스 민첩성 향상. 종합적인 데이터 세트를 신속하게 준비할 수 있어 사용자는 변화하는 비즈니스 및 시장 상황에 맞게 새로운 분석 프로젝트를 신속하게 시작할 수 있습니다. 인사이트를 얻는 시간이 빠를수록 회사는 이러한 인사이트를 더 빨리 적용하여 경쟁 우위를 확보할 수 있습니다.

기업은 증강 데이터 준비를 어떻게 적용하고 있나요?

산업계 전반의 기업들은 비즈니스 인텔리전스비즈니스 분석 도구를 사용하여 데이터에서 더 큰 가치를 도출합니다. 예를 들어, 증강 데이터 준비를 비즈니스 워크플로에 통합시킴으로써 아래의 조직들은 데이터를 효율적으로 수집하고 처리하여 분석 활동을 촉진합니다.

은행

한 대형 은행에서는 어떤 고객이 자산 투자 서비스를 사용할 가능성이 가장 높은지 효과적으로 파악한 다음 개인 맞춤화된 프로모션을 적용할 대상을 지정하기 위해 지점 및 ATM 네트워크 전반에서 계정, 예금, 인출, 신용 카드 데이터를 신속하게 수집하고 통합했습니다. 또한 외부 소스에서 인구 통계, 사회 경제 및 다른 상황적 데이터를 가져왔습니다.

소매

한 국제적 약국 체인에서는 자체 브랜드 영향력이 일부 지역에서는 저조하고 다른 지역에서는 그렇지 않은 이유를 파악하고자 했습니다. POS(point-of-sale), 제품 카테고리, 고객 충성도, 순 프로모터 점수, 내부 시스템의 가격 데이터 등을 외부 지리적 데이터와 결합하여 유용한 분석 데이터 세트를 구축했습니다.

농업

한 소규모 농업 기술 회사는 독점 알고리즘을 사용하여 가뭄이 심한 지역의 작물 수확량 추세를 연구하여 소농들에게 어떤 작물을 언제 심어야 하는지 조언하고자 했습니다. 따라서 공공 및 민간 조직에서 유지 관리하는 빅 데이터 풀을 활용하여 기상 조건, 토양 온도, 수분 함량, 물 사용, 작물 상태 등 여러 변수와 관련된 데이터를 소싱하여 결합시켰습니다.

법률

큰 규모의 소송에서 기업 고객을 변호 중인 한 법률회사는 수백만 건의 고객 이메일과 기타 비정형 문서를 분석하여 관련 기록물을 확인할 수 있었습니다. 수동적이고 반복적인 데이터 검색 활동을 크게 줄임으로써 이 회사는 관련성 높은 발견 항목을 검토하고 분석하는 데 집중할 수 있었습니다.

정부기관

미국 주 정부는 자동차 및 중장비의 연료, 유지 관리, 정비 서비스 비용을 절감하기 위해 예측식 유지관리 방식을 도입하고자 했습니다. 언제 어떤 차량에 정비 서비스가 필요한지 효과적으로 판단하고 각 차량의 서비스 시설에 대한 실시간 근접성을 알기 위해, 자산 관리 팀은 차량 유지 관리 기록 및 성능 센서의 정보를 외부 GPS 데이터에 통합시켰습니다.


회사에서 증강 데이터 준비 솔루션을 어떻게 구현할 수 있나요?

직원들에게 증강 데이터 준비 도구를 소개하기 전에 회사는 직원들의 신뢰를 얻어야 합니다. 몇몇 개인은 새로운 기술이 자신의 역할을 변경하거나 없앨 거라고 우려할 수 있습니다. 도입을 촉진하기 위해 관리자는 영향을 받게 되는 팀을 초대하여 새로운 데이터 준비 프로세스를 알리고 역할이 어떻게 발전할 수 있는지 논의합니다. 또한 조직 전체, 특히 증강 데이터 분석에 익숙하지 않은 팀에서 데이터 활용 능력을 사전 육성할 수 있으면 인사이트 확보에 대한 신뢰를 한층 더 높일 수 있습니다.

셀프 서비스 데이터 준비 솔루션을 선택할 때 다음과 같은 질문을 해 보세요.

  • 이 솔루션이 온프레미스 또는 클라우드의 다양한 데이터 소스와 연결되나요?
  • 반정형 및 비정형 원시 데이터를 함께 사용할 수 있나요?
  • 데이터 준비 프로세스를 어느 정도로 자동화하나요?
  • 강력하고 직관적으로 사용할 수 있는 도구인가요?
  • 솔루션이 조직 간 협업 및 데이터 공유를 지원하나요?
  • 빅 데이터를 처리하도록 규모 확장이 가능한가요?
  • 클라우드 기반 분석 플랫폼을 지원하나요? 지원한다면 어떤 플랫폼을 지원하나요?
  • 데이터 보안 및 개인 정보 보호를 가능하게 하고 규정 준수를 지원하나요?
  • 소프트웨어 라이선스, 처리 및 스토리지 요구 사항, 직원 온보딩, 교육 등을 모두 고려한 비용은 어느 정도인가요?

솔루션을 결정했으면 작은 규모로 구현하기 시작합니다. 데이터 과학, 비즈니스, 기타 이해 관계자에게 요청하여 증강 데이터 준비를 적용시킬 사용 사례가 있는 몇몇 데이터 활용 팀을 선택합니다. 증강 데이터 분석에 대한 회사 목표에 따라, 이 솔루션을 점진적으로 다른 팀에 확대합니다.

Microsoft Power BI 사용으로 데이터에서 더 많은 가치 얻기

Microsoft Power BI를 통해 회사는 증강 데이터 분석의 포괄적인 프로세스를 간단하고 빠르게 수행할 수 있습니다. 비즈니스 팀은 NLG 쿼리 및 추천에 따라 준비하고 데이터 시각화의 도움을 받아 품질 인사이트를 생성해주는 정확하고 포괄적인 데이터 세트를 보다 빠르고 자신 있게 준비할 수 있습니다.


자주 묻는 질문

데이터 준비란 무엇인가요?

데이터 준비에는 비즈니스 인텔리전스 및 비즈니스 분석을 위한 정확하고 포괄적인 품질의 데이터 세트를 만드는 모든 단계가 포함됩니다. 이를 통해 조직이 경쟁 우위를 확보하는 데 필요한 인사이트를 얻을 수 있습니다.

데이터 준비 도구란 무엇인가요?

데이터 준비 도구를 사용하여 데이터 수집, 검색, 프로파일링, 정리, 구조화, 변환 및 강화, 검증 및 게시를 간편하게 수행할 수 있습니다.

증강 데이터 준비 프로세스는 무엇인가요?

증강 데이터 준비 프로세스는 ML, NLG, 데이터 시각화를 포함한 증강 분석을 사용하여 일반적으로 지루하고 시간이 많이 소요되는 활동을 자동화되고 보다 지능적인 워크플로로 변환해줍니다.

증강 데이터 준비가 중요한 이유는 무엇인가요?

증강 데이터 준비에는 몇 가지 이점이 있습니다. 생산성을 높이고, 고품질 데이터를 사용하여 분석을 실행하고, 분석 프로젝트의 ROI를 가속화하고, 데이터를 민주화하고, 비즈니스 민첩성을 개선할 수 있습니다.

기계 학습을 위한 데이터 준비는 어떤 것인가요?

기계 학습 애플리케이션을 위해 효과적으로 데이터를 준비하게 되면 ML 모델 구축 및 테스트를 위한 고품질 데이터 세트를 제공할 수 있습니다. 예를 들어, 많은 증강 데이터 준비 도구에서는 ML 알고리즘을 사용하여 데이터를 정리 및 강화하고 ML 모델 분석에 적합한 형식으로 데이터를 변환하는 방법을 사용자에게 추천합니다.