話し合いをしている 2 人

拡張データ準備の解説

機械学習やその他の拡張分析で、分析情報を得るまでの時間を加速しましょう。


拡張データ準備とはどのようなものですか?

簡単に述べると、拡張データ準備はデータ サイエンスや分析の深い専門知識を持たないオフィスの従業員が、豊富で信頼性の高い分析用データ セットを作成できるようにします。機械学習 (ML) と AI (人工知能) 機能を搭載しており、自動化されたセルフサービス プラットフォームで提供される拡張データ準備ツールは、生データを探して調査し、処理しやすい形式に変換するプロセスを変革します。人間のインテリジェンスやコンテキストに応じた認識を置き換えることなく、強化していきます。

競争優位性を獲得するために、リーダー、基幹業務マネージャー、パートナーなどはビジネス インテリジェンス (BI) およびビジネス分析に依存して、正確かつタイムリーで関連性の高い分析情報を提供しています。拡張データ準備を使用してデータ準備を分散化および一般化することで、より多くの従業員がそのような分析情報を生成できるようになります。


拡張データ準備ツールはどのようにして使用されますか?

拡張データ準備ツールは、データ処理においておそらく最も重要な最初のステップであるデータ セットの作成を合理化します。このステップは、分析モデルの構築、テスト、トレーニングに必要です。

従来、データ準備は、コードを記述し、特殊なソフトウェアを使用して内部の運用システムからのデータの抽出、クリーニングと構造化、データ ウェアハウスへの読み込みを行うテクニカル チームが担当していました。データの抽出、変換、読み込み (ETL) として知られるこれらのプロセスは、一般的に、エラーの発生しやすい、時間のかかる複雑な作業でした。

ほとんどの平均的なビジネス ユーザーには、ETL 作業を手掛けるためのスキルや時間を持ち合わせていませんでした。正式にデータ サイエンスを学んでいなくても、ある程度のアドバンスド アナリティクス作業ができる、ビジネス アナリスト、開発者などの市民データ科学者でさえ、データ エンジニアや他のデータ専門家に依存して、分析するデータや分析方法を判断していました。

時代は変化しています。今日では、組織はテキストや画像を含む大量の構造化データ、半構造化データ、非構造化データを複数のサイロ化されたアプリケーションやシステムに格納しています。一元化された IT およびデータ管理チームにデータを収集して準備するための時間とリソースがあることはまれであり、ましてやデータをモデル化して調査し、企業のさまざまな分析イニシアチブを支援することは難しくなっています。

拡張データ準備ツールのおかげで、より多くの人々がその作業を支援できるようになりました。ポイント アンド クリック機能や会話インターフェイスを備えたツールは、データ準備に関する、データに基づいた意思決定を行う上でユーザーを着実に導いています。


データ準備手順とはどのようなものですか?

データ ラングリングまたはマンジングとも呼ばれるデータ準備プロセスは、データを統合、構造化、整理するための一連の連続した活動で構成されています。一般に使用されるカテゴリ別に以下でまとめられているテータ準備手順からは、1 つ以上の特定の使用用途を示す、高い信頼性の単一のデータ セットが作成されます。

  1. 収集。対象となる分析の目標に沿って、分析チームは内部および外部のデータ ソースに含まれている関連性の高いデータを特定して抽出します。たとえば、目標が製品に関する顧客の好みを把握することである場合、チームは定量的データと定性的データを CRM および営業アプリケーション、顧客アンケート、ソーシャル メディアのフィードバックから抽出できます。このフェーズでは、チームはあらゆる関係者と相談し、信頼性の高いデータ セットを使用する必要があります。そうしないと、偏りのある結果や歪んだ結果が生じるリスクがあります。
  2. 検出とプロファイル。反復的な探索と分析の段階を通じて、チームは収集した生データを調査し、各データセット内の総合的な構造と個々の内容についての理解を深めます。また、データ セット間の関係についても調査します。データ プロファイルを通じて、チームは分析モデルの開発とトレーニングにデータを使用する前に対処する必要のある、異常、不整合、ギャップなどの問題に関する統計を収集してまとめます。たとえば、さまざまなシステムに格納されている名前や住所を含む顧客、患者などのデータ セットは、スペルやその他の点で異なることがよくあります。
  3. クレンジング。この段階では、チームはデータ品質に関するあらゆる問題を注意深く修正する必要があります。クレンジングには、欠如している値の入力、欠陥のあるデータの修正または削除、無関係なデータの除外、機密データのマスキングなどの活動が含まれます。手間と時間のかかるこのデータ準備ステップは、データの精度と一貫性を確保する上で重要です。特にビッグ データを取り扱う場合には、調整が必要なデータが大量になるため、クレンジングが重要になります。
  4. 構造化。このステップでは、データをテーブルに変換する方法を記述したデータベース スキーマを作成して、ツールのモデル化を通じて円滑なアクセスを助長します。このスキーマは、常に変化し続けるデータを統合された方法で格納する永続的な構造と見なすことができます。すべてのスキーマ コンポーネントが定義されます。
  5. 変換とエンリッチメント。スキーマを設定した後、チームはすべてのデータの準拠を確認する必要があります。一部の既存のデータ形式は、階層の調整、列やフィールドの追加、結合、または削除などを通じて変更する必要があります。また、組織内外のソースから抽出した、行動、統計、地理、その他のコンテキスト情報でデータを強化することもできます。データ セットを強化することで、より包括的なデータ セットを使用して分析モデルをトレーニングできるようになるため、より正確で価値の高い分析情報を提供できます。
  6. 検証。この段階で、チームは記述されたスクリプトまたはツールを使用して、データ セットの品質と精度を確認する必要があります。また、データの構造と書式設定がプロジェクトの要件に整合しており、ユーザーやプロジェクトのモデリング ツールがデータに簡単にアクセスできることも確認します。データ セットのサイズに応じて、チームでは完全なデータ セットではなく、データのサンプルをテストする場合もあります。データ準備プロセスの最終ステップに進む前に、問題をすべて解決する必要があります。
  7. 公開。チームが質の高いデータを準備できたら、それを目的のデータ ウェアハウス、データ レイク、または別のリポジトリに転送します。ここではチームや組織内の関係者はデータにアクセスして、分析モデルを開発し、テストできます。

機械学習はデータ準備とモデル化をどのように強化しますか?

拡張データ分析は、ML、自動化、自然言語生成 (NLG)、データのビジュアル化を含む拡張分析によって可能になります。たとえば、拡張データの検出は ML に大きく依存します。ML は、人間の支援を受けずにアルゴリズムと統計モデルを使用してデータから学習し、適応する一種の AI です。

ML を使用することで、検出ツールは学習した知識を適用し、モデルが解決する必要のある問題と、テストする必要のある仮説に対してどのような種類のデータ セットが必要となるかを検討します。また、収集されたデータ セットのコンテキストについても検討します。次に、データ セット内のパターンを迅速に分析して推論を引き出し、どのデータ セットを組み合わせるかをインテリジェントに提案します。

拡張データ検出は、ML を使用するだけでなく、機械学習モデルのデータ準備が効果的に行われるようにします。たとえば、検出ツールでは ML アルゴリズムを使用して、データをクレンジングおよびエンリッチし、ML モデル分析に適した形式に変換する方法について、ユーザー向けのレコメンデーションを生成します。


企業は拡張データ準備からどのようなベネフィットを得ることができますか?

あらゆる業界のビジネス リーダーやチームは、データを活用するための新たな戦略的手段を毎日見出しています。拡張データ準備を利用すれば、IT 専門家の援助を受けずに分析プロジェクト向けの革新的なアイデアを実現することができます。

拡張データ準備によってもたらされる組織全体のベネフィットには以下が含まれます。

  • 生産性の向上—自動化されたセルフサービス ツールの備わった直感的なユーザー インターフェイスを使用することで、高いスキルを備えたビジネス ユーザーは、複数の異なるソースからデータを迅速に収集し、プロファイリング、クレンジングなどの主要なデータ準備機能をデータに適用できます。拡張データ準備は、IT やデータの専門家が抱えている時間のかかるタスクを削減または排除することもできます。
  • 高品質データの提供—データを手動で準備した場合、経験豊富なデータ科学者であっても、不正確なデータや無関係のデータを誤って取り込んだり、重要なデータを見落とすことがあります。拡張データ準備では、品質問題を自動的に検出して修正できるため、データ セットから有効な結果が確実に生成されます。
  • ROI の加速化—分析プロジェクトのフロントエンドの生産性が向上することで、データのモデル化、マイニング、分析により多くの時間とリソースを投入できるようになります。ユーザーは手動のデータ準備作業に追われる代わりに、分析情報を確認し、適用して業務や課題を変革することに集中できます。構築されたデータ セットには複数のアプリケーションを含めて、投資をさらに最適化できます。
  • データの一般化の推進—専門家以外のユーザーでも、分析のためのデータを準備して公開する機能を利用して、生データを簡単に取り扱うことができます。また、分析の問題に精通しているユーザーは、ビジネスの知識や専門知識を引き出して、統計的に有意なデータ セットを選択し、データの構造化やエンリッチメントを通じてプロジェクトの目標を支援できます。データを解釈する能力が組織内で向上するにつれて、従業員はデータに基づいた意思決定や戦略に関する自信を高めていくことができます。
  • ビジネスの俊敏性の向上—ユーザーは包括的なデータ セットを迅速に準備できるため、変化し続けるビジネスおよび市場の状況を支持する新たな分析プロジェクトを即座に開始できます。分析情報を得るまでの時間が短いほど、企業はその分析情報を適用して競争優位性を高めることができます。

企業は拡張データ準備をどのように適用していますか?

あらゆる業界にわたり、企業はビジネス インテリジェンスビジネス分析ツールを使用して、より優れた価値をデータから引き出しています。たとえば、拡張データ準備をワークフローに組み込むことで、以下の組織はデータを効率的に収集、処理し、分析に役立てました。

銀行業

投資サービスを利用する可能性が最も高い顧客を特定した後、これらの顧客を対象として、パーソナライズされたプロモーションを展開するために、ある大手の銀行では支店および ATM のネットワークから、口座、預金、引き出し、クレジット カードのデータを迅速に収集して、統合しました。また、統計、社会経済に関するデータやその他のコンテキスト データも外部のソースから抽出しました。

小売

ある国際的な薬局チェーンでは、独自のブランド名の化粧品の売上が一部の地域のみで低迷している理由を突き止めようとしました。そのために、内部のシステムからの販売時点管理 (POS)、製品カテゴリ、顧客のロイヤリティ、ネット プロモーター スコア、価格データを外部の地理的データと組み合わせて、分析を目的とした豊富なデータ セットを構築しました。

農業

ある小規模な農業技術企業は、財産的価値のあるアルゴリズムを使用して、干ばつに悩まされる地域における収穫高の傾向を調査し、どのような作物をいつ植えるべきかを小規模農家にアドバイスすることを望んでいました。そのために公的組織と民間組織が管理しているビッグ データのプールを活用して、天候、土壌温度、含水量、水利用、作物の状態などの複数の変数に関するデータを獲得し、組み合わせました。

法務

大きな訴訟で法人顧客を弁護している法律事務所が、関連性のある履歴を探すために、数百万件に及ぶ顧客のメールや他の構造化されていない文書を分析しました。手動の反復的なデータ検出活動を大幅に削減することで、同事務所はより多くの時間を関連性のあるデータの確認や分析に費やすことができました。

政府機関

ある米国の州政府では、予測メンテナンス手法を採用して、車両や重機の燃料、メンテナンス、サービスのコストを削減することを望んでいました。サービスの必要な車両とその時期、サービス設備との各車両のリアルタイムの距離をより良く把握するために、資産管理チームでは車両メンテナンス記録と、外部の GPS データのパフォーマンス センサーからの情報を統合しました。


企業は拡張データ準備ソリューションをどのように実装できるか?

拡張データ準備を従業員に紹介する前に、企業では従業員の信頼を得る必要があります。一部の従業員は、新しいテクノロジによって自分たちのロールが変化するか、排除されるのではないかと懸念することがあります。スムーズに受け入れられるように、マネージャーは影響を受けるチームと共に、新しいデータ準備プロセスを定義し、彼らのロールがどのように進化するかについて話し合うことができます。また、組織全体、特に拡張データ分析について馴染みがないチーム間でデータを解釈する能力を積極的に育成することで、最終的に得られる分析情報に関する信頼を高めることができます。

セルフサービス準備ソリューションを選択する際は、次のような疑問を検討してみてください。

  • ソリューションはオンプレミスまたはクラウドのさまざまなデータ ソースにつながるか?
  • 半構造化生データや構造化されていない生データにも使用できるか?
  • データ準備プロセスはどの程度自動化されるか?
  • 堅牢で直感的なツールが付随しているか?
  • ソリューションは組織間のコラボレーションやデータ共有をサポートするか?
  • ビッグ データに対応するように拡張できるか?
  • クラウドベースの分析プラットフォームをサポートするか? サポートする場合は、どのプラットフォームをサポートするか?
  • データのセキュリティとプライバシーを保護し、規制へのコンプライアンスをサポートするか?
  • ソフトウェア ライセンス、処理とストレージの要件、従業員のオンボードとトレーニングに関するコストはどの程度になるか?

ソリューションを決定したら、最初は小さな規模で実装を開始しましょう。拡張データ準備に適した使用用途がある、データ解釈能力に優れたいくつかのチームを選択するようにデータ サイエンス、ビジネス、その他の関係者に依頼してください。ソリューションは、拡張データ分析に対する企業目標に基づいて、他のチームにも徐々に展開していきます。

Microsoft Power BI でデータからより多くの価値を引き出す

Microsoft Power BI は、拡張データ分析をよりシンプルかつ高速で包括的なプロセスにする上で役立ちます。ビジネス チームは NLG クエリやレコメンデーション、データのビジュアル化の支援を得ることで、正確で包括的なデータ セットを迅速に自信を持って準備し、質の高い分析情報を生み出すことができます。


よく寄せられる質問

データ準備とはどのようなものですか?

データ準備には、ビジネス インテリジェンスとビジネス分析向けに質の高い正確で包括的なデータ セットを作成するためのあらゆる段階が関与します。これは、組織が競争優位性を得るために必要な分析情報を生み出す上で役立ちます。

データ準備ツールとはどのようなものですか?

データ準備ツールは、データの収集、検出とプロファイル、クレンジング、構築、変換とエンリッチメント、検証、公開を支援します。

拡張データ準備プロセスとはどのようなものですか?

拡張データ準備プロセスでは、ML、NLG、データのビジュアル化をはじめとする拡張分析を使用して、時間と手間のかかっていた従来の活動を、自動化された、よりインテリジェントなワークフローに変換します。

拡張データ準備が重要な理由は何ですか?

拡張データ準備はいくつかのメリットをもたらします。生産性の向上、より質の高いデータを使用した分析の実行、分析プロジェクトにおける ROI の加速、データの一般化、ビジネスの俊敏性の向上などを実現できます。

機械学習向けのデータ準備とはどのようなものですか?

機械学習アプリケーション向けの効果的なデータ準備は、ML モデルを構築、テストするための高品質のデータ セットをもたらします。たとえば、多くの拡張データ準備ツールでは ML アルゴリズムを使用して、データのクレンジングとエンリッチメントを行い、ML モデル分析に適した形式に変換する方法に関するレコメンデーションをユーザーに提供します。