患者中心の保健医療を支える
処方情報分析のリーディングカンパニー

 03-3239-6840

Excelの「データ分析」を使い「サンプリング」をしてみよう

time 2018/03/12

※解説記事内の画像はExcel 2010のものです。

今回は、Excelのデータ分析機能を使っていくつかのデータからサンプルデータを抽出する方法をご紹介したいと思います。

たくさんのデータからサンプルデータを抽出したい場合、Excelのデータ分析にある「サンプリング」機能を使うと簡単に無作為抽出や一定の間隔(周期変化)でデータを抽出する事ができます。

無作為抽出とは

母集団のすべてを調査する全数調査に対し、母集団の一部のみを調査する標本調査では、標本を選ぶ方法が必要となります。

その母集団から一部のみを採取する際に、作為を加えないよう採取する事を無作為抽出といいます。

周期変化とは

母集団からどのくらいデータを採取すれば、統計的に有意な検査となるかを決定した後、それを得るには、どれくらいの間隔でデータを採取すればいいかを決める手法です。

また、統計的に十分なデータをさらに細かく、一定間隔でチェックしたい場合などにも活用できます。

データの準備

まずデータの準備です。
今回は以下の図のように、サンプリング対象とする50個のIDを用意します。
WS000019
対象とするデータはいくつでも問題ございません。
今回は上図のID50個からサンプルデータを抽出したいと思います。

Excelのデータ分析では、
標本の採取方法として、無作為で抽出する「ランダム」と一定の間隔を空けてデータを抽出する「周期変化」が使用できます。

それでは、ひとつずつ見てみましょう。

標本の採取方法(ランダム)

まず、Excelの「データ分析」→「サンプリング」を選択します。
もしリボンメニューにデータ分析が表示されていない場合はこちらを参考に設定してみてください。
Excelの「データ分析」を使い「相関係数」を出してみよう(前編)
WS000009
WS000020
次に入力範囲にIDが入力されている「$A$2:$E$11」を選択します。
標本の採取方法は、「ランダム」を選択し、「標本数」は「5」を入力します。
※標本数は採取したい数を入力します。
出力オプションは「新規ワークシート」を設定します。
WS000024
設定できたら「OK」ボタンを押下します。

すると以下のように5つのIDが無作為に抽出されました。
WS000025
ランダムでの標本採取では、実行するたびに結果が変わります。

標本の採取方法(周期変化)

次に標本の採取方法を「周期変化」にしてデータを抽出いたします。
「周期変化」では、一定の間隔でデータを抽出する事ができます。
それでは、やってみましょう。

同様に、Excelの「データ分析」→「サンプリング」を選択します。
WS000009
WS000020
こちらも先程と同様、入力範囲にIDが入力されている「$A$2:$E$11」を選択します。
標本の採取方法は、「周期変化」を選択し、「周期」は「5」を入力します。
※周期は採取する数値の間隔を入力します。
出力オプションは、「新規ワークシート」を設定します。
WS000028
設定できたら「OK」ボタンを押下します。

以下のように間隔「5」でIDを抽出する事ができました。
WS000029

いかがでしたでしょうか。

Excelのサンプリング機能を使うと無作為なデータ抽出や、一定間隔でデータ抽出する事が容易にできます。
ぜひ、活用してみてください。

タグ

このブログについて

このブログ(JMIRI Office部)は、製薬企業のマーケティング部門の方やアナリティクス/レポーティングを担当している方に向け、Excel / PowerPointなどのOfficeソフトの使い方、分析の考え方、グラフの使い方、美しい資料の作り方、効率的な作業の進め方など、仕事に役立つ様々な情報を少しゆるめに発信していきます。

Author:医療情報総合研究所(JMIRI)について

医療情報総合研究所 JMIRIは、まだビックデータという言葉が無いころに日本で初めて処方情報データベースの運用・分析を開始した、処方情報分析のリーディングカンパニー。これまでに累計数十万ページ規模の分析レポート/グラフを製薬企業に向けて作成/提供してきました。

[詳細]


お問い合わせ

arrowup

mail