セミナー セミナーカレンダー

探索発見的データ解析の基礎講座

マーケティング・リサーチャーのための
今からでも間に合う(演習付き)
探索発見的データ解析の基礎講座
※本講座は、「統計的データ解析の基礎講座」というタイトルで開催していた内容をリニューアルいたしました。
※今期(2015年度)は、終了いたしました。来期(2016年度)のご案内はあらためて行います。

2015年度印刷用パンフレット(pdf:942KB)

受講検討用資料
●本講座(2015年度)で用いたスライド資料(pdf:約13MB)●
※2016年3月に開催の本講座で用いたスライド資料を、ここにアップロードしました。次回開催のご参加のご検討資料としてください。

講座の目標

 データ解析の重要な要素として、データをいかに客観的に分析し判断の指針を得るツールとして役立てられるか、があります。その基本操作は、目的に適うデータを集め、そのデータから得た客観的な情報にもとづき、その特徴を探査・観察・発見そして洞察することにあります。そのための第一歩は、探索的かつ発見的なデータ解析手法を用いることです。これらの手法は単なるデータ処理・数値処理ではありません。最近は統計ソフトや表計算ソフトの利用環境が充実し、簡単に要約情報が得られることで、つい“分かったような気になる”ことが多いようです。たとえば日常的に「平均値や割合」を求めますが“なぜ”でしょうか、またそれで十分でしょうか。“その理由を具体的に”と問われると答えに窮することもあるでしょう。また、こうした統計指標を求めてよいデータなのか、どう判断すればよいのでしょうか。こうした平易にみえることでも“正しく理解すること”が肝要です。 本講座では講師が独自作成の豊富なスライド教材を用います。また、トイ・データ、実際データなどの分析例や模擬実験を用いて、具体的に話しを進めます。数式等が若干登場しますが、これを克服する工夫も盛り込みました。調査分析やデータ解析の現場における「べき・べからず用例」もできる限り紹介します。さらに理解を深めるため「演習」を行います(希望者のみ)。基礎知識をしっかり習得することは、大量のデータから役に立つ情報を発掘し、客観的に観察し、さらに高度なデータ・マイニング、テキスト・マイニング等の手法を的確に活用するための統計解析リテラシーの基礎力向上にもつながります。 近年、調査環境やデータ取得環境の急速な変化により、また多種多様な情報の氾濫から、何が適切なデータであるのか、どのように“データの質”を見極め、さらに“調査・測定の質”をどう確保するのかを懸念する声もあります。調査・観測他におけるデータ収集・測定から分析に至る諸過程における統計的推論の役割を理解し応用する基礎力を養うことが肝要との観点から本講座を用意いたしました。 データ探査・情報発掘の基本である“探索発見的データ解析”、“統計分析過程のシナリオ構築”に必要な基本知識を習得し“その知識を知恵や具体的な応用技術に替える”こと、統計量の示す数値情報を読み取る“ニューメラシーの向上”を目指すことが本講座の目標です。たとえば、次に挙げるような場面で答えに迷うようなら、この講座を受講いただく価値が十分にあるでしょう。

ここは知っておきたい / こうした疑問はありませんか?

  • 平均値や割合・比率、分散・標準偏差を多用する理由はなにか?
  • 「質的データ、量的データ」というが、どう違うのだろう?
  • 分散や標準偏差は「外れ値」の影響を受けやすいというが、なぜなのか?
  • データを比べ平均値が変化すると分散や標準偏差の値も変化する、は正しいか?
  • データの特徴の視覚化(グラフィカル表現法)は何が、どう有効か?
  • “「相関」がある”とは何をいい、「相関係数」とは何を測っているのか?
  • 調査データ分析で“「クロス表」の利用”がなぜ重要なのか、その関連性をどう測るのか?
  • 調査方式(調査モード)とは何か、調査方式の違いは測定データにどう影響するのか?
  • 「外れ値や異常値」はどう検出し、対応・処置すればよいのか?
  • 「統計量」や「分布」という言葉がよく登場する理由は、また何を意味するのか?
  • 調査誤差や偏り(バイアス)とは、何をいうのか?
  • 確率標本と非確率標本はどう違うのだろうか?
  • 「母集団と標本」という言葉が必ず出てくるがなぜなのか?
  • データ解析手順のロードマップ、シナリオ設計はどう考えればよいのだろうか?
  • 日程および講座内容

    2016 年2 月16 日(火)~ 2016 年3 月22 日(火) 13:00~17:00(全6 回)

    ■ 全6 回  開始・終了時間は全日程とも 13:00~17:00
    (※)講義でとりあげる主な項目をなるべく詳しく示しました。
       目安としてご利用ください。
    (※)机上演習(自由参加)を行いますので、電卓( 四則演算・
       平方根算出機能までで十分)をご用意願います。
       これは各回の終わりに1 時間程度(17:10~18:00 頃)を
       予定しております。
    (※)最終日は、主に統計ソフトJMP による演習、ならびに
       補足解説、参加者とのQ&A 他にあてます。

    第1回 2 月 16 日(火)
    ○基本的な考え方-ガイダンス
    ●トイ・データを用いた模擬実験ほか
     母集団と標本、確率抽出とは
     確率標本と非確率標本
     母集団分布と標本分布、統計量とは
     標本平均、標本分散などの特性と役割
     大数の法則、中心極限定理を視覚的に観察する
     なぜ、正規分布がよく登場するのか
    ●なにを統計的現象と考えるのか?
     統計的現象と確定・不確定的現象
     確率的アプローチとその限界
     非確率的アプローチへの対応
     調査・測定における設計・観測のあり方
    ●データの科学とデータ解析の本質(要点)
     探索的か確証的か - 記述とモデル化
     仮説発見的、探索的であることの重要性
     データの科学の基本要素

    第2 回 2 月 23 日(火)
    ○データの性質と種類
    ●データとは何か - 測定データの基本構造
     真値と誤差の考え方
     偶然誤差と系統誤差・偏り
     データの等質性・非等質性と代表性
    ●データの性質・種類とデータ表の構造
     尺度による分類(区間尺度と比例尺度、名義尺度と順序尺度)
     量的データと質的データ
     データ構造の多様化(構造化・非構造化・半構造化)
     データ表の構造、規模と形式
    ○データの視覚化による情報の伝達
    ●記述的統計量とグラフィカル表現法
     データの種類(質的・量的)とグラフィカル表現法の相性
     情報の視覚化と初動探査の効用
     グラフィカル・ツールの良い点、悪い点
    ●分析の基本:1 変量データの観察
     ドットプロット図(打点図)
     ヒストグラムと度数分布表(経験確率分布)
     分位数とパーセンタイル・グラフ
     ボックス・プロット図(箱ひげ図)とその応用
     外れ値の探査・検出など

    第3 回 3 月1 日(火)
    ○分布の観察、特徴を測る
    ●1 変量データの記述的統計量による探査
     分布の位置を測る(平均値、中央値など)
     分布の変動を測る(分散・標準偏差、範囲、四分位範囲など)
     統計量による情報縮約化の意味
     情報縮約化の利点と欠点(節約の原理の意図)
    ●分布の特徴を測るいろいろな統計量の一般化
     データの測定単位の意味と標準化操作
     積率型統計量と順序統計量など
     分布の歪み(歪度)と尖り(尖度)を測る
     高次の積率による分布の特徴づけの意味
     各統計量の特徴と解釈、相互の関連(まとめ)
    ●グラフィカル表現法と統計量の併用の効用

    第4 回 3 月8 日(火)
    ○変量間の関係を測る
    ●2 変量データの観察
     1 変量データと何がどう違うのか
     2 変量データとして観察する利点は何か
     質的データと量的データの組合せと使い分け
     量的データの分析 - 散布図と相関の観察方法
     質的データの分析 - クロス表の視覚化(モザイク図の利用)
    ●統計的な相関とは何か - 変量間の関連を測る統計量
     積和,共分散,相関係数の意味と解釈(量的データの場合)
     クロス表の連関性の測度(質的データの場合)
     種々の連関性の測度(ピアソンのカイ二乗統計量ほか)
    ●多変量データの観察
     相関係数行列とその散布図行列による視覚化(量的データの場合)
     多重クロス表(バート表)と多重モザイク図(質的データの場合)
     多元クロス表と多重クロス表の違い
     対応分析・多重対応分析による情報の視覚化(参考)

    第5 回 3 月 15 日(火)
    ○調査におけるデータ解析の考え方(概要)
    ●調査で扱うデータと統計学で考えるデータの違い
     理想と現実のズレ - 誤差や偏りの介入をどう考えるか
     調査設計上の課題(要点)
      調査の目的と構成概念(なぜ、どのようなデータを集めるのか)
      調査票設計、質問文・選択肢の影響など
    ●データ収集法の重要性、考え方
     なぜ調査方式(調査モード)が重要か
     だれから、どんな方法でデータを得るか
     調査方式の分類とその重要性
    ●データの質と調査誤差(概要)
     確率標本と非確率標本の区別
     データの質の基本的な考え方
     標本誤差と非標本誤差
     総調査誤差からみた誤差発生源
      観測誤差、非観測誤差、カバレッジ誤差、無回答誤差など
    ●コーディングとエディティングほか(要点のみ)
     プレコーディングとポストコーディング
     外れ値や欠測値、調査不能・無回答への対応策
     ゴミの除去(クリーニング、ランドリ)の対策
     補定(インピュテーション)、加重調整などの考え方

    第6 回 3 月 22 日(火)〔 自由参加〕
    ●一部を、上記5 回の講義内容についての、質疑応答時間に
     あてます。なおここで、講義内容には直接関係ない話題や
     事柄でも、ご自由にご発言、ご意見をいただけること、期
     待しております。
    ○統計ソフトJMP® による演習
    ●統計ソフトウェアJMP® を用いた総合演習を行います。
     詳細は次ページをお読みください。

    ◆電卓、表計算ソフト、統計ソフトによる演習◆

     本講座では“2つの演習オプション”を用意しました(いずれも希望者のみ)。1つは毎回講義後に行う「机上演習」、もう1つは最終日に行う統計ソフトJMP®(ジャンプ)を用いた「総合演習」です。データ解析の要点を習得するには、何よりもまず実際にデータに触れて“どのように探査・観察し、分析を進めるべきか”を体験することです。記述的統計量(平均値や中央値、分散・標準偏差など)の算出も数値を出せばよいではなく“なぜその数値が必要なのか,どう解釈するのか”を、「机上演習」を通じて体得することが肝要です。机上演習は原則として各自で電卓などを用いて行います。この時代に電卓を、という声が聞こえてきそうですが、“各種統計量の算出過程を忠実にフォローアップして知ること”が理解にいたる最短ルートと考えるからです。ただし、演習問題は“エクセル対応のデータ・ファイル”も用意しますので、これで分析を体験していただくことも可能です。 近年、高度な機能をもった統計ソフトの登場で、なんでも処理できる便利な時代になっております。しかし、何を行ったのかがよく見えないという意見もあるようです。そこで、統計ソフトJMPを利用した「総合演習」も行う予定です(PCは原則参加者各自で用意)。分析データセットは各自で持参いただく場合、あるいは講師が用意した種々のデータを利用していただく場合、といったオプションを用意しております。

    統計ソフトウェア:JMP®について
    用いる統計ソフトウェアは、SAS社JMP®(ジャンプ)です(http://www.jmp.com/japan/)。最近は、さまざまな統計ソフトウェアが利用できる環境が整っております。有料にかぎらずシェアウェア、フリーウェアも多数あります。こうした統計ソフトウェアのうち、JMP は高い信頼性とすぐれたユーザビリティから多方面のユーザの支持を集めてきたソフトウェアです。JMP のユーザ・インターフェース、利用環境は非常に定評があり、また信頼のおける種々の統計手法はもとより、データ探査、視覚化のほとんどの機能が含まれております。また、JMPを分析のハブとして、SAS、Excel、R など他のツールと連携利用もできます。演習では下記のサイトからダウンロードできる無料トライアル版を利用します。
    (*)JMP については下のURL を参照。なお、演習にはJMP 12(バージョン12)を使います。  無料トライアル版は、約1ヵ月間、利用が可能です。  SAS Institute Japan 株式会社・JMP ジャパン事業部のホームページは以下です。    http://www.jmp.com/japan(*)参加者には,ご自分のPCにトライアル版をダウンロードする方法やアクティベーションの方法に  ついて、別途にご案内を差し上げます。

    講師プロフィール

    大 隅  昇(おおすみ のぼる) 統計数理研究所 名誉教授
    文部科学省統計数理研究所・調査実験解析研究系助教授、教授を経て、情報・システム研究機構・統計数理研究所名誉教授(2004年から):理学博士、専門社会調査士、日本計算機統計学会ソフトウェア開発賞受賞(1994 年、2004 年;テキスト・マイニング・ソフトWordMiner の開発他)
    専門分野:データ科学、多次元データ解析、調査方法論、テキスト・マイニングなど主要著書:「調査法ハンドブック」監訳(朝倉書店)「 統計的データ解析とソフトウェア」(日本放送出版協会)「記述的多変量解析法」(日科技連出版社)/「社会調査ハンドブック」「多変量解析実例ハンドブック」「統計応用の百科事典」「社会調査事典」の分担執筆、その他
    ホームページURL:http://wordminer.org/

    対象および定員

    対象
    調査データの分析・解釈にあたり、データ解析の基礎を改めて習得したい方
    調査会社、広告会社、メーカーの調査関連部門などのリサーチャーの方

    定員
    30 名

    参加費・支払い方法およびお願い

    JMRA 正・賛助会員社(者) / 1 名
      67,000 円+消費税=  72,360 円
    一般 / 1 名
      81,000 円+消費税= 87,480 円

    振込先
     三菱東京UFJ 銀行 飯田橋支店(普通)4669542
     みずほ銀行 飯田橋支店(普通)660769
     ( 銀行振込時に振込手数料は差し引かずにお願いします。)

    ●請求書と参加証は1月15日より発送を開始いたします。請求書到着後、2月15 日(月)までにお振込みください。
    参加者が10名に達しない場合は、開催を見合させていただく場合がございます。その際は、事前にお申し込み者にご連絡差し上げます。

    お願い
    参加費はご欠席されても返金できません。お申し込みされた方がご都合の悪い場合は代理の方がご出席ください。代理の方のご参加も難しい場合は、7日前までにご連絡ください。それ以降の場合は下記のキャンセル料を申し受けますので予めご了承ください。

    キャンセル料
     7 日前~2 日前のキャンセル………………… 参加費の20%
     前日のキャンセル……………………………… 参加費の70%
     当日キャンセル、ご連絡がなかった場合……… 参加費の 100%
     また、当日の録音機器等の持ち込みは、固くお断り致します。

    会場およびお問合せ先

    一般社団法人 日本マーケティング・リサーチ協会
     〒101-0044
     東京都千代田区鍛冶町1- 9 - 9 石川LKビル2階
     アクセス
     TEL 03-3256-3101 FAX. 03-3256-3105

    個人情報の取り扱いについて

    下記の個人情報の取り扱いに関する事項についてご確認いただき、同意の上お申し込みください。
    ■ 事業者の氏名または名称 一般社団法人 日本マーケティング・リサーチ協会
    ■ 個人情報保護管理者 一般社団法人 日本マーケティング・リサーチ協会 事務局長
    ■ 個人情報の利用目的 取得した個人情報は、お申込み受付対応およびセミナー運営のために利用いたします。「 登録の可否」欄に「可」としていただいた場合は、上記に加えて、JMRA メールニュース ( 月に一度の業界の情報をお届けするメルマガ) や参加セミナーの関連情報を配信するために利用いたします。
    ■ 個人情報の第三者提供について 本人の同意がある場合または法令に基づく場合を除き、取得した個人情報を第三者に提供することはありません。
    ■ 個人情報の取扱いの委託について 取得した個人情報の全部または一部を委託する場合があります。その場合には、個人情報の管理水準が、当協会が設定する基準を満たす企業等を選定し、適切な管理、監督を行います。
    ■開示対象個人情報の開示等および問合せ窓口について
    本人からの求めにより、当協会が本件により取得した開示対象個人情報の利用目的の通知・開示・内容の訂正・追加または削除・ 利用の停止・消去(「開示等」といいます。)に応じます。開示等に応じる窓口は、下記になります。
    一般社団法人 日本マーケティング・リサーチ協会
    個人情報 苦情・相談窓口責任者
    (TEL:03-3256-3101   FAX:03-3256-3105)
    ■ 個人情報保護方針 当協会ホームページの「プライバシーポリシー」をご覧ください。

    2016年度の開催については、2016年12月下旬ご案内予定です。

    Get Adobe Reader PDF形式のファイルをご利用になるためには、Adobe Readerが必要です。
    Adobe Readerはアドビシステムズ社より無償で提供されています。