リサーチ・イノベーション委員会
「データサイエンス研究報告」&「データ解析担当者交流会」開催報告 -(7/18実施)
リサーチ・イノベーション委員会

リサーチ・イノベーション委員会では、2023年度に取り組んだ「データサイエンス(DS)研究会」の成果報告会兼「データ解析担当者交流会」を、7月18日に対面式で実施しました。今回の報告テーマは「回帰分析の困難に対処するスパース回帰」、「大規模データ向けの新クラスター分析」で、一見難解そうな内容ながらも、研究会メンバーを含む16名の参加者による熱く、内容の濃い議論が交わされました。従来の線形回帰では分析が困難な状況への対処策と留意点、元データの相関性を加味したクラスター分析の精度向上策につき、わかりやすく解説していただきました。報告会終了後は会場を交流会形式に切替え、日ごろの悩みごと相談をまじえた懇親の場となりました。
冒頭、研究会代表者の朝野熙彦氏から活動の趣旨とねらいが紹介された後、リサーチ・イノベーション委員の森本修氏から「通常の回帰分析で障害となる問題に対処するスパース回帰」に関する報告があり、従来の線形回帰で問題となる「過学習」や「多重共線性」をクリアするための対処策と留意点、Ridge回帰法とLASSO回帰法という2つのメジャーな手法の使い分け方などの具体的な説明がなされ、反響を呼んでいました。
回帰分析の結果については、「予測精度の高さ」の問題の一方で、「解釈の容易さ、納得感」が求められます。どちらかを優先させるのがよいかとの質問が出されましたが、ケースバイケースながら「どちらかに振るのがよい」との回答が、具体的なケースに基づいて説明されました。
続けて当委員会委員長の梅山貴彦氏より、昨年も報告されたマハラノビスの汎距離を導入した「K-means Umeyama法」紹介の続編として、欠損画像の再構築を含む発展形や実践的な精度検証結果がプレゼンされました。従来の非階層クラスター分析の問題点を改良し、大規模データに精度高く対応でき、かつ結果を評価する取り組みが案内されました。おそらく、多くの調査会社で使用されている現行のクラスター分析プログラムに課題が残されているとはほとんど認識されていないと思われますが、改良と発展の余地がまだまだあることが示され、元データの相関性を加味したクラスター分析の精度向上策につき、わかりやすく解説していただきました。
「Rで記述されたプログラムを提供してもらえないか」との要望が寄せられましたが、まだPython版しかないこと、証明すべき課題が残っていることから「預かり」となりました。
現実問題として、明日からすぐに回帰分析やクラスター分析のプログラムを切り替えることは難しいと思われますが、実業務の現場では「自分が知っている/使ったことがある」ものだけしか使用されないことが多いと推測され、本当にデータの特性に見合った分析ができているのか、解析担当者は不安を覚えることもあると思われます。例えば、当初の仮説に沿ったアウトプットが出ない場合などの、対処策の1つになり得る可能性を感じられました。
報告会終了後は会場を交流会形式に切替え、研究会メンバーと参加者との間で日ごろの悩みごと相談をまじえた懇親の場となりました。貴重な機会になったことと思います。
2024年度もプロジェクト型の研究会を継続開催する予定ですが、まだテーマが固まっていません。悩ましい課題、解決に迫られている課題などありましたら、JMRA事務局までご一報ください。
―――
データサイエンス研究会の報告書は =>こちら
2024.8.27掲載
