ーデータサイエンス、データ分析・活用ツールとしてSQL、R言語、Python、それを動かす環境としてのColaboratoryの記事ー
第1回 連載を始めるにあたって
データ分析・活用は今後多くの企業・組織にとってますます必要になってくることでしょう。その際不可欠なツールには何があるのか、また、そのツールを最大限に使いこなすためにはどのような環境が必要なのかを一緒に考えていきたいと思います。これまでの試行錯誤から、筆者はSQL、R言語、Pythonの3つのツールと、それを動かす環境としてはColaboratoryをお勧めしたいと考えています。そして、できれば日常の業務で参考になるような具体的なデータの分析事例にもいくつかトライしてみましょう。目標は、プログラミングが余り分からなくても、データ分析や結果の可視化を実現することです。
1.データ分析・活用の最適な環境を求めて
縁あって、2016年から税務大学校でICTを教えることになり、同時に個人的にデータサイエンスに興味を抱いて独学で学び始めました。教材は主に、総務省統計局が主催するEラーニングで、データサイエンスと名の付く講座は片っ端から聴講しました。また、データサイエンスにとって欠かすことのできない統計学についても、Eラーニングや市販本を求めて学んでいます。
その中で、データサイエンスが目指すデータ分析・活用を実践するためにはそのためのツールが不可欠であり、そのツールをどのように使いこなすかが、かなり決定的な要素になるのではないかという印象を持つに至りました。
データの分析・活用は企業の大小、業種・業態を問わず、経済原則に基づいて組織を運営するものにとっては、程度の差はあれ必ず必要となるものです。その意味では、そのために必要とされる最適の環境を求めることは、すべての企業・組織にとって普遍的価値を持つように思われます。
このコラムでは、できるだけ具体的にその環境を示し、読者が関心を持っていただけるような具体的なケースについて、データの分析・活用の事例を示していく予定です。
2.データ分析・活用に関する私のこれまでの関わり
(1)外交文書に関する照会業務
データ分析・活用の前提となるデータベースに私が関心を持ったのは、公務員時代の最後のポストのときでした。それは外交文書を永久保存し、また、誰もが利用できる組織でしたが、内容が外交文書であるだけに、毎年、内外からかなりの照会がありました。担当者が受け付け、内容についてはそれぞれが主にエクセルで記録しますが、項目もまちまちで、ファイルの所在もかなり分散されていました。そのため照会があっても、それを調べて答えるまで相当時間がかかり、ときには重複して保存文書そのものを調べるということも起こり得ました。そこで私がどのようにこの問題に取り組んだのかについては、次回お話しします。
連載を続けるにあたってのお願い
私はプログラミングの分野は素人です。プロのプログラマーの方は、プログラミングに関する部分は暖かい目でサポートをお願いします。データ分析・活用をするにあたってもプログラミングは避けて通れないと観念し、年齢を顧みずあえて挑戦することにしました。プログラミングのセミナーや研修にも挑戦してみましたが、ため息ばかりで殆ど身に付きませんでした。今回コロナウィルス禍の中で、自由な時間がとれたこともあり、無謀だとは思いつつも挑戦を続けています。プログラミングにはエラーが付いて回り、それを乗り越えないと使い物にはならないことは実感していますが、この連載の読者は、私と同じ素人を対象に考えています。いままでプログラミングとは余り縁はなかったが、専門的に学ばなくても十分に活用できるようになることをめざしたいのです。この連載は、私自身の学びと同時進行に進めることになり、プロの目から見ると話しにならないレベルで終わってしますかもしれませんが、是非できの悪い子供を見る親のように暖かく見守っていただけるよう、お願いいたします。建設的なアドバイスは大歓迎ですので、どしどしお寄せください。
著者 プロフィール
高橋周平 ITコーディネータ(2012年認定) 73歳。
2015年に、41年にわたる公務員生活を定年退職。その後2020年2月までは、海外販路開拓コンサル、監査役などの立場で主に中小企業を支援。並行して2016年から公官庁の研修機関でICTの基礎の副講師、2018年からはデータサイエンスの講師を務める。現在は第三の人生のため充電中。今後は法律関係、データ分析・活用の分野で企業の支援を続けていきたい。
コメント