データ分析・活用の新天地を求めて (連載 第2回) 作成 高橋周平

ブログ-データサイエンス

ーデータサイエンス、データ分析・活用ツールとしてSQL、R言語、Python、それを動かす環境としてのGoogle Colaboratoryの記事、外交史料館での経験ー

前回からの話

前回は、私がデータベースに関心を持ったときのさわりまでの話でした。多くの方には余りなじみのない組織で、外務省外交史料館といいますが、外交文書を永久保存し、誰もが利用できるようにする組織です。例えば、自分の祖先が明治の初めころ、アメリカに渡ったことがあるらしいが、事実関係が知りたいとか、歴史上の出来事について根拠となる史料を知りたいなど、直接照会したり自分で調べたりすることができます。外交史料館について関心のある方は以下のURLをのぞいてみてください。

外交史料館のご紹介

(1)外交文書の照会システムへの取り組み 

私が勤めるまでに内外から寄せられた照会案件は1万件以上にも及ぶものでしたが、それをデータベース化して、照会への対応を迅速化したり、業務自体の効率化を図るための試みは余りなされていなかったようです。

 私は公務員の現役の時に、担当した業務の関係で情報システムの勉強をせざるを得ない立場になり、外交史料館に勤め始めた時にはITコーディネータの資格はもっていましたが、現場でどのようにITを活用すればいいかについては土地勘もなくすぐにアイディアは浮かびませんでした。

 そこで気が付いたのが、パソコンにインストールされていたデータベースのAccessでした。その時点での私の知識はAccess がデータベースであることぐらいで、その仕組みはもちろん、どうすればデータベースを作れるかなど、予備知識すらないのが現実でした。ともかく、テキストを何冊か買い込み、それを毎日昼休みに少しずつやってみることにしました。職場でも定期的にAccess の研修が行われていたので、職員にはそれを受講するよう勧めましたが、あくまでも本人の希望に基づくものだったため結局だれも受講するものはいませんでした。私自身が受講する選択肢もあったのですが、何となくそんな雰囲気でもなかったので、自分で学ぶ道を選びました。

 毎日少しずつ続けたのですが、テキストに書いてあることをそのまま繰り返すことはできてもなかなか身につきません。いつまでたっても実力が伴わず、何をやっているのか実感がわかないままの状態が続いていました。テキストを一通りやり終えたころから、テキストを順番にやっていってはいつまでたっても使い物にならないと感じるようになり、意識を変えることにしました。具体的には、職場の目の前にある課題を解決するためにはどうすればいいかを考えるようにし、できるところからデータベースを作り始めるということです。

 そのために、まず、簡単なデータベースを作ることに挑戦しました。模擬的に行・列のテーブルを幾つか作り、関連するテーブルを関連づけることから始めました。テキストでは順番に書いてあることでも、いざ自分でゼロから取り掛かると、あいまいな知識であることが多々あることに気づかされました。そして、ある程度感覚がつかめた時点で、実際のデータの処理に取り掛かりました。

 何十年にもわたって、数多くの担当者によって残されてきたデータを一カ所にまとめる作業が最初です。いろいろなフォルダに分散しているデータは、使われているソフトもすべてが同じではありません。一番多かったExcelのデータにしても、項目も書き方も担当するものによって異なっており、違う項目のものを整理するだけでも思った以上に大変な作業でした。何とか統一のフォーマットが出来上がったと思って、データの抽出を試みてもなかなかうまくいかず、空欄のセルや結合したセルがあるとエラーになるという基礎的なことに気付かされたのもこのときでした。多くのエラーに気付いて一つ一つ対処し終わるまでは、忍耐のいる作業の連続でした。

ある程度見通しが立った段階から、集中的に取り組み何とかすぐにデータの抽出ができるようになりましたが、それまでにはテキストを読み始めてから約2年近くの時が過ぎていました。この時の経験は、私にとっては原点ともいえるもので、その後いろいろな状況に遭遇した時に、どのように取り組むかを考える上でも非常に役に立っている気がします。

このブログの最終的目的は、データの分析・活用を進めることですが、新しいソフトに出会っても、まずは手を動かして身をもって体験することができるのも、このときのおかげと思っています。

(2)Excelとデータベースの違い

今回出てきたExcelは多くの方にとってもなじみのあるソフトだと思いますが、Access などのデータベースは一般的にはハードルが高いと思っている方もいると思います。また、ExcelとAccessは余り違いがないと感じている人もいるかもしれません。確かに、Excelも最近ではテーブルを作成することもでき、フィルタ機能やソート機能などによってかなりデータベースにちかくなっているのも事実です。しかし、データベースの基本であるテーブルがデータを貯めるものであるのに対して、Excelのシートは人に見せることを前提に作られているなど、もともとの考え方はかなり違うようです。特に、両者の大きな違いは、データ量が多くなった時や、データが追加されたときの自動計算などになると、データベースの方が圧倒的に力を発揮するかもしれません。もちろん、日常的に扱うデータの量がそれほど多くない場合は、Excelでも十分でマクロ機能などを活用すれば業務の効率化を図ることもできるはずなので、現場の状況にあった使い方を考えることが一番大事だということになるでしょう。

 今回は照会案件のシステム化の話をしましたが、次回は私が取り組んだ二つ目の業務であるアンケート調査のシステム化についてはお話しします。

著者 プロフィール 


高橋周平 ITコーディネータ(2012年認定) 72歳。
2015年に、41年にわたる公務員生活を定年退職。その後2020年2月までは、海外販路開拓コンサル、監査役などの立場で主に中小企業を支援。並行して2016年から公官庁の研修機関でICTの基礎の副講師、2018年からはデータサイエンスの講師を務める。今後は第三の人生として、法律関係業務、データ分析・活用の分野で企業の支援を続けていきたい。

コメント

タイトルとURLをコピーしました