データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

データ解析コンペで区役所の受付案内システムのデータ分析に取り組んだ話

先週の土曜日(2/20)にオペレーションズリサーチ学会(OR学会)主催の27年度データ解析コンペに参加しました。

結果から言うと、我々のチームは同率3位(敢闘賞受賞)で予選コンペをパスしたので、今度は3月上旬に行われる別の学会でプレゼンの場が与えられるそうです。夏くらいから業務の合間にみんなでボチボチ頑張ってたのですが、本選に向けてさらに1ヶ月頑張ります。

というわけで、今回はこの「データ解析コンペ」でいろいろやってきたことを書こうと思います。

f:id:kskbyt:20160223001751j:plain

 

現在所属している会社では、なんとなく年次の若い人が集まって、有志でチームを組んで毎年この解析コンペに参加しているそうです、で、今年は自分も参加してみました。

このコンペは、平成6年より20年以上開催されているそうで、一応日本で一番古く、最大級のデータ解析コンペ(?)だそうです。

ちなみに「オペレーションリサーチ」とはなんぞやという説明は以下

オペレーションズ・リサーチとは|公益社団法人 日本オペレーションズ・リサーチ学会

たぶん、ざっくり言ってしまうと「何らかの処理プロセスを効率的に行えるようにスマートな手段を考える」ということだと思います。たぶん。(違ったらごめんなさい)

 

過去の開催コンペテーマ一覧はこちら。

データ解析コンペティション - 経営科学系研究部会連合協議会―データ解析コンペティション事務局

 

学術的なテーマというよりは、実際に企業などからデータを提供していただいて分析を行うという感じのビジネス・マーケティング寄りな雰囲気。このコンペは同じお題で他県の複数の会場でも行われ、各会場で優秀だった1〜3チームを予選選抜チームとして選ばれ、選ばれたチームが天下一武道会的な感じで更にコンペをし、優勝チームを決めるというものらしいです。

 

で、今年のテーマは2つあって、そこから1つを選ぶ形式でした。

1つはスーパーマーケットの大規模POSデータ、もう1つは板橋区役所の受付案内システムのデータ。

 

我々のチームは、会社業務の1つとしてPOSデータの分析を行っていることもあり、自分たちにとって目新しく、勉強になりそうということで板橋区のデータを選択することにしました。行政のデータに触れる機会はなかなか無いし、自分自身も行政データの分析にはすごく興味があったので分析テーマとしてはなかなか興味深いものが選べてラッキーでした。もし上手く分析結果を出せればそれを会社の分析事例として他の行政からも仕事が貰えるかも、、、という欲も含まれています。ぐへへ

 

ところでなぜ板橋区役所がそんなコンペにデータ提供してるの、という点についてすこし説明。

実は板橋区役所の受付案内システムは少しユニークで、例えば、朝に役所に来て受付の発券をしておけば、夕方に来ても待ち行列に割り込んで処理してもらえる、ということが出来きます。つまり、役所でずっと座って待っておく必要が無い。

受付の状態はWebでリアルタイムに公開されており、発行に時間がかかる書類などを引き出すときは、ウェブ上で「処理完了」を確認してから窓口に向かうと長い待ち時間なしで受け取ることができるらしいです。

リアルタイム窓口情報

 

またそのサービスの一環として、「混雑予想カレンダー」なるものも一緒に公開しています。こんな感じ。ディズニーランドの混雑予想カレンダーみたいなものですね。

 

f:id:kskbyt:20160221094809p:plain

 

ただ、このシステムのアルゴリズムはまだ効率のよいものではないらしく、上記の混雑予想カレンダーも役所の人が去年の来庁人数記録を見て、勘と経験で推測した数を今年用のカレンダーに出力しているだけらしいです。この辺の課題を競技チームが頑張って現状より良い感じにするというのが漠然とした解析の目的。

それ以外の具体的な解析目的のようなものはコンペ側からは特に設定されず、板橋区が掲げる「板橋区の目指す姿」「ビジョン」的なものを元に、チームごとに課題と目的、仮説、手法を自由に決めて解析を行います。何を基準にチーム順位をつけるというのも結構曖昧で、解析結果とプレゼン力両方の"総合力"で判断される感じです。

解析目標に関しては一応、板橋区が事前資料として板橋区が考える自分たちの課題点的なものを公開しており、ざっくり言うと、「待ち時間を短縮する施策案」や「役所側も認識していない問題点」などをデータ分析から示せると喜ばれるらしい。なのでそれを目指して解析を行いました。そんな感じでスタートしたわけです。

 

実際にデータを受領して分析してみると、まずデータそのものがあまりにも疎であったり、データの貯められ方に問題があったりしてなかなかタフな感じでした(時系列なログデータを貯めているはずなのに、古いログデータが新しいログデータで上書きされる使用になっているため時間的に初期のログデータが消される、など)。

他にも、データ取得期間の途中からデータ形式に変更があり、古いデータと新しいデータで整合性が取れない、などなど。板橋区、システム会社に騙されてるんちゃうんか...

そんな感じでデータの理解、基礎集計、クレンジング作業に手間が非常にかかりました。データに関する詳細なドキュメントなどもないので、競技チームと区役所間で飛び交うたくさんの質問票...

いろいろ話し合って、最終的に自分たちのチームの解析目標は「混雑予想カレンダーの精緻化」ということにしました。ベタなネタですが。

現状、職員が去年の来庁者数を調べて勘で表示させている今年の来庁予想人数を、機械学習的な手法を使って、一時間ごとの来庁者数を高精度に予測するというものです。

もし正確に来庁者数を予測できれば、来庁者が多い日には窓口職員の人数を増やすなどの対応をすることで、利用者の処理待ち時間を減らすことができ、「ストレスの少ない板橋区役所」になるはずです。

そんなこんなで、業務の合間に時間を作って解析に取り組むのでなかなか大変だったりしましたが、なんがかんだで我々のチームはOR学会での予選コンペを同率3位でパスしました。詳しい解析の中身についてはまた追々このブログでも書きたいと思います(優秀なチームメンバーがバリバリ解析したのでまだ理解が追いついていないところが多々あるため...勉強します。)

長いので今日はこの辺で。