データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

もうデータ置き場も分析環境も全部Googleで良いのではないか問題

japan.cnet.com 以前にこんな記事を書いた kskbyt.hatenablog.jp 上記リンク記事のようにBigQueryに標準SQLがサポートされ、分析環境が整っていく一方で、分析官の利便性向上もJupyterを標準サポートすることで着々と準備されている。データが生まれる(貯め…

機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った

いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド コードや説明など細かく書いて公開されているのですごく勉強になる speakerdeck.com 上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい 機械学習の結果の精度はツール自体(ア…

チャットbotというUIにするだけで確かに便利っぽくなる

LOHACOの会話AI(?)が話題なので実際に使ってみた bita.jp 何かのアプリとかインストールさせられるのかもと思ったら、LOHACOのWebページ上でブラウザだけで操作(会話)できる lohaco.jp で、やってみたんだが、これってAIなのか?(汗) よく検索される…

世のツイッタラーはGWに何を撮ってアップしていたのか?(Twitter API+Cloud Vision API)

というタイトルでQittaに初めて記事を書きました。社内勉強会向けにゴールデンウィークに書いたネタ記事です。 qiita.com 久々にmarkdown書いたのですがやっぱりメンドイ。特にテーブルとか思った通りに表記できなくてストレス溜まる感じですね。文章書くと…

データサイエンティスト協会が「データサイエンティストを目指す人のためのページ」を開設

データサイエンティスト協会が本日、新たなWebページを公開したそうです。 www.datascientist.or.jp ページの説明には"データサイエンティストとデータサイエンティストを目指す方のための無料会員制情報サイト"となっており、ざっくり中身を見てみると、公…

ジャーナリズムとして「物事を伝えること」はますます難しくなる時代

@c_zさんの新しいパナマ文書記事 medium.com 約三行要約 offshore leaksから一部、パナマ文書に関するデータが公開された データ形式はcsvで、きれいに整地されたデータでかつサイズが小さいのでローカルマシンでもいろいろ処理できる このデータを使ってい…

NHKスペシャル「天使か悪魔か 羽生善治 人工知能を探る」が良い番組だった

見ました。いろいろ最近の話がまとまってて、かつNHKっぽくかっこいいビジュアライズがあって良い番組でした。あまり人工知能の話を知らない人は驚きの連続の話だったんじゃないかな www6.nhk.or.jp 番組のトピック 近年のAIの台頭 AlphaGo DeepMind デニス…

羽田空港の分析官が教える、「改善のために小難しい分析は必要ない」という話

会社の人が「データ分析はかくあるべし」とお墨付きをしていたので読んでみた www.itmedia.co.jp 約三行要約 世界の大手航空会社36社のうち、JALが「定時通りに着く航空会社」としてトップらしい(非遅延率 約90%!) 特に日本最大の空港である羽田空港では…

さくっとSQLテーブル相関図を書く時に使えそうなツール

新規にプロジェクトメンバーが入った時に既存のSQLテーブルの説明を簡単にしたい。 でも"メモ程度"であったとしてもエクセルとかパワポを作るのは面倒。そんな時に使えそうなツール。 つまり、こういう感じの図を適当でもいいからサクッと作りたい これが良…

英ガーディアン社のデータジャーナリズム分析の解説

前回のパナマ文書の記事に引き続き非常にハイクオリティーな文章を書かれる@c_zさんの記事。今回はデータジャーナリズム的なお話。長いけど読み応えある記事なのでオススメ。 medium.com こちらが翻訳元の記事。D3.jsで描写されているだけあって、ヌルヌル動…

データ解析コンペのお話が会社のブログにも載りました

blog.brainpad.co.jp 2016年2月にデータ解析コンペに参加した時の記事を書いたのですが、会社のオフィシャルブログでも公開されたので記念にペタリ。記事を書かれた方は私とは別人ですよと。 kskbyt.hatenablog.jp 会社名が出ちゃってて書くのも微妙なのです…

熊本震災周りに見る技術の話いろいろ

2016年4月14日午後9時26分頃、九州地方を震源とするマグニチュード6.4の地震が起こりました。熊本県益城(ましき)町では震度7が観測されました。ちなみに「震度7」は気象庁震度階級で定義される最大震度らしいです。 地震発生直後からすぐにTwitterでも地震…

AbemaTVから考える、動画コンテンツの最適な配信方法

現在はメディア系の分析のお仕事やってるので関心度高いっす。テンション上がったー toyokeizai.net 約三行要約 Amebaとテレ朝(業界2位)がスマホアプリ向けの動画アプリ"AbemaTV"を公開 動画の間にCMが入るのでユーザーは無料で利用できる テレビ離れの20…

cytoscapeの中の人によるパナマ文書グラフ化プロセスの解説

良記事。勉強になった。 medium.com 約三行要約 データベースの構築はもとより、画像データのテキスト化、お金の流れを追える専門家が泥臭く作業して頑張った。こういった作業に「人工知能で自動化してウンヌン」という世界はまだまだ先の話。 Linkuriousと…

パナマ文書の取引や株主の情報がグラフ構造として公開されてるらしい

マジか。 https://linkurious.icij.org/widget/45747ce9 その前にそもそも「パナマ文書」ってなんだよって人はコチラのページ参照 blog.livedoor.jp このデータは「Panama Papers Dataset 2016」というタイトルで、githubにて公開されている github.com こち…

SVMとRandomForestのお勉強

分析でSVMとRandomForestを使いたかったので尾崎先生の著書を写経。 そういえば、分析はいつもJupyter notebook上で行ってるんですが、そのコードを共有するのが如何せん面倒だった。 ipynbファイルを渡しても展開できない人がいるし、その都度 ipynbからhtm…

LINEの特定アプリ利用優遇はいつか問題になるかもね

なるほどー、そうくるのか。 linecorp.com jp.techcrunch.com 格安SIMビジネスも始めるということかしら。格安SIMはやはり接続スピードが気になるのだけど、LineといえどMVNOである限りは他のサービスとそこまで品質差は付けられないと思われる。どうやら、L…

忙しい人のためのAlphaGo関連記事まとめ

適当にネットで拾った読んだAlphaGoに関する記事のメモ。一応時系列に並べてみた。 ※「忙しい人のための」といいつつ長文なのはご愛嬌 ※ アルゴリズムの内容に関する詳細な記事などは無し 前提知識など AlphaGo VS Lee Sedolの前に、そもそもAlphaGoってなん…

ついに囲碁AIがガチで人間に勝利

今日はこのネタに関して書かざるを得ない。 gigazine.net headlines.yahoo.co.jp 囲碁AIに関しては以前にも書いたんだけど、そこからの進化が早すぎる。「人間の棋士に勝つにはあと10年」と最近まで言われてたんだぜ。 kskbyt.hatenablog.jp kskbyt.hatenabl…

ドローンは何を目指して進化を続けるのか

いやー!でましたね!Phantom4! 年末からPhantom3が値引きされてて、なんだかんだで8万くらいで買えそうだったのでモニョモニョ迷ってるうちに4が出ました。 www.youtube.com www.borg.media 個人的に気になった進化ポイントは ・ 目的地を指定することで自…

Elastic Netの勉強

"ここ5年ほどで最も刺激的なアルゴリズムの一つ"と(「みんなのR」で)評されているElastic Netについて調べてみました。 Elastic Netとは 一般化線形モデルの回帰に正則化項を加味するモデル。 メリットとして次元削除と過学習防止を良い塩梅にやってくれる…

Webサービスにも存在する「不気味の谷」

この前、会社の研究開発部の方がおもしろい話をしていたので紹介したい。 ネタとしてはフレッシュではないが、Goolgeが提供するGmailにおいて、ディープラーニングによる"返信分のサジェスト"をサービスに加えようとしている話。詳細やサービスのイメージな…

ロボットの進化にも「可愛さ」が必要

最近の話題と言えばこれですね。 www.youtube.com Google(今はAlphabetか?)の傘下でロボット開発をしているAtlas社の新型二足歩行ロボットのお披露目動画。 最初に開発された4足歩行型ロボットがあまりにも不気味すぎて「Googleがのちのち人を殺すであろ…

データ解析コンペで区役所の受付案内システムのデータ分析に取り組んだ話

先週の土曜日(2/20)にオペレーションズリサーチ学会(OR学会)主催の27年度データ解析コンペに参加しました。 結果から言うと、我々のチームは同率3位(敢闘賞受賞)で予選コンペをパスしたので、今度は3月上旬に行われる別の学会でプレゼンの場が与えられ…

赤ん坊に株を贈る時代

PodcastのBackspace.fm G-sideを聞いていると面白いウェブサービスの話が出てきた。 blossomlink.me アメリカ国民限定でしか使えないらしいが、なにやら「知り合いに株を送れるサービス」というものがあるらしい。そのサービスはYコンビネーター出身者のサー…

もはや"食糧廃棄問題"を解決する唯一の手段は「データ活用」しかないと思う

今日はちょっと重い話題を。 www.nishinippon.co.jp 弊社社長が話題にした記事です。データ分析と何が関係が?、というと、日本では「食糧問題」がかなり大きな問題として横たわっています。食糧問題と言っても、廃棄食糧が多すぎる、という問題です。これは…

"Quiver"というEvernoteとJupyterの間の子エディター

"プログラマーのためのエディター"として少し前に話題になってたやつ。今頃使いました。現状ではMac限定 happenapps.com Quiverの日本語紹介ページはこちららしい Quiverをはじめよう · HappenApps/Quiver Wiki · GitHub ちなみに、現在はmarkdownエディター…

慶應SFCで開催されたドローンレース。クッソ面白かったし感動して泣きそうだった

昨日の話ですが、2月14日に慶應大学SFCで行われたドローンレースを見てきました。 ドローンは飛ぶPC、センサーの塊としてデータ分析官的にも魅力的です。いや、個人的に浪漫を感じる 今回の大会はドバイで行われる本戦に向けて日本代表を決める試合だったら…

"データから作られた子供"をメディアアートで考える

www.flickr.com メディア芸術祭「(不)可能な子供、01:朝子とモリガの場合」という作品を見た。 festival.j-mediaarts.jp 現在のテクノロジーでは同姓の親から子供は生まれない。それを、"遺伝子情報的"に生まれうる子供の容姿を画像化した作品。研究レベ…

データサイエンティストの必要スキルセットを議論するのは疲れた

以下の記事を拾ったので読んでみた Data Science Skills for 2016 この記事では、LinkdIn上でデータサイエンティスト職だと名乗っている人達に3,490のアンケートを送りつけて集計した"データサイエンティストの必要スキル"について書いてる。 以下そのランキ…