上場企業でデータ分析のインターンをした

住人の大輔です。
先日株式会社ファンコミュニケーションズでデータ分析のインターンをしてきました。

ファンコミはアフィリエイトサービスのA8ネットをはじめ、広告配信基盤であるDSPやSSPを自社で構築している国内最大のアドネットワーク企業です。

インターン内容

[5日間でやったこと]

・統計、機械学習の基礎
・簡単な特徴語抽出。サンプルデータを用いた予測やレコメンドの仕組みの実装。
・ビッグデータからインプレッションとCVを抜き出してCVRxCTRが低い&高い時間帯を調べた。
・Wifiの有無によるCVRxCTRの違いを調べた
・UserAgentごとのCVRxCTRの変動を調べた

[詳しい内容]

最初は「データサイエンス入門」みたいなテキストを渡され、それを読み
データ分析・統計の基礎・機械学習の基礎を学びつつ、ロジスティック回帰
やランダムフォレストなどの基本的なアルゴリズムを用いて
簡単な分析を行なってました。
まだ高専の3学年を終えたてだったので「確率分布」など、
習ってない事が多々あり、実装に必要な知識をこの短い期間で
全部理解するのは無理そうだなと思ったんですがテキストのまとめ方がうまくて割と理解できました。

ちなみに70ページくらいの結構しっかりしたテキストで、LaTeXで書かれててすごかった。
さすが上場企業だなあと、、、

その後はいきなり会社の実データを使ってデータ分析。
いくつか課題を出されて、それをずっと解いていました。
例えば、CVRxCTRが高いUserAgentを調べるために
SQLでimpとconversionイベントを抜き出してCVRを計算し、それをUserAgentでグルーピング
してmatplotlibでビジュアライズしたり、Wifi接続の有無によるCVRの違いを調査したりなど。

本格的にビッグデータを扱ったのは初めてで、最初は色々詰んでましたが
メンターさんの説明がわかりやすかったので、するする理解できた。

昼休み

毎日色んなエンジニアさんやマネージャさんにご飯に連れてってもらい楽しかった。青学の学食がすごいコスパよかったです。

まとめ

・データ分析の基礎がだいたいわかった。
・求めたい結果から1つずつ逆算してどんなアプローチを取るのが最適解か常に考えよう。
・データの検定大事。
・機械学習系で使うツールは英語の資料がめっちゃ多いので英語力大事
・SQLはどんどん叩いて慣れよう。
・質問力が増した。