カルチャー
2022/07/14
データサイエンティストの高みを目指していたら、Kaggle沼にハマった
世界中のデータサイエンティストが、予測モデリングや分析手法を競い合うデータ分析コンペティション。中でも、世界的に最も有名なコンペプラットフォームが「Kaggle」です。データガバナンス室の山田さんは、「Kaggle」で、2022年2〜5月に開催されたアパレルブランドのH&M主催のコンペ「H&M Personalized Fashion Recommendations」に参加し、2952チーム中8位に入賞してゴールドメダルを獲得。
これまでに獲得した4つの銀メダルと合わせた評価で、日本に200人程度しかいない「Kaggle Master」の称号を得ました。数々のデータ分析コンペに挑戦し、成果をあげ続ける山田さんに、データ分析コンペの醍醐味についてお話を伺いました。
目次
■インタビュイー略歴
-
山田 和紀
- 経営戦略本部 データマネジメント部 データガバナンス室
持てる知識とアイデアを駆使し最高の“解法”を見出す
山田さんの業務経歴と現在のお仕事について教えてください
大学院で数理工学を専攻しており、当初はスマートフォンの開発がしたいと思いKDDIに入社しました。最初に配属された部署では、サーバ設備の保守運用の担当でしたのでスマートフォンの開発やデータ分析とはあまり関連のある業務ではありませんでした。その後、異動してスマートフォンのトラフィック分析を担当し、データ分析の道に進みたいと思いました。さらに次の部署では自動車会社と共同で新規技術の開発や検証、車両データや道路エリアの分析業務を担当しました。
現在は、MaaS事業の相乗りタクシーサービス「mobi」の移動ログを活用した分析やpovoの「#ギガ活」の利用者データの分析支援などを担当しています。
データ分析コンペに参加されたきっかけは何ですか
約3年前に業務で機械学習の知識が必要になり、勉強を始めたのがきっかけです。せっかくなので、スキルを向上、証明をしようと思って参加しました。民間資格もありますが、最低限の知識があることを証明してくれるだけのものです。一方コンペは、実践的なスキルも身につけられ、世界のデータサイエンティストの中での自分の立ち位置が確認できると思いました。
データ分析コンペとはどのようなものなのでしょうか
データ分析のコンペ自体は、10年以上前からありますが、注目されはじめたのはここ数年です。Googleの子会社が運営している世界最大のコンペプラットフォームが「Kaggle」で、世界中の情報科学、統計学、経済学、数学などの分野から約1,000万人のデータサイエンティストが参加しています。また国内最大級のプラットフォームが「SIGNATE」で、こちらは日本人を中心に約65,000人が参加しています。ほかにも世界中にたくさんのプラットフォームがあります。
コンペは常時、複数開催されています。企業や研究機関がデータと課題を提供し、参加者は機械学習や統計学などを用いてそのデータを分析し、課題に対する解法の精度を競い合います。以前は、テーブルデータを扱うシンプルな分析が多かったのですが、最近では画像や自然言語処理などの技術を使うものも増えてきました。例えば、クジラが同じ個体かどうかを画像認識で調べるというテーマもあります。取り扱うデータ量も増えているので、モデルを学習させるだけで一週間以上かかることもあります。
コンペの期間中は何度でも解答を提出することができます。都度暫定の順位が入れ替わるので、もっと良い解法を見つけて上を目指したい!と欲が湧いて、締め切りまでひたすらいろいろな分析手法を試み、可能な限り何度も解答を提出します。期間中は、仕事が終わると寝るまでデータ分析をして、いろいろな方法を試しまくって、200回以上提出することもあります。まさに沼。Kaggle沼……ですね(笑)。
過去の試みに学び、オリジナルアイデアで勝負
今回ゴールドメダルを獲得したH&M主催のコンペと、山田さんの提案内容について教えてください
課題は、「H&MのECサイトで、過去の購買履歴からお客さまにより適切な商品をレコメンドする精度を競う」というものでした。具体的には、10万点のアイテムの中からお客さまが次に買いそうな12点を選び、それが合致しているかどうかの精度を競うというものです。お客さまは130万人いるので、一人ひとり10万点から選ぶとすると、計算にかなりの時間がかかってしまいます。そこでまず、ユーザーが過去に買ったものや色違い、ユーザーと似ている人が買ったもの、直近のトレンドなどからざっくり数百の候補を選び、次に機械学習で候補内のランキングを得るという2ステップの戦略を立てました。
▲「Kaggle」のWebサイト上に掲載された、アパレルブランドのH&M主催のコンペ「H&M Personalized Fashion Recommendations」
そういった戦略は、どうやって立てるのでしょうか
普段から、他のデータサイエンティストが過去に試みた方法などを取り込んで試し、経験値を増やしています。解法を決める8~9割はこうした知識や経験によるものですが、それだけでは周りとの差がつかないのでコンペで勝つことはできません。戦略には自分オリジナルのアイデアが必要になります。
今回は、お一人での参加ですが、チームで参加することもありますか
一人の気楽さも好きですが、チームを組むこともあります。チーム戦の良さは、人数分のアイデアがあること、分析を同時に回せるということでしょうか。以前、まったく知らない外国の人からメールが来て、チームを組まないかと誘われたこともありました。そんなワールドワイドなコミュニケーションも「Kaggle」に参加したからこそ得られたものだと思います。
データ分析コンペに挑戦する醍醐味は何でしょうか
結果がすぐに順位となって可視化されることでしょうか。もっと上に上にという気持ちの盛り上がりとともに、スキルもあがり、評価もあがる。そんなゲーム性のあるところが挑戦に駆り立てるのだと思います。
またメリットもあります。まず、自己スキルが向上すること。いろいろな分野のデータに触れることができますし、他人の解法からも学ぶことができ、実業務にも役立っています。
二つ目は、自分のスキルを証明できること。H&Mのコンペでゴールドメダルを獲得し、日本には200人程度しかいない「Kaggle Master」の称号を得ることができました。人財市場では高く評価されることになると思います。三つ目は、社外に輪が広がること。そして四つ目はおまけですが、上位に入賞すると賞金が手に入ることです。私はこれまでに合計110万円の賞金を獲得し、奥さんからも応援されています(笑)。
データ分析コンペに興味が湧いてきた読者もきっといると思います。一言、後押しをお願いします
ハードルが高いと思って躊躇している方も多いかもしれませんが、スキル上達への近道は手を動かすこと。やったことがすぐに数字としてフィードバックされることはなかなかありませんし、精度が上がると純粋に楽しいです。ゲームにハマっているのと同じ感覚だと思います。
泥臭くデータをいじっていると数字から見えてくるものがある
データサイエンティストに向いているのはどんな人だと思いますか
データを泥臭くいじることを楽しめる人でしょうか。一方で、プロジェクトの上流で、仮説を立ててデータを検証するデータサイエンティストも必要です。私もゆくゆくは全てできるデータサイエンティストになりたいと思っています。
今後、データサイエンティストとして挑戦したいことは何ですか
今後、KDDIでAI・機械学習を実サービスに取り入れるためにも、エンジニアリング組織でもっと内製化できないかと考えています。自分の手を動かさないときめ細やかな良いサービスは作れませんし、変化のスピードにも追いつけないと思います。
個人的な挑戦としては、「Kaggle」の最高位の称号である「Kaggle Grand Master」になりたいですね。毎晩データをいじり倒しながら、データサイエンティストとしての高みを目指していきます。