Netflixはどのように映画をジャンル分けしているか
映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー(有料会員)がいる成熟したサービスですが、現在もすごいペースで成長しています。
利用できる地域は限られますが、日本でもレコメンデーションのコンテストNetflix prizeの開催や、AWSをいち早く活用した企業として知られています。
Netflixは先に紹介したNetfix Prizeでレコメンデーションの性能向上に懸賞金をかけたほど、レコメンデーションがサービスの重要な位置を占めています。 視聴された映画の2/3はレコメンデーション経由らしいです。
Todd Yellin(Vice President of Product Innovation at Netflix)は、「映画をピッタリの人にピッタリのタイミングで届ける」ことをパーソナライゼーションのゴールと言っており、例えばこのために、1つのアカウントで複数の人間のプロフィールを登録可能にし、どの人がどの映画を見たのかはっきりさせる機能を昨年リリースしています。これによって家庭にあるnetflixの共用端末で家族の誰がどの映画をいつ見たのかより正確につかむことでレコメンデーションをより正確にしようとしています。
そんなNetflixですが、最近おもしろい記事があったのでご紹介したいと思います。
Netflixはどのように映画をジャンル分けしているか
優れたアルゴリズムで選び出した映画も紹介のしかた次第コンバージョンは変わってくるものと思います。
例えば、ヒューマンドラマとかロードムービーが好きな人って分かってて
「ドラマから○○をオススメします」って書いても、 「確かにドラマは好きだけど、どんな映画でもいいわけじゃない、好きなテーマとしては…」
ってなると思います。映画のジャンル分けってザックリしすぎてマジで参考にならないんですよね。それはどんなドラマだよって。
でも、Netflixには映画をピッタリ言い表すジャンルが全部の映画にあるそうです!!
例:
- 弱者をテーマにしたドラマ(Independent Underdog Dramas)からオススメ:
って言われたら「おうそれそれ」ってなるかもしれません。
って言われたら、ほうほう!ってなるじゃないですか。
- 「弱者が這い上がる系の伝記映画(Emotional Biographical Underdog Movies)からオススメ:
って言われたら歴史上の人物の伝記ものに興味ある人は興味を引かれると思います。
僕は打撃王以外は全部見たことあるんですが、ジャンル名はこれ以上ないとは言いませんが、違和感無いです。 これだよ!この粒度でこそジャンル意味ある!僕はそう思いました!
そして、Netflixにはこうした細かい映画のジャンルが現時点で7万7000ジャンルあり、 それぞれに何件かの映画が登録されているそうです。 そして、この細かいジャンルのことをaltgenreと呼んでいます。
altgenreの仕組み
altgenreは36ページのマニュアルを読み込んだ映画アノテーターが映画全てに細かくタグ付けしたデータを元に構築されます。
- 映画の結末タイプ(例:ハッピーエンディング)
- 主人公は社会的正義側か、アウトローか
- 公開年代
- ロケ地
- テーマ(結婚、忠誠、家族、名声、猫、犬、馬、アート、フード、911、etc...)
- 性的表現の程度
- 残虐表現の程度
- ロマンスレベル
- etc...
これをコンテンツ産業に従事したことがある優秀な経験者数十人が人力で映画を見てタグ付けしているそうです。すごい!
そして、文が長くなり過ぎない範囲でこれを1つのセンテンスにしてaltgenreとしています。
また、文を生成するときにEnjoyableって書くためには、ハッピーエンディングで、主人公は社会的正義側のヒーローであることなど、ひとつの単語の成立条件を複数のタグで表現したりすることもあるそうです。興味深い。楽しいってどういうことなのかを要素分解できるわけですね。 Emotionalの成立条件ってどんなのなんですかね。
個人的に意外だったのは、人手がかなりかかっていることです。 高度なアルゴリズムによって自動的にタグが展開されているんだとばかり思ってたので、 やはり映画のプロットの重要な部分は人間が解釈してアノテーションする方法が選ばれているのが意外でした。 音楽ストリーミングサービスのpandoraのmusic genomeは400の特徴量を音楽から取り出してレコメンデーションに役立てているという記事を何処かで読んだことがあって同じようなものを想像していたためです。
また、視聴履歴と組み合わせれば、どこの地域で、どんなプロットやテーマが需要があるかとかもわかってしまう。 Netflixは最近自社でドラマを制作しましたが、どんなプロットにしようかとあれこれ悩まなくても一番数字取れるプロットを自動生成したのではないでしょうかね。
altgenreのより詳しい内容については原文をどうぞ。 この記事はnetflixの偉い人へのインタビューも含まれていますが、 基本は第三者がスクレイピングしてリバースエンジニアリングして分析しただけなので、 本当に細かいところまではわかりませんが。
関連記事
NetflixはTechblogがかなり面白いです。
あと、Netflixのレコメンデーション周りで面白かったのをあげときます
- netflix prize is over, 時間経過による嗜好性の変化: DO++
- 直接は実装されなかったけど、マルチプロファイル機能とかは応募されたアルゴリズムに勇気づけられて意思決定されたんじゃないかなと思う
- The Science Behind the Netflix Algorithms That Decide What You'll Watch Next | Underwire | Wired.com
- Building Large-scale Real-world Recommender Systems - Recsys2012 tutorial