思考実験なのであしからず。
仮にAmazonが、普通のKindleと、Kindle Unlimited(以下アンリミ)のデータを別に管理していたとする。相関のデータだ。
そうなったとき、Kindleとアンリミのどちらがレコメンドとして頼りになるだろうか。
Kindleの方は、「お金を払ってまで読みたいと思った」本が記録されている。そうしたデータは、その人にとっての必要性が高く設定されているわけで、レコメンドを考える上では重要だろう。アンリミでは、その「必要性」が低くなる可能性があるので、レコメンドの信頼性は一定数落ちるように思える。
しかし、しかしである。
アンリミにとってのメリットは、圧倒的な数だ。アンリミは月額980円さえ支払えばいくらでも読めるので、「お金を支払うほどではないけれども、興味はある」というコンテンツのデータを採取できる。これはKindleだけでは得られなかったデータだ。つまり、一つ一つのデータの強度、言い換えればその本を必要としているパラメータの大きさは小さくなるものの、裾野がずっとずっと広がることになる。
安易に言えば、データの質と量の対比がここにはあるわけだ。
そして、気になるのは、そのどちらが私に本をオススメしてくれるデータとして有用なのか、という点だ。もちろん合理的な答えは、両方を使うこと、なのだが、それは横に置いておく。
あくまで二つだけを比べてみると、実は案外アンリミの方が、つまり浅く広くデータを集めた方が効果的ではないか、という気がしてくる。特に、人が買う本の数がそれほど多くないことを考えると__言うまでもないが、一部の人は除かれる__、アンリミのデータの方が役立ちそうな気がする。
ともあれ、実際Amazonがどのようにこれらのデータを管理しているのかは、私の知るところではない。でも、レコメンドの作法について考えてみるのは、なかなか楽しい。