如何用TF-IDF算法从行为数据中挖掘用户偏好

从海量行为数据中识别用户偏好更精准的为用户推荐相关内容，一方面能满足用户个性化的需求，另外一方面也能提高对应的转化率。本文参考和整理【数据化运营】书中用户画像章节来看如何用TF-IDF等算法从海量的行为数据中挖掘用户偏好并进行应用。

以购物网站的图书类目为例，在售图书有上百万种，用户规模上亿，用户关于图书的行为有浏览、收藏/取消收藏、加购、评论、购买等，来看如何通过行为识别个体偏好并推荐相关类目书籍，以及如何识别群体偏好来更好的为新用户做冷启动。

1 为什么TF-IDF能用来识别用户在标签上的偏好

问题的核心是用什么指标来识别用户在标签上的偏好，最容易想到的是根据用户身上标签出现的频率来代表偏好。但这样带来的问题是，热门类型的书籍标签频率较高时，可能忽视掉用户在某个小众品类上的偏好。TF-IDF的分母能够对热门的商品进行惩罚，提高小众偏好的权重，识别出用户更加长尾的需求。接下来会介绍TF-IDF算法的计算方法，以及具体案例中该算法与直接用标签占比即TF的差异。

1.1 TF-IDF算法介绍

TF-IDF算法的全称是Term Frequency - Inverse Document Frequency，即词频-逆文档频率，被用在文章自动打标签中，其出发点是一个词语的重要程度和该词语在本文章出现的频率成正比即TF，和这个词语在所有文章中出现的频率成反比即IDF，这样就能过滤掉“了”、“的”、“么”等这些高频出现的助词，保留对文章中真正重要的关键词。

将其用在用户对图书标签的偏好识别时，对于每个用户来说，统计出来的用户行为中，某个标签出现的次数越多，说明该标签对用户来说越重要，同时该标签在所有用户中的所有标签中出现的次数越高，该标签对用户的重要性越低。用代表某用户，代表某标签，表示标签被标记到用户上的次数，TF的计算公式如下：

IDF的计算公式如下：

用户和标签之间的关系用表示，其计算公式为：

1.2 TF-IDF计算出结果示例

如下是用户A、B、C在a、b、c、d、e五个标签下的浏览行为数据，（4,5,0)代表用户A、B、C在a这个标签下的浏览次数，将其处理为右侧的excel表，接下来看一下TF-IDF如何计算。

计算TF，以A用户下a标签为例，计算公式为 4/15 = 27%，得到结果如下，最后一列是按照TF即用户身上标签的频率计算出来的标签重要性排序：

计算IDF，以a标签为例，计算公式为 log(41/9) = 66%，结算结果如下：

计算TF-IDF，以A用户下a标签为例，计算公式为 4/15 * log(41/9) = 18%

可以看到两者计算出来的用户偏好排序差异还是挺大的，如果商品越来越多，这种差异会更明显。

2 如何在sql中计算用户对标签的偏好

2.1 用户特定行为下标签权重

以上一节的数据为例，将其存储在dwd.persona_user_tag_relation_public表中

drop table if exists dwd.persona_user_tag_relation_public;

create table dwd.persona_user_tag_relation_public --用户属性表

(

user_id string comment '用户编码',

tag_id string comment '标签id',

tag_name string comment '标签名称',

cnt int comment '行为次数',

date_id timestamp comment '行为日期',

tag_type_id int comment '标签类型',

act_type_id int comment '行为类型'

)

comment '用户画像-用户行为标签表';