用户画像:方法论与工程化解决方案

赵宏田
前言 为什么写这本书 我曾在知乎“数据智能”专栏下面不定期连载关于用户画像的文章,也曾在知乎开设过几期live直播,还曾在天善智能等网课平台开设过系列网课“用户画像解决方案”。在和同行业中对画像感兴趣的朋友们交流时,我发现大家虽然来自地产、烟草、零售、互联网等不同行业,但所在公司对用户画像领域都有建设需求,而且大家对于指标体系、标签作业效率(ETL)、标签监控、实时计算、画像产品化、业务应用场景和应用方式等方面都有进一步了解的兴趣。所以我想对这些年做用户画像的经验、踩过的“坑”进行梳理总结,为数据开发、数据分析、运营、用户研究等岗位的工作人员提供一些参考。 在写这份解决方案的一个个夜晚,我有时会想,科技和时代都在飞速发展,如果有一天我不做这一行了,该拿什么来回忆那些年奋斗的时光呢?2019年,我第3次从0到1开始搭建用户画像系统,从离线标签开发、用户数据分析、ETL调度、流式计算开发,到打通数据服务层、应用画像数据服务业务方、获得业务增长的反馈,这一路走过来,过程是痛苦的,收获是丰富的。奋斗的日子固然多彩,回望一步步走过的路,谨以此书向那些不舍昼夜奔腾向前的日子致敬。 本书特色 开始做用户画像的时候我也不知道从何处下手,市面上介绍Hive、Spark、HBase、MySQL、数据仓库等大数据相关技术的书籍很多,但是介绍用户画像搭建开发的书籍很少,甚至没有。在没有相关项目经验的情况下,我不知道如何把这些大数据组件统筹起来搭建用户画像系统。直到这两年,我才一边开发画像系统,一边总结梳理,最终编纂成本书。 本书借助数据仓库实现一套用户画像系统的方案。从实际工程案例出发,结合多业务场景,内容涵盖开发离线批处理计算的标签及流式计算标签,为读者的分析、开发、搭建用户画像系统,并借助该用户画像系统为运营人员制定运营用户的策略提供端到端的解决方案。 一套好的解决方案需要包括以下几个层面。…