冠县市夏槐科技有限公司

什么是用户的复购周期

在这里我们结合一个电商销售数据来感受下shift函数的使用。我们有一份客户和购买时间的数据，现在想统计每位用户在今年的平均复购周期和全部用户的平均复购周期。

每位用户的平均复购周期：每两个复购时间之间的天数之和 / 用户总复购次数
全部用户的平均复购周期：全部用户的平均复购周期之和 / 总复购用户数

通过一个例子来解释用户的平均复购周期，假设某位用户购买情况如下：

张三用户的复购间隔分别为：6（1号和7号的间隔），3（7号和10号），10，8；也就是相邻两次购买时间之间的间隔。

那么张三的平均复购周期：（6+3+8+10）/ 4 = 6.75

模拟数据

模拟了一份电商数据，多位用户购买了一次或者多次：

下面通过Pandas来求解每位用户的平均复购周期和全部的平均复购周期

确定哪些用户存在复购行为

复购的用户指的是：在统计时间范围内，存在多次购买的用户。所以我们首先找到那些至少购买两次的用户

统计发现：小王同学只购买了一次，没有复购行为

筛选出复购用户：

从原始数据中提取出复购用户的数据

根据每位用户的购买时间来升序排列

根据每位复购用户的数据移动一个单位

在行方向上移动一个单位：

拼接数据

将排序后的df3和我们根据df3平移后的数据在列方向上拼接起来：

字段时间1相当于每个购买时间的前一个购买时间点

上面的数据框中：

时间: 可以看做是我们的本次购买时间
时间1：上次购买时间。每个用户的第一次购买时间是不存在上次购买时间，所以显示为NaT

将NaT数据删除

使用dropna函数来删除缺失值的数据

求出复购时间间隔

两个字段：时间和时间1的差值，就是每位用户的复购时间间隔，可能存在多个

查看数据的字段类型，我们发现间隔这个字段是一个timedelta64[ns]的类型

别名	描述
企业列表【Python】电商用户复购数据实战：图解Pandas的移动函数shift 新闻列表暂无新闻推荐企业新闻 00后少年的青春长短句——由惊竹娇首部诗集《君不见》畅销谈起 '智能闲鱼文案生成器：一键打造高转化卖货文案' 公网ip和域名是干嘛的？域名由谁管理的？学院娱乐｜ 2024近期热梗盘点【名医】我是你的肺泡，我拼尽全力让你自由呼吸大学老师必备！30余个学术资源网站速收藏（附链接）【Python】电商用户复购数据实战：图解Pandas的移动函数shift 人生哲理格言 2024年热门地推拉新App推广接单平台推荐使用Python爬虫爬取淘宝商品并分析回顾丨13年来，淘宝走过的大数据之路在抖音“搜”出年中大促节点好生意，「千万别搜」新一季“520”火热来袭前端入门知识分享：HTML 页面中 head 标签之间的代码详解创新升级bt磁力搜索器3.0强势回归，资源搜索更高效” 《逆水寒》11月28日更新内容汇总联系方式联系人：汪女士		首页 > 新闻中心 > 【Python】电商用户复购数据实战：图解Pandas的移动函数shift 新闻中心【Python】电商用户复购数据实战：图解Pandas的移动函数shift 发布时间：2024-11-15 浏览次数：2 返回列表公众号：尤而小屋作者：Peter编辑：Peter 本文主要介绍的是pandas中的一个移动函数：shift。最后结合一个具体的电商领域中用户的复购案例来说明如何使用shift函数。这个案例综合性很强，除了需要掌握shift函数，你还会复习到以下pandas中的多个函数使用技巧，建议认真阅读、理解并收藏，欢迎点赞呀~ 分组统计：groupby 过滤筛选数据：query 排序函数：sort_values 合并函数：concat 字段重命名：rename 缺失值删除：dropna 宝藏函数：apply Pandas文章连载系列已经到了第20篇，主要分为3类：基础部分：1-16篇，主要是介绍Pandas中基础和常用操作，比如数据创建、检索查询、排名排序、缺失值/重复值处理等进阶部分：第17篇开始讲解Pandas中的高级操作方法；后续主要是以时间序列相关为主对比SQL，学习Pandas：将SQL和Pandas的操作对比起来进行学习 14种方式，34个案例：对比SQL，学习Pandas操作 periods：表示移动的幅度，可正可负；默认值是1，1就表示移动一次。注意这里移动的都是数据，而索引是不移动的，移动之后没有对应值的，就赋值为NaN。 freq：DateOffset, timedelta, or time rule string，可选参数，默认值为None，只适用于时间序列。如果这个参数存在，那么会按照参数值移动时间索引，而数据值没有发生变化。 axis：表示按照哪个轴移动。axis=0表示index，横轴；axis=1表示columns，纵轴 fill_value：表示当我们数据发生了移动之后，产生的缺失值用什么数据填充。如果是数值型的缺失值，用np.nan；如果是时间类型的缺失值，用NaT（not a time）模拟了两份数据，其中一份和时间相关。另一份是和时间相关的：表示每次移动的幅度可以看到默认情况下，shift函数是在行方向上移动一个单位用来表示在哪个方向上进行移动，上面的例子默认是在axis=0，或者表示成：axis="index" 如果我们想在列方向上移动，可以使用axis=1或者axis="columns" 同时移动的幅度是可正可负的：移动之后缺失值的填充数据表示移动的频率，专门用于时间序列的移动中频率时间序列变化频率有间隔相同的，也有不同的。许多字符串别名被赋予有用的普通时间序列频率。我们将这些别名称为偏移别名。上面的shift函数中使用的就是这些别名，具体如下表所示：
B	工作日频率
C	自定义工作日频率
D	日历日频率
W	每周频率
M	每月最后一个日历日
SM	每半个月最后一个日历日（15日和月末）
BM	每月最后一个工作日
CBM	自定义每月最后一个工作日
MS	每月第一个日历日
SMS	每半月第一个日历日（第1和第15）
BMS	每月第一个工作日
CBMS	自定义每月第一个工作日
Q	每季度最后一个月的最后一个日历日
BQ	每季度最后一个月的最后一个工作日
QS	每季度最后一个月的第一个日历日
BQS	每季度最后一个月的第一个工作日
A, Y	每年的最后一个日历日
BA, BY	每年的最后一个工作日
AS, YS	每年的第一个日历日
BAS, BYS	每年的第一个工作日
BH	工作日按“时”计算频率
H	每小时频率
T, min	每分钟频率
S	每秒频率
L, ms	毫秒频率
U, us	微秒频率
N	纳秒频率