RFM 模型、遗传算法与蚁群优化算法

本周学习的三类方法是客户运营与组合优化领域的基础工具，以下从概念内涵、核心细节、代码逻辑、实际场景四维度深度解析。
一、RFM 模型：客户价值的量化分层逻辑
1.核心指标的深层定义
RFM 并非简单的三个指标，而是对 “客户与企业关系紧密程度” 的多维度拆解：

R（Recency，最近消费间隔）
定义：客户最后一次消费距统计日的天数（如 “2025-12-06 统计，用户 A 最后消费是 2025-12-01，则 R=5”）。
关键细节：统计周期需匹配行业特性 —— 电商通常按 “30 天 / 90 天”，奢侈品可能按 “180 天”，周期过短会误判 “低频高客单” 客户。
F（Frequency，消费频次）
定义：统计周期内客户的消费次数（如 “90 天内消费 3 次，则 F=3”）。
关键细节：需排除 “测试单 / 退款单”，避免虚高频次；对 “订阅制产品”（如月度会员），F 通常等价于 “存续月数”。
M（Monetary，消费金额）
定义：统计周期内客户的累计消费金额（如 “90 天内消费 150 元，则 M=150”）。
关键细节：建议用 “实际支付金额”（扣除优惠券 / 满减），更真实反映客户贡献。

2. 经典分层方法：四分位法（比 “简单判断” 更科学）
将所有客户的 R/F/M 分别按 “从小到大” 排序，划分为 4 个分位（Q1~Q4），再给每个指标打 “1~4 分”（R 越小分越高，F/M 越大分越高），最终通过分数组合定义客户层级：

例：R=Q1（最近消费）→4 分；F=Q4（高频）→4 分；M=Q4（高金额）→4 分 → 客户层级 =“核心高价值客户”。

3. 代码逻辑深度解析（以四分位分层为例）

import pandas as pd
import datetime as dt

# 1. 模拟数据（含真实业务的“退款单”标签）
data = pd.DataFrame({
    "user_id": [1, 1, 2, 2, 2, 3, 3],
    "consume_date": ["2025-11-20", "2025-12-01", "2025-10-15", "2025-10-20", "2025-11-05", "2025-12-05", "2025-12-06"],
    "amount": [50, 80, 30, 40, 60, 100, -50],  # 最后一条是退款单（金额为负）
    "is_refund": [0, 0, 0, 0, 0, 0, 1]
})

# 2. 数据预处理：过滤退款单
data = data[data["is_refund"] == 0].drop("is_refund", axis=1)

# 3. 日期转换与R/F/M计算
data["consume_date"] = pd.to_datetime(data["consume_date"])
current_date = dt.datetime(2025, 12, 6)
rfm = data.groupby("user_id").agg(
    recency=("consume_date", lambda x: (current_date - x.max()).days),  # 取“最后一次消费”的间隔
    frequency=("consume_date", "count"),  # 统计消费次数
    monetary=("amount", "sum")  # 累计实际支付金额
).reset_index()

# 4. 四分位打分（R越小分越高，F/M越大分越高）
rfm["r_score"] = pd.qcut(rfm["recency"], q=4, labels=[4,3,2,1])  # Q1→4分，Q4→1分
rfm["f_score"] = pd.qcut(rfm["frequency"], q=4, labels=[1,2,3,4])  # Q1→1分，Q4→4分
rfm["m_score"] = pd.qcut(rfm["monetary"], q=4, labels=[1,2,3,4])

# 5. 客户层级定义
def get_customer_level(row):
    score = int(row["r_score"]) + int(row["f_score"]) + int(row["m_score"])
    if score >= 10:
        return "核心高价值客户"
    elif score >=7:
        return "潜力价值客户"
    else:
        return "低价值/沉睡客户"
rfm["customer_level"] = rfm.apply(get_customer_level, axis=1)

print(rfm)

代码细节说明：
过滤退款单：避免 “退款金额抵消消费金额” 导致 M 失真；
pd.qcut：自动按数据分布划分为 4 个等份数的分位，比 “固定阈值” 更适配实际数据；
分数求和：通过 “R+F+M 总分” 划分层级，是企业常用的简化分层逻辑。

4. 实际应用场景

核心高价值客户：推送 “专属权益”（如会员日提前购）；
潜力价值客户：发放 “满减券” 提升消费频次；
沉睡客户：推送 “召回短信”（如 “您有 1 张 50 元券即将过期”）。

二、遗传算法：模拟生物进化的优化逻辑
遗传算法是基于 “种群进化” 的启发式算法，核心是通过 “选择 - 交叉 - 变异” 迭代，让种群逐渐逼近最优解。

1. 核心概念的完整定义

种群：待优化问题的 “候选解集合”（如代码中 10 个二进制串组成的集合）；
个体：种群中的单个候选解（如代码中 “10110”）；
适应度函数：衡量 “个体优劣” 的函数（如代码中f(x)=x²，值越大代表个体越优）；
自然选择：按 “适应度高低” 筛选个体的规则（核心是 “让优质个体更易保留”）；
交叉：两个个体交换部分基因生成新个体（模拟生物繁殖中的基因重组）；
变异：随机修改个体的部分基因（避免种群陷入 “局部最优”）。

2. 关键步骤的深度解析
以 “求解 f (x)=x²（x∈[0,31]）最大值” 为例：

（1）种群初始化：init_population
代码中用 “5 位二进制串” 表示个体，原因是：x∈[0,31]，而 5 位二进制恰好能覆盖 0（00000）到 31（11111）的所有整数。

（2）适应度计算：calc_fitness
适应度是 “个体被保留的核心依据”—— 代码中x²越大，适应度越高，该个体在选择环节被保留的概率越大。

（3）自然选择：select（轮盘赌法）

轮盘赌法的逻辑是：
计算每个个体的 “适应度占比”（如个体 A 适应度 = 25，种群总适应度 = 100，则占比 25%）；
把 “占比” 映射为 “轮盘上的扇形面积”，随机转动轮盘，面积越大的区域越易被选中。
作用：既保留优质个体，也给低适应度个体少量机会（避免种群多样性丢失）。

（4）交叉：crossover（单点交叉）
代码中 “随机选 1 个交叉位置（如第 2 位）”，将两个父代的基因拆分后重组：

父代 1：10110 → 拆分后为 “10”+“110”；
父代 2：01001 → 拆分后为 “01”+“001”；
子代 1：10 + 001 = 10001；
子代 2：01 + 110 = 01110。
作用：让子代继承父代的优质基因，同时产生新的候选解。

（5）变异：mutate
代码中 “以 0.01 的概率修改某一位”（如 10001→10011），作用是：

避免种群陷入 “局部最优”（如所有个体都集中在 x=25 附近时，变异可能生成 x=31 的个体）；
维持种群多样性，让算法有机会探索更多候选解。

3. 代码迭代逻辑的说明

pop = init_population(10)
for gen in range(5):
    fitness = calc_fitness(pop)
    best_ind = pop[fitness.index(max(fitness))]
    print(f"第{gen+1}代 | 最优个体：{best_ind} | x：{bin2dec(best_ind)} | 适应度：{max(fitness)}")
    selected = select(pop, fitness)
    new_pop = []
    for i in range(0, len(selected), 2):
        if i+1 < len(selected):
            c1, c2 = crossover(selected[i], selected[i+1])
            new_pop.extend([c1, c2])
    pop = [mutate(ind) for ind in new_pop]

每一代的流程是：计算适应度→选最优个体→选择→交叉→变异→生成新种群；
迭代 5 代后，种群会逐渐向 “11111（对应 x=31，适应度 = 961）” 收敛 —— 这就是遗传算法的 “进化” 过程。

4. 实际应用场景

工程优化：如 “车间流水线的工序排序”；
机器学习：如 “神经网络的超参数调优”；
组合优化：如 “背包问题（有限容量下选物品使总价值最大）”。

三、蚁群优化算法：模拟蚂蚁觅食的路径优化逻辑
蚁群优化算法是基于 “信息素正反馈” 的启发式算法，核心是让蚂蚁通过 “信息素浓度” 找到最优路径。
1. 核心概念的完整定义
信息素（τ）：蚂蚁在路径上留下的化学物质，浓度越高代表 “该路径越优”；

启发式信息（η）：基于问题特性的 “路径吸引力”（如 TSP 中 “1 / 城市距离”—— 距离越近，吸引力越大）；
信息素挥发：路径上的信息素会随时间减少（避免算法陷入 “旧路径依赖”）；
信息素补充：蚂蚁走完路径后，会在路径上补充信息素（路径越短，补充的信息素越多）；
蚂蚁多样性：不同蚂蚁选择不同路径（避免所有蚂蚁都走同一条非最优路径）。

2. 关键步骤的深度解析
以 “4 城市 TSP（旅行商问题：从城市 0 出发，遍历所有城市后返回，求最短路径）” 为例：
（1）距离矩阵与启发式信息

dist_matrix = calc_dist_matrix(cities)  # 城市间的距离矩阵
eta = 1 / (dist_matrix + np.diag([np.inf]*n_cities))  # 启发式信息

dist_matrix[i][j]：城市 i 到城市 j 的欧氏距离（如城市 0 到 1 的距离 = 1）；
eta[i][j]：城市 i 到 j 的 “吸引力”—— 距离越近，η 越大，蚂蚁越易选择该路径。

（2）信息素初始化：tau = np.ones((n_cities, n_cities))
初始时所有路径的信息素浓度相同，保证蚂蚁在初始阶段能 “均匀探索所有路径”。

（3）蚂蚁构造路径：construct_path
蚂蚁选择下一个城市的概率公式是：(p_{ij}^k = \frac{(\tau_{ij})^\alpha \cdot (\eta_{ij})^\beta}{\sum_{l \in \text{未访问城市}} (\tau_{il})^\alpha \cdot (\eta_{il})^\beta})

α：信息素的重要性系数（α 越大，蚂蚁越依赖信息素）；
β：启发式信息的重要性系数（β 越大，蚂蚁越依赖 “距离近” 的路径）；
代码中 α=1、β=2：既参考信息素，也优先选择 “距离近” 的城市。

（4）信息素更新

tau = (1 - rho) * tau  # 信息素挥发
for i in range(n_ants):
    path = paths[i]
    L = lengths[i]
    for j in range(len(path)-1):
        u, v = path[j], path[j+1]
        tau[u][v] += Q / L  # 信息素补充

挥发（(1-rho)*tau）：rho=0.5 表示 “每次迭代后信息素浓度减少 50%”，避免旧路径的信息素累积过多；
补充（Q/L）：Q 是常数，L 是路径长度 —— 路径越短（L 越小），补充的信息素越多，后续蚂蚁越易选择该路径（正反馈）。

3. 代码迭代逻辑的说明

for iter in range(5):
    paths = [construct_path() for _ in range(n_ants)]
    lengths = [calc_path_len(p) for p in paths]
    tau = (1 - rho) * tau
    for i in range(n_ants):
        path = paths[i]
        L = lengths[i]
        for j in range(len(path)-1):
            u, v = path[j], path[j+1]
            tau[u][v] += Q / L
    best_idx = lengths.index(min(lengths))
    print(f"第{iter+1}次迭代 | 最优路径：{paths[best_idx]} | 长度：{lengths[best_idx]:.2f}")

每一次迭代后，“短路径” 的信息素浓度会越来越高，蚂蚁会逐渐集中到 “0→1→2→3→0”（长度 = 4.00）的最优路径上。

4. 实际应用场景

物流配送：如 “快递员的最优配送路线规划”；
网络路由：如 “数据传输的最优路径选择”；
交通规划：如 “城市公交线路优化”。

总结：三类方法的核心逻辑与应用边界

1. 核心逻辑对比

2. 学习与应用关键提示

RFM 模型：核心是 “指标定义与数据预处理”（如过滤异常订单），分层规则需结合业务场景调整（如高客单行业可提高 M 的权重）；
遗传算法：关键是 “适应度函数设计”（需贴合优化目标）和 “参数调优”（如种群规模、交叉 / 变异概率），避免过早陷入局部最优；
蚁群优化算法：重点是 “信息素参数（α、β、ρ）调整”——α 过大易陷入局部最优，β 过大易忽略优质旧路径，需平衡探索与利用。

3. 后续学习方向

RFM 模型进阶：结合机器学习（如 K-Means 聚类）实现更精准的客户分群；
遗传算法进阶：求解连续型优化问题（如神经网络超参数调优）、多目标优化；
蚁群算法进阶：解决大规模 TSP 问题（如 100 + 城市）、结合其他算法（如遗传算法）提升效率。

三类方法均为 “工程化落地性强” 的技术，核心是理解其底层逻辑后，通过代码实现并结合实际场景调整参数 —— 从基础案例入手，逐步扩展到复杂场景，是快速掌握的关键。

posted on 2025-12-06 23:39 熊瑾阅读(66) 评论(0) 收藏举报

刷新页面返回顶部

导航

RFM 模型、遗传算法与蚁群优化算法