数据变化(原始数据—数据清洗—特征工程)

数据清洗步骤

用户行为数据缺失值处理

  • user_id、item_id是关联用户和商品的唯一标识,缺失后无法建立有效关联
  • behavior_type是核心行为标签,缺失无法定义交互类型
  • timestamp是时间序列分析的基础,缺失影响序列特征的准确性
  • 直接删除比填充更可靠,避免了引入噪声
""" 原始数据示例: user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 null | item_002 | cart | 2023-10-01 10:05 user_002 | null | buy | 2023-10-01 10:10 user_003 | item_003 | null | 2023-10-01 10:15 user_004 | item_004 | click | null 清洗后数据: user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 """

异常用户/商品ID过滤

  • 统一ID格式便于数据管理和特征工程
  • 异常ID可能是测试数据或错误数据,会影响模型效果
  • 正则表达式匹配确保数据规范性
""" 原始数据: user_id | item_id | behavior_type -------------|-------------|--------------- user_001 | item_001 | click unknown_user | item_002 | cart user_002 | invalid_id | buy test_user | test_item | collect 清洗后数据: user_id | item_id | behavior_type ---------|----------|--------------- user_001 | item_001 | click """

低频用户/商品过滤

  • 低频用户行为稀疏,难以学习有效特征
  • 低频商品样本不足,难以准确建模
  • 过滤后提高数据质量,减少噪声干扰
  • 阈值根据业务经验设置(用户≥3次,商品≥5次)
""" 原始数据(用户行为统计): user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 user_003 | 2 # 低频用户 user_004 | 1 # 低频用户 清洗后保留: user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 """

商品数据异常价格处理

  • 负价格是数据错误,需要修正
  • 0价格可能是免费商品或数据缺失,需要特殊处理
  • 极端高价可能是错误数据,需要截断
  • 价格范围(0.01, 10000)根据实际业务场景设置
""" 原始数据: item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | -10.0 | Clothing # 异常价格 item_003 | 0.0 | Books # 异常价格 item_004 | 999999 | Home # 异常价格 清洗后数据: item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | 10.0 | Clothing # 修正为有效范围 item_003 | 0.01 | Books # 设置最小有效价格 item_004 | 10000 | Home # 截断到最大值 """

特征工程步骤

用户基础特征提取

  • 静态特征:描述用户固有属性,是用户画像基础
  • 行为统计特征:量化用户历史行为,反映用户偏好
  • 转化率特征:衡量用户从浏览到购买的能力
  • 时间特征:反映用户活跃度和新鲜度
  • 编码处理:将分类变量转换为数值,便于模型处理
""" 原始用户数据: user_id | age | gender | registration_date ---------|-----|--------|------------------ user_001 | 25 | M | 2023-01-15 user_002 | 35 | F | 2023-03-20 用户行为数据: user_id | behavior_type | timestamp ---------|---------------|---------- user_001 | click | 2023-10-01 10:00 user_001 | cart | 2023-10-01 11:00 user_001 | buy | 2023-10-01 12:00 user_002 | click | 2023-10-01 10:05 特征提取后: user_id | age | gender_encoded | registration_days | total_actions | purchase_count | conversion_rate | days_since_last_action | active_days ---------|-----|----------------|-------------------|---------------|----------------|-----------------|------------------------|------------ user_001 | 25 | 0 | 258 | 12 | 2 | 0.167 | 1 | 6 user_002 | 35 | 1 | 207 | 9 | 1 | 0.111 | 1 | 5 """

商品热度趋势特征

  • 多时间窗口统计:捕捉商品不同周期的热度变化
  • 趋势比率:反映商品热度的增长/衰减趋势
  • 时效性:近期行为比远期行为更具参考价值
  • 扛波动性:多时间窗口平滑单日波动影响
""" 原始行为数据(时间序列): item_id | timestamp | behavior_type ---------|---------------------|-------------- item_001 | 2023-10-01 10:00 | click item_001 | 2023-10-05 14:00 | buy item_001 | 2023-10-07 09:00 | cart item_001 | 2023-10-14 16:00 | click item_002 | 2023-10-01 11:00 | click item_002 | 2023-10-02 10:00 | click 特征提取后(当前时间:2023-10-15): item_id | total_actions | actions_7d | actions_30d | trend_7d_30d ---------|---------------|------------|-------------|------------- item_001 | 4 | 2 | 4 | 0.5 item_002 | 2 | 0 | 2 | 0.0 """

行为序列特征

  • 序列模式:揭示用户行为的内在规律
  • 转换概率:量化行为间的转换倾向
  • 时间模式:反映用户的行为节奏
  • 个性化表征:每个用户的序列特征都是独特的
""" 用户行为序列: 用户: user_001 时间序列: [click, click, cart, click, buy, click, cart, buy] 提取的序列特征: - sequence_length: 8 - unique_items: 5 - click_ratio: 0.5 (4/8) - cart_ratio: 0.25 (2/8) - buy_ratio: 0.25 (2/8) - transition_click_to_cart: 0.25 (从click到cart的转换概率) - transition_click_to_buy: 0.125 - avg_time_interval: 平均行为间隔时间 """

图特征提取

  • 结构信息:捕捉用户和商品在图中的位置重要性
  • 协同信息:通过共同邻居发现相似用户/商品
  • 流行度传播:中心点往往更受欢迎
  • 冷启动缓解:新用户/商品可以通过图结构获得特征
""" 用户-商品交互图: 用户节点: [user_001, user_002, user_003] 商品节点: [item_001, item_002, item_003, item_004] 边: (user_001, item_001), (user_001, item_002), (user_002, item_001), ... 提取的图特征: 用户图特征: user_id | graph_degree | weighted_degree | avg_jaccard_similarity ---------|--------------|-----------------|------------------------ user_001 | 2 | 7 | 0.15 user_002 | 1 | 5 | 0.10 商品图特征: item_id | graph_degree | weighted_degree | avg_user_degree ---------|--------------|-----------------|---------------- item_001 | 2 | 12 | 1.5 item_002 | 1 | 5 | 2.0 """

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Emacs 折腾日记(三十五)——归档

在前几篇文章中,我们经历了 GTD 流程中的收集想法、制定计划、以及执行和记录计划的过程,现在我们继续后续的流程,也就是最后的回顾和归档。 当日回顾 在我个人实践 GTD 的流程中,前一晚会做这些事情:回顾一下今天…

2026 年 1 月投饵船厂家推荐排行榜,无人投饵船,自动投饵船,遥控投饵船,智能投料船,水产养殖自动化精准投喂解决方案精选

2026年1月投饵船厂家推荐排行榜:水产养殖自动化精准投喂解决方案精选 随着全球水产养殖业向集约化、智能化方向加速转型,传统依赖人工作业的投喂模式正面临效率瓶颈、成本高企与精准度不足等多重挑战。在此背景下,以…

2026 年 1 月液相色谱厂家推荐排行榜,色谱柱/液相色谱仪/二维液相色谱/UPLC/制备液相色谱,精准分离分析技术源头实力解析

2026 年 1 月液相色谱厂家推荐排行榜:色谱柱/液相色谱仪/二维液相色谱/UPLC/制备液相色谱,精准分离分析技术源头实力解析 在生命科学、药物研发、食品安全、环境监测等众多前沿与基础研究领域,液相色谱技术作为不可…

xFUZZ: A Flexible Framework for Fine-Grained, Runtime-Adaptive Fuzzing Strategy Composition

概要:现有灰盒模糊测试工具要么策略固定、要么只能整工具切换,无法随目标程序和测试阶段 的变化而细粒度、运行时地调整策略;我们提出 xFUZZ,首次把输入调度、变异调度等核 心组件全部做成可热插拔的插件,并用滑动…

2026 年 1 月古建瓦厂家推荐排行榜,中式古建瓦,园林古建瓦,仿古瓦定制,古建瓦供应,匠心传承与建筑美学融合之选

2026年1月古建瓦厂家推荐排行榜:中式古建瓦、园林古建瓦、仿古瓦定制与供应的匠心之选 在当代建筑文化复兴与文旅产业蓬勃发展的浪潮下,古建瓦作为承载中式建筑灵魂的重要构件,其市场需求持续升温。无论是历史古迹的…

【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR

note 论文证明了 DeepSeek-OCR 的强性能很大程度上来自语言模型的“语言先验”,而非真正的深度视觉理解,并指出这种依赖使得它在语义扰动或超长上下文下表现脆弱。 文章目录note一、Visual Merit or Linguistic Crutch?二、实验RQ1:句子级语…

Go进阶之反射

Go语言是静态类型语言.比如int float32 []byte32等等.每个变量都有一个静态类型.并且在编译的时候就已经确定了.type Myint int var i int var j Myint变量i和j不是相同类型.因为二者拥有不同的静态类型.尽管二者底层的类型都是int.但在没有类型转换的情况下是不可以相互赋值的…

2026 年 1 月仿古瓦厂家推荐排行榜,中式仿古瓦,小青瓦仿古瓦,定制仿古瓦,古建屋面瓦公司推荐,甄选匠心工艺与耐久品质!

2026年1月仿古瓦厂家推荐排行榜:甄选匠心工艺与耐久品质 随着文化自信的回归与文旅产业的蓬勃发展,中式仿古建筑及传统风貌街区建设迎来了新一轮热潮。作为承载建筑神韵与历史文脉的关键元素,仿古瓦,尤其是中式仿古…

.bat脚本新建文件夹【项目结构】

一、源码 当有原来的同名文件时保留原来的文件夹【仅限文件夹同名保留】 NewFile.bat echo off chcp 65001 > nul 2>&1 setlocal enabledelayedexpansion:: 获取脚本所在的文件夹路径 set "script_dir%~dp0" echo echo 目标创建路径:%script_…

2026 年 1 月工业醇类及溶剂厂家推荐榜单:乙醇/无水乙醇/二丙酮醇/异丙醇/乙二醇/正丁醇/工业酒精/甲醇/醇酸漆稀释剂/丙二醇甲醚等源头实力厂家精选

2026 年 1 月工业醇类及溶剂厂家推荐榜单:乙醇/无水乙醇/二丙酮醇/异丙醇/乙二醇/正丁醇/工业酒精/甲醇/醇酸漆稀释剂/丙二醇甲醚等源头实力厂家精选 在精细化工与制造业的庞大体系中,工业醇类及溶剂扮演着不可或缺的…

2025年教我学英语 - 穿、衣

2025年教我学英语 - 穿、衣1、穿、戴 - wear [weə(r)] 穿、着 - put on [ˈpʊt ɒn] 穿、戴(状态)-dress [dres] 穿、套 - wear in [ˈweə(r) ɪn] 试穿 - try on [ˈtraɪ ɒn]2、衣服 - clothes [kləʊz] 外套…

探索Matlab水下图像处理与GUI界面构建之旅

数字图像处理matlab水下图像处理,gui 界面运用,有讲解报告 在数字图像处理的广袤领域中,水下图像处理因其独特的挑战而备受关注。Matlab作为一款强大的工具,为我们解决水下图像处理难题提供了丰富的资源和便捷的途径。同时&#…

快过年了 , 我就简简单单写一个总结吧 ! | 马年快乐 !

1. 项目正式上线了 书接上回 , 经过一个月的不懈努力 , 我和另一个哥们终于把这个项目 (帮学校做校园宿舍报修系统小程序) 拿下了. 但是这边宿管长这边又出了点状况: 因为这个项目是为学校做公益,没有问宿管长要一分钱. 但是服务器的钱肯定是要宿管长联系学校那边给报销一下…

FPGA FFT缩放因子配置全解析

目录 前言 1.快速傅里叶变换(FFT) 1.1 FFT的来源 1.2 FFT IP 缩放因子设置实例 缩放配置的底层含义:16haaaa 每一级的计算与“减肥”过程 输入准备:24 位原始数据 Stage 1:第一次蝶形运算 Stage 2&#x…

线程并行控制CompletableFuture

并行执行两个任务A和B。主线程等待时间最长为3s。所以A和B,单独运行的时长最长也是3s。 且如果A和B都没有超时,那么优先取A的值。否者谁不超时,就取谁。 线程池单个提交 比如下面的代码,先提交了两个异步任务,此时都…

2026 年 1 月酯类溶剂厂家推荐排行榜,正丙酯/乙酯/丁酯/醋酸丁酯/乙酸乙酯/丙二醇甲醚醋酸酯/工业碳酸二甲酯/精甲酯,高纯度环保溶剂实力供应商精选

2026 年 1 月酯类溶剂厂家推荐排行榜:高纯度环保溶剂实力供应商精选 在精细化工、涂料油墨、电子清洗、医药合成等众多现代工业领域,酯类溶剂扮演着不可或缺的角色。正丙酯、乙酸乙酯、醋酸丁酯、丙二醇甲醚醋酸酯(…

SB-Flink入门 202601125

SB-Flink入门 202601125