网站建设的目标客户分析建做网站

news/2025/9/26 14:58:03/文章来源:
网站建设的目标客户分析,建做网站,网站建设与管理规定,禅城网站设计使用 Yelp 数据集进行用户画像#xff08;User Profiling#xff09;是一项有趣的任务#xff0c;可以理解用户的偏好、行为和特征。以下是总结的一个基本的步骤#xff0c;帮助构建用户画像 pandas 加载数据#xff1a; import pandas as pd# 加载数据 users pd.read_…使用 Yelp 数据集进行用户画像User Profiling是一项有趣的任务可以理解用户的偏好、行为和特征。以下是总结的一个基本的步骤帮助构建用户画像 pandas 加载数据 import pandas as pd# 加载数据 users pd.read_json(yelp_academic_dataset_user.json, linesTrue) reviews pd.read_json(yelp_academic_dataset_review.json, linesTrue) business pd.read_json(yelp_academic_dataset_business.json, linesTrue) yelp_academic_dataset_user.json: 包含了Yelp平台上用户的基本信息 yelp_academic_dataset_review.json包含了Yelp用户对商家的评论数据 yelp_academic_dataset_business.json包含了Yelp商家信息的数据 特征工程 用户特征 可以从用户数据和评论数据中提取以下特征 基本信息: 用户 ID、姓名、注册时间、城市等。行为特征: 评论数量平均评分最高评分和最低评分喜欢的商家类型通过评论的商家类别 # 示例计算用户特征 user_profile reviews.groupby(user_id).agg({stars: [count, mean, max, min],business_id: nunique }).reset_index()user_profile.columns [user_id, review_count, average_stars, max_stars, min_stars, unique_business_count] 商家偏好 用户喜欢的商家类型: 通过评论的商家类别统计用户的偏好。 # 示例用户偏好商家类型 user_business_types reviews.merge(business[[business_id, categories]], onbusiness_id) user_business_types[categories] user_business_types[categories].str.split(, ) user_business_types user_business_types.explode(categories)user_preference user_business_types.groupby(user_id)[categories].agg(lambda x: x.value_counts().index[0]).reset_index() user_preference.columns [user_id, preferred_category] 可视化用户画像 使用 Matplotlib 或 Seaborn 可视化用户特征 import seaborn as sns import matplotlib.pyplot as plt# 示例绘制用户评分分布 sns.histplot(user_profile[average_stars], bins5, kdeTrue) plt.title(Average Stars Distribution) plt.xlabel(Average Stars) plt.ylabel(Frequency) plt.show() 整理功能优化代码并运行 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt# 加载数据 users pd.read_json(yelp_academic_dataset_user.json, linesTrue) reviews pd.read_json(yelp_academic_dataset_review.json, linesTrue) business pd.read_json(yelp_academic_dataset_business.json, linesTrue)# 选择必要的列以减少内存使用 reviews reviews[[user_id, stars, business_id]] business business[[business_id, categories]]# 数据处理与特征工程 # 计算用户特征 user_profile reviews.groupby(user_id).agg({stars: [count, mean, max, min],business_id: nunique }).reset_index()user_profile.columns [user_id, review_count, average_stars, max_stars, min_stars, unique_business_count]# 用户偏好商家类型 user_business_types (reviews.merge(business, onbusiness_id).assign(categorieslambda x: x[categories].str.split(, )).explode(categories) )# 处理可能为空的组 def get_most_common_category(x):if x.empty:return None # 返回 None 或者一个默认值# 计算类别的最常见值counts x.value_counts()if counts.empty:return None # 如果没有值返回 Nonereturn counts.idxmax()user_preference user_business_types.groupby(user_id)[categories].agg(get_most_common_category).reset_index() user_preference.columns [user_id, preferred_category]# 可视化用户评分分布 plt.figure(figsize(10, 6)) sns.histplot(user_profile[average_stars], bins5, kdeTrue) plt.title(Average Stars Distribution) plt.xlabel(Average Stars) plt.ylabel(Frequency)# 保存图像到当前目录 plt.savefig(average_stars_distribution.png)# 显示图像可选 plt.show() 结果 进一步分析 聚类分析: 使用 K-means 或其他聚类算法根据用户特征将用户分为不同群体。根据用户画像建立推荐系统为用户推荐商家。 使用scikit-learn进行训练 import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans import joblib# 加载数据 users pd.read_json(yelp_academic_dataset_user.json, linesTrue) reviews pd.read_json(yelp_academic_dataset_review.json, linesTrue) business pd.read_json(yelp_academic_dataset_business.json, linesTrue)# 选择必要的列以减少内存使用 reviews reviews[[user_id, stars, business_id]] business business[[business_id, categories]]# 数据处理与特征工程 user_profile reviews.groupby(user_id).agg({stars: [count, mean, max, min],business_id: nunique }).reset_index()user_profile.columns [user_id, review_count, average_stars, max_stars, min_stars, unique_business_count]# 进行 K-means 聚类 features user_profile[[review_count, average_stars, max_stars, min_stars, unique_business_count]] scaler StandardScaler() scaled_features scaler.fit_transform(features)# 应用 K-means kmeans KMeans(n_clusters3, random_state42) # 选择3个集群 user_profile[cluster] kmeans.fit_predict(scaled_features)# 保存模型和标准化器 joblib.dump(kmeans, kmeans_model.pkl) joblib.dump(scaler, scaler.pkl)# 保存用户聚类结果 user_profile.to_csv(user_profile_with_clusters.csv, indexFalse) kmeans_model.pkl 作用: 保存训练后的 K-means 聚类模型。内容: 包含了聚类中心、聚类标签和模型的其他参数。通过这个文件你可以在不需要重新训练模型的情况下使用已经训练好的模型进行预测。使用场景: 当你需要对新的用户数据进行聚类或获取已经聚类的用户群体时加载这个文件即可。 scaler.pkl 作用: 保存数据标准化器StandardScaler。内容: 包含了用于标准化特征的数据均值和标准差。在训练模型时特征需要被标准化以确保不同特征的尺度一致。使用场景: 当你需要对新的用户特征进行预处理时可以加载这个文件使用相同的标准化参数以确保新数据的标准化与训练数据一致。 使用模型预测推荐代码 import pandas as pd import joblib# 加载数据 reviews pd.read_json(yelp_academic_dataset_review.json, linesTrue) business pd.read_json(yelp_academic_dataset_business.json, linesTrue)# 加载训练好的模型和标准化器 kmeans joblib.load(kmeans_model.pkl) scaler joblib.load(scaler.pkl) user_profile pd.read_csv(user_profile_with_clusters.csv)# 基于聚类推荐商家 def recommend_business(user_id):# 获取用户的聚类user_cluster user_profile[user_profile[user_id] user_id][cluster].values[0]# 找到同类用户cluster_users user_profile[user_profile[cluster] user_cluster][user_id]# 推荐该集群内其他用户高频评价的商家recommended_businesses reviews[reviews[user_id].isin(cluster_users)][business_id].value_counts().head(5)return recommended_businesses.index.tolist()# 示例为某个用户推荐商家 sample_user_id user_profile[user_id].iloc[0] recommended_businesses recommend_business(sample_user_id)print(fRecommended businesses for user {sample_user_id}: {recommended_businesses}) 返回推荐的business Recommended businesses for user ---1lKK3aKOuomHnwAkAow: [_ab50qdWOk0DdB6XOrBitw, ac1AeYqs8Z4_e2X5M3if2A, GXFMD0Z4jEVZBCsbPf4CTQ, ytynqOUb3hjKeJfRj5Tshw, oBNrLz4EDhiscSlbOl8uAw]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中职示范校建设专题网站如何建微网站

根本原因分析中的5WHY分析法是从下列哪几个层面实施的? A. 制造角度 B. 检验角度 C. 体系角度 D. 以上都是 数据分析认证考试介绍:点击进入 题目来源于CDA模拟题库 点击此处获取答案

20250916_QQ_Powershell

流量分析, 应急响应, WebShell, Powshell, XORTags:流量分析,应急响应,WebShell,Powshell,XOR 0x00. 题目 找出受攻击主机回连的IP地址和端口号 附件路径:https://pan.baidu.com/s/1GyH7kitkMYywGC9YJeQLJA?pwd=Zmxh…

完整教程:HTTP安全响应头--CSP(Content-Security-Policy)

完整教程:HTTP安全响应头--CSP(Content-Security-Policy)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…

学习:uniapp全栈微信小程序vue3后台(26) - 指南

学习:uniapp全栈微信小程序vue3后台(26) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

HTML5介绍(HTML5特性、HTML5功能) - 指南

HTML5介绍(HTML5特性、HTML5功能) - 指南2025-09-26 14:50 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: blo…

Experiment1

Experiment 1 实验任务1 1.1 #include <stdio.h> int main() {printf(" O \n");printf("<H>\n");printf("I I\n");printf(" O \n");printf("<H>\n&qu…

读书笔记:Oracle 自动索引:让数据库自己管索引?

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。本文为个人学…

海安县建设局网站先备案还是先做网站

分类目录&#xff1a;《系统学习Python》总目录 文章《系统学习Python——装饰器&#xff1a;“私有“和“公有“属性案例-[实现私有属性]》中的代码有点复杂&#xff0c;并且你最好自己跟踪运行它&#xff0c;看看它是如何工作的。然而为了帮助你理解&#xff0c;这里给出一些…

1_2025.9.26_1

题目:[https://codeforces.com/problemset/problem/2140/E1] ac代码:[https://codeforces.com/contest/2140/submission/340570458] 思路:状压dp,因m<=2,n<=20,所以将状态压缩遍历,再根据题解给的式子写即…

故障处理:Oracle RAC集群CTSS时钟同步故障案例分析与解决

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。本案例来自一…

Linux系统提权-web/普通用户-docker逃逸提权shell交互

Linux系统提权-web/普通用户-docker逃逸&提权&shell交互 docker提权分几种情况 1、权限在docker里面逃逸 提权(宿主机) 2、权限不在docker里面借助docker应用去提权(用户归属是docker组 拉镜像 提权)参考链接h…

网站开发z亿玛酷1负责网页设计与制作策划书

目录 1.加载镜像并进入容器 2.安装依赖 3.在docker外部git-clone lcm 4.将get-clone的lcm复制到容器中 5.编译库 6.将可执行文件复制到容器中 7.进入可执行文件 8.编译可执行文件 9.再开一个终端运行程序 10.将以上容器打成镜像并导出 1.加载镜像并进入容器 sudo do…

PostgreSQL技术大讲堂 - 第106讲:分区表索引优化

PostgreSQL从入门到精通系列课程,100+节PG技术讲解,让你从小白一步步成长为独当一面的PG专业人员,点击这里查看章节内容,持续更新,欢迎加入。 第106讲:重讲分区表索引优化主要内容:1、全局索引与本地分区索引的…

AI智能体:从认知到实践

人工智能时代:时代的机遇和挑战。潮起AI Agent智能体到底是什么,为什么大家都在卷AI智能体1、什么是AI Agent智能体? 规划感知,决策,行动 ===》记忆 =》》大语言模型理解智能体,人工智能的本质是仿生技术,我们…

Kinect屏幕边缘检测不灵敏的解决方案

在做体感项目时,在边缘部分的抓取动作识别非常差于是我做出了优化,不采用原本的映射关系:假设原本人物站在中间,保持位置不动,右手臂向右伸直,终点为屏幕的极限位置此时我们并不将手臂伸直的位置映射到屏幕的极限…

网站建设话术关键词wordpress 仿豆瓣标注

1、目的 使公司的图纸得到有效的控制&#xff0c;确保生产所用的图纸为最新有效版本&#xff0c;避免因图纸管理不当造成的损失。 2、定义 本制度所述的图纸包括产品总装图、装配图、零件图、工装图纸、检具图纸、包装图纸、工艺流程 3、范围 客户提供的图纸&#xff0c;技…

国内做交互网站WordPress 如何去域名授权

对于关系型数据库而言&#xff0c;针对表的检索&#xff0c;一般来说&#xff0c;建立合适的索引就可以达到很好的检索效果。&#xff08;这里不包含表设计的合理与否&#xff09;比如像状态列这样可选择性非常低的值&#xff0c;该如何检索&#xff1f; 其实这个已经不是关系…

暴力拓客游戏小程序:助力商家高效引流与裂变的智能解决方案

在数字化营销时代,流量获取与用户裂变成为商家经营的核心需求。暴力拓客游戏小程序(以热门口红游戏为核心载体)应运而生,依托微信生态,通过 “游戏 + 裂变” 模式,为运营商和实体商户提供从流量获取、用户转化到…

vue3小坑之-为什么把ref定义的数组赋值给数组对象后取值为空数组?

天呢,居然两年没有上博客园看过了,呜呜呜,日渐废柴 这次总结一个码代码的时候遇到的问题,为什么把数据赋值给数组对象的某个字段,打印出来的是个空数组? 错误写法一:// 动态获取list值,前端可以增删改查 const …

第二类斯特林数

定义 第二类斯特林数记作 \(\begin{Bmatrix}n\\ k\end{Bmatrix}\) 或者 \(S(n,k)\),其意义是将 \(n\) 个互不相同的元素划分为 \(k\) 个相同的非空集合的方案数。 朴素求解 \[\begin{Bmatrix}n\\ k\end{Bmatrix} =\be…