kaggle上经典泰坦尼克项目数据分析探索

        之前了解在kaggle上这个项目很火,最近想要加强一下python数据分析,所以在kaggle上找到这个项目进行学习探索,下面是将一些学习资料以及过程整理出来。

一、首先我们了解一下项目背景以及如何找到这个项目。

kaggle项目地址:

https://www.kaggle.com/code/alexisbcook/titanic-tutorial?scriptVersionId=99170538&cellId=5

进入页面后会有背景介绍以及项目

我们先大概了解一下项目背景以及流程,找到项目所需要的数据源。

二、准备就绪,下面进入项目一起学习探索

import pandas as pdtrain_data = pd.read_csv(r'E:/train.csv')
test_data = pd.read_csv(r'E:/test.csv')
train_data.head(10)# 数据集概述
# 泰坦尼克号数据集是机器学习入门中一个非常著名的数据集,包含了乘客的个人信息以及他们的生死状态。数据集主要包含以下字段:# PassengerI:乘客编号
# Survive:生存状态(0代表未存活,1代表存活)
# Pclas:舱位等级
# Nam:乘客姓名
# Se:性别
# Ag:年龄
# SibS:同舱兄弟姐妹或配偶的数量
# Parc:同行父母或子女的数量
# Ticke:票号
# Far:票价
# Cabi:舱位
# Embarke:登船港口

查看导入train数据结果:

查看导入的test数据结果:

test_data.head(10)

查看数据基本信息

# 查看数据基本信息
train_data.info()

test_data.info()

查看数据空值情况

# 检查各个字段的空值情况
train_data.isnull().sum()

说明:从结果看到Age、Cabin和Embarked明显有空值

test_data.isnull().sum()

查看一下数据描述

train_data.describe()

test_data.describe()

 

# 计算女性获救的概率
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)print("% of women who survived:", rate_women)

 

# 计算男性获救的概率
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)print("% of men who survived:", rate_men)

 

# 学习第一个机器学习模型随机森林来预测乘客的获救可能
from sklearn.ensemble import RandomForestClassifiery = train_data["Survived"]# 指定相关的特性列
features = ["Pclass", "Sex", "SibSp", "Parch"]
# 将features转换为哑变量
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print(output.head(10))
print("Your submission was successfully saved!")

 

# 上面部分是根据实例kaggle上面的例子,下面我们再对数据做一些探索
# 需求:引入seaborn来研究已知存活的数据中存活比例
# 结论:在891名乘客中,其中存活的比例为36.38%,溺水的比例为61.62%
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
sns.set_style('ticks')
train_data['Survived'].value_counts().plot.pie(labels = ['downed','survived'],
explode=(0,0.05),shadow = True,autopct = '%.2f%%',fontsize=15)
plt.show()

 

#年龄分布情况
# 需求:
# 1、年龄的分布情况
# 2、男性和女性的存活情况
# 3、大人和小孩的存活情况# 结论
# 年龄分布呈现右偏,大部分数据集中在20岁到40岁之间,最小年龄是0.42,最大年龄是80fig,ax = plt.subplots(1,2,figsize=(15,7))
age = train_data[train_data['Age'].notnull()]
age['Age'].hist(bins=50,histtype='bar',edgecolor='k',ax=ax[0])age['Age'].plot.box(showfliers=False, color = {'boxes':'DarkGreen', 'whiskers':'DarkOrange', 'medians':'DarkBlue', 'caps':'Gray'},grid=True,ax=ax[1])
pd.DataFrame(age['Age'].describe()).transpose()

 

# 需求:按照存活状态分布的年龄情况
# 结论:幸存者的年龄整体比溺水的年龄小,幸存者数据有一个明显的异常值,80岁的幸存者,需要检查一下。import numpy as npplt.figure(figsize=(15, 3))
#显示汉字
plt.rcParams['font.sans-serif'] = ['SimHei']sns.boxplot(y = 'Survived', x = 'Age', data = train_data,palette=["#3f3e6fd1", "#85c6a9"], fliersize = 0, orient = 'h')
#orient:"v"|"h" 用于控制图像使水平还是竖直显示
#fliersize:异常值大小sns.stripplot(y = 'Survived', x = 'Age', data = train_data,linewidth = 0.6, palette=["#3f3e6fd1", "#85c6a9"], orient = 'h')plt.yticks( np.arange(2), ['drowned', 'survived'],fontsize= 15)
plt.title('乘客的年龄分布情况',fontsize= 15)
plt.ylabel('存活状态')
plt.tight_layout()pd.DataFrame(train_data.groupby('Survived').Age.describe())

 

# 需求:由于有一个异常数据,这里简单修正数据
# 结论:异常值的影响不大,结论仍然是年龄偏小的获救概率较大
train_data.loc[train_data['Age']==80,'Age'] = 48
train_data[train_data['Name']=='Barkworth, Mr. Algernon Henry Wilson']pd.DataFrame(train_data.groupby('Survived').Age.describe())

 

 

#男性和女性存活情况
s_sex = train_data[train_data['Survived']==1][['Sex','Survived']].groupby('Sex').count()s_sex.plot.bar(rot=0)print(
'女性存活率为%0.2f%%,男性存活率为%0.2f%%'
%(s_sex.loc['female']/s_sex.sum()*100,s_sex.loc['male']/s_sex.sum()*100))

 

# 按照不同船舱等级划分: 船舱等级越高,存活者年龄越大,船舱等级1存活年龄集中在20-40岁,船舱等级2/3中有较多低龄乘客存活
# 按照性别划分 : 男性女性存活者年龄主要分布在20-40岁,且均有较多低龄乘客,其中女性存活更多
# 按照不同船舱等级看存活的男女比例: 1、3等舱存活的男性大部分为20到50,2等舱幸存男性年龄偏低
# 年龄与存活的关系
age = train_data[train_data['Age'].notnull()]
s_age = age[age['Survived']==1]fig,ax = plt.subplots(1,3,figsize=(15,5))sns.violinplot(x='Pclass',y='Age',hue='Survived',data = age,split=True,ax=ax[0],grid=True)
ax[0].set_yticks(range(0,110,10))sns.violinplot('Sex','Age',hue='Survived',data=age,split=True,ax=ax[1])
ax[1].set_yticks(range(0,110,10))sns.violinplot('Pclass','Age',hue='Sex',data=s_age,split=True,ax=ax[2])
ax[2].set_yticks(range(0,110,10))plt.tight_layout()

 

age = train_data[train_data['Age'].notnull()]
age['age_int']=age['Age'].astype(int)
a = age[['Survived','age_int']].groupby('age_int',as_index=False).mean()
#计算均值相当于计算存活率plt.figure(figsize=(15,4))
sns.barplot(x ='age_int',y='Survived',data=a, palette = 'BrBG')

 

# 结合 SibSp、Parch字段,研究亲人多少与存活的关系
# 要求:
# 1、有无兄弟姐妹/父母子女和存活与否的关系
# 2、亲戚多少与存活与否的关系#计算家庭大小
train_data['family_size']=train_data['SibSp']+train_data['Parch']+1
train_data['family_size'].value_counts()

 

# 家庭大小与存活的关系
# 有两个大小分别为8和11的大家族,其训练数据集中的所有成员均被淹死。
# 大多数乘客独自旅行,生存率不是很高。
# 在船上有4位家庭成员的人群中,幸存的乘客比例最大。fig = plt.figure(figsize=(12,5))ax1 = fig.add_subplot(121)ax = sns.countplot(train_data['family_size'])
labels = (train_data['family_size'].value_counts())
for i, v in enumerate(labels):ax.text(i, v+6, str(v), horizontalalignment = 'center', size = 10, color = 'black')
plt.ylabel('乘客数')  
plt.title('按照家庭数量分布的乘客情况')ax2 = fig.add_subplot(122)a = train_data.groupby('family_size')['Survived'].value_counts(normalize=True).unstack()
a.plot(kind='bar',stacked='True',color=["#3f3e6fd1", "#85c6a9"],rot=0,ax =ax2)
plt.legend(( 'Drowned', 'Survived'), loc=(1.04,0))
plt.title('按照家庭数量分布的存活情况')
plt.tight_layout()

 

# 结合票的费用情况,研究票价和存活与否的关系
# 要求:
# 1、 票价分布和存活与否的关系
# 2、比较研究生还者和未生还者的票价情况# 票价分布和存活与否的关系
# 结论:生还者的平均票价要大于未生还者的平均票价fig, ax=plt.subplots(1,2,figsize=(15,4))
train_data['Fare'].hist(bins=70, ax = ax[0])
train_data.boxplot(column='Fare', by='Pclass', showfliers=False,ax = ax[1])
# 查看票价分布情况fare_not_survived = train_data['Fare'][train_data['Survived'] == 0]
fare_survived = train_data['Fare'][train_data['Survived'] == 1]
# 基于票价,筛选出生存与否的数据
average_fare = pd.DataFrame([fare_not_survived.mean(),fare_survived.mean()])
std_fare = pd.DataFrame([fare_not_survived.std(),fare_survived.std()])
average_fare.plot(yerr=std_fare,kind='bar',legend=False,figsize = (15,4),grid = True)
# 查看票价与是否生还的关系
plt.tight_layout()

 

# 结合出发地的情况,研究出发地点与存活的关系
#大多数乘客登上南安普敦。 南安普敦的溺水乘客比例最大。
#从瑟堡出发的乘客,其中50%以上存活(在训练数据集中)。
#皇后镇出发的乘客中,绝大多数是三等舱乘客。fig = plt.figure(figsize = (15,4))ax1 = fig.add_subplot(131)
palette = sns.cubehelix_palette(5, start = 2)
ax = sns.countplot(train_data['Embarked'], palette = palette, order = ['C', 'Q', 'S'], ax = ax1)
plt.title('不同港口出发的乘客分布情况')
plt.ylabel('乘客数')labels = (train_data['Embarked'].value_counts())
labels = labels.sort_index()for i, v in enumerate(labels):ax.text(i, v+10, str(v), horizontalalignment = 'center', size = 10, color = 'black')ax2 = fig.add_subplot(132)
surv_by_emb = train_data.groupby('Embarked')['Survived'].value_counts(normalize = True)
surv_by_emb = surv_by_emb.unstack().sort_index()
surv_by_emb.plot(kind='bar', stacked='True', color=["#3f3e6fd1", "#85c6a9"], ax = ax2)
plt.title('不同港口出发的乘客存活情况')
plt.legend(( 'Drowned', 'Survived'), loc=(1.04,0))
_ = plt.xticks(rotation=False)ax3 = fig.add_subplot(133)
class_by_emb = train_data.groupby('Embarked')['Pclass'].value_counts(normalize = True)
class_by_emb = class_by_emb.unstack().sort_index()
class_by_emb.plot(kind='bar', stacked='True', color = ['#eed4d0', '#cda0aa', '#a2708e'], ax = ax3)
plt.legend(('1st class', '2nd class', '3rd class'), loc=(1.04,0))
plt.title('不同港口出发的乘客的船舱等级分布')
_ = plt.xticks(rotation=False)plt.tight_layout()

 

总结:

我们知道泰坦尼克号上没有足够的船只可供所有乘客撤离。 在研究了有关乘客的信息之后,我们可以对谁在沉船事故中有更好的生存机会以及对乘客的
一般观察做出一些假设。

1、数据集中有891名乘客,其中有549名(61.6%)被淹,只有342名(38.4%)幸存。 但是我们知道,救生艇(16艘木质救生艇和4辆可折叠救生艇)
可以载运总乘客的53%。


2、所有乘客的年龄从0.17年到80岁不等,平均为29.88岁。 幸存乘客的平均年龄为28.23,比溺水乘客的平均年龄(仅我们知道幸存者的年龄)小2.39。
看起来年轻人有更大的生存机会。


3、船上的家庭人数似乎也对生存机会有影响:有两个大家庭,分别为8和11,他们来自训练数据集的所有成员都被淹死了。 我们可以观察到,拥有2人,
3人,4人家庭的幸存者所占百分比大于单身人士,然后,随着家庭规模的增加,幸存者所占的百分比会降低。


4、泰坦尼克号的大部分乘客都是三等舱。 就乘客人数而言,第二类是最小的。 尽管有先前确定的先决条件(平均而言,老年人死亡的可能性更高,
并且头等舱的平均年龄比其他舱位更高。而且,由100%头等舱组成的A层乘客的 溺水乘客的比例很高),头等舱的幸存者人数最多,而舱内幸存者的
比例最大。


5、三等舱机票的溺水乘客人数最多。但是,大多数头等舱的男性乘客被淹死,而女性几乎全部幸存下来。 三等舱,一半的女性得以幸存。


6、船上的男性总体上比女性多,这对每个舱位来说都是公平的,但是在三等舱中,男性的数量是女性的两倍多。


7、几乎有600名男性旅客没有家庭成员,只有200名女性,但是在普通家庭和大家庭中,女性旅客略多。


8、大多数乘客(914)登上南安普敦。 此外,南安普敦的溺水乘客比例最大。 270名乘客登上瑟堡,其中50%以上幸存下来(在培训数据集中)。 
皇后镇(Queenstown)出发的旅客有123人,其中绝大多数是三等舱旅客。


9、泰坦尼克号幸存者分析是机器学习的入门案例,我做了一点资料的查询发现有一些是数据无法体现的,不得不说单从数据的角度还原当时情况
实在有很多不妥的地方,原因有以下几点:


(1)三等舱乘客中相当一部分是不懂英语的,看不懂路标指示,听不懂船员的指令。这一因素与社会地位无关。

(2)爱德华·约翰·史密斯船长在最后时刻下令“妇孺优先”,但是大副、二副对该命令的执行是不一致的,右舷大副默多克认为如果甲板上没有
女士儿童了,只要还有空位,男性乘客也可以登艇。所以从右舷放下的九艘救生艇上都有男性乘客,救生艇的乘坐率也比较高,其中有三艘满员。
而在左舷的二副莱托勒则把“女士和儿童优先”理解为“全船的女士和儿童都应当先于男性乘客登艇”。所以,左舷的救生艇其实是
“仅限女士和儿童”。从左舷放下的九艘救生艇中,只有三艘乘坐率略超过六成。

(3)考察头等舱幸存男性,他们主要集中右舷最早放下的三艘救生艇中,第一艘救生艇,一半座位是空的,一半乘客是男性,主要原因是一开始多数人
都没有认识到被认为“永不沉没”的铁达尼所面临的的危险。第二艘、第三艘救生艇男性乘客也占了近三分之一。还有一个原因是,右舷的救生艇位置
距离头等舱近。

(4)有少部分人主动放弃等艇机会,这样行为无疑闪烁着人性光辉。

所以单从数据的角度得出的结论显然不足以说明当时的情况。电影《萨利机长》中,计算机的模拟还原的情况是飞机完全可以不必迫降在河面,
也是数字还原结果与现实的不符。所以只知道分析数据的分析师不是好的分析师,结合对业务的理解才是关键,数据是辅助。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898725.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《深度剖析:鸿蒙系统不同终端设备的UI自适应布局策略》

在万物互联的时代,鸿蒙系统以其独特的分布式理念和强大的技术架构,迅速在智能终端领域崭露头角。随着鸿蒙生态的不断壮大,越来越多的开发者投身其中,致力于为用户打造丰富多样的应用体验。然而,如何让应用在不同终端设…

计算机网络的软件、硬件和组成

1.计算机网络的组成 计算机网络是一个十分复杂的系统,在逻辑上可以分为完成数据通信的通信子网和进行数据处理的资源子网两个部分。 通信子网 通信子网提供网络通信的功能,可以完成网络主机之间的数据传输、交换、通信控制和信号变换等通信…

告别低效人工统计!自动计算计划进度

实时监控任务进度一直是项目管理中的一项巨大挑战。 人工统计方式不仅耗时耗力,而且往往由于信息传递的延迟和人为误差,导致无法实时获得准确的项目进展信息。 这种不准确性可能掩盖潜在的风险点,从而影响项目的整体进度和成果。 Ganttable …

楼宇自控系统的结构密码:总线与分布式结构方式的差异与应用

在现代建筑中,为了实现高效、智能的管理,楼宇自控系统变得越来越重要。它就像建筑的 智能管家,可自动控制照明、空调、通风等各种机电设备,让建筑运行更顺畅,还能节省能源成本。而在楼宇自控系统里,有两种关…

OpenWrt开发第4篇:设置开发板的IP-基于Raspberry Pi 4B开发板

文/指尖动听知识库-谷谷 文章为付费内容,商业行为,禁止私自转载及抄袭,违者必究!!! 文章专栏:Openwrt开发-基于Raspberry Pi 4B开发板 有时候开发过程中经常会使用其他路由器,很多时候固件烧上去之后板子IP基本都是192.168.1.1,这时就需要修改板子的IP,下面介绍一下板…

Node.js系列(4)--微服务架构实践

Node.js微服务架构实践 🔄 引言 微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现,包括服务拆分、服务治理、通信机制等方面,帮助开发者构建可扩展的微服务系统。 微服务架构概述 Node.js…

Docker逃逸

判断是否再docker中 1.ls -a / (查看c根目录查看是否有docker配置文件) 2.查看进程 如果在要逃逸到真实环境中: 特权模式进行docker逃逸:管理员执行eddocker run--privileg,如何判断是否是特权模式() 特权模式以…

Vite管理的Vue3项目中monaco editer的使用以及组件封装

文章目录 背景环境说明安装流程以及组件封装引入依赖封装组件 外部使用实现效果 v-model实现原理 背景 做oj系统的时候,需要使用代码编辑器,决定使用Monaco Editor,但是因为自身能力问题,读不懂官网文档,最终结合ai和网友的帖子成功引入&…

pdf文件分页按需查看

pdf预览本来打算粗暴点,一次性查看全部,但是一个pdf四五百页导致手机端查看超出内存直接崩掉,崩掉会导致页面疯狂刷新,所以不得不进行优化 解决思路大致如下: canvas转为blob格式以图片的形式加载在页面(B…

算力100问☞第92问:为什么各地热衷建设算力中心?

目录 1、宏观分析 2、政府角度分析 3、投资者角度分析 在数字化浪潮中,各地对算力中心建设的热情高涨,这一现象背后潜藏着诸多深层次的原因,涵盖了经济、科技、社会等多个维度,且彼此交织,共同驱动着这一发展趋势。 1、宏观分析 从经济结构转型的底层逻辑来看,全球经…

Redis 内存管理

Redis 内存管理 1. Redis 给缓存数据设置过期时间的作用 给缓存数据设置过期时间(TTL, Time-To-Live)有以下几个重要作用: (1) 自动释放内存 避免缓存数据无限增长,导致 Redis 内存溢出。例如,在 会话管理、短连接…

PyCharm中使用pip安装PyTorch(从0开始仅需两步)

无需 anaconda,只使用 pip 也可以在 PyCharm 集成环境中配置深度学习 PyTorch。 本文全部信息及示范来自 PyTorch 官网。 以防你是super小白: PyCharm 中的命令是在 Python Console 中运行,界面左下角竖排图标第一个。 1. 安装前置包 numpy …

掌握新编程语言的秘诀:利用 AI 快速上手 Python、Go、Java 和 Rust

网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…

如何理解java中Stream流?

在Java中,Stream 是 Java 8 引入的一个强大API,用于处理集合(如 List、Set、Map 等)数据的流式操作。它提供了一种声明式、函数式的编程风格,可以高效地进行过滤、映射、排序、聚合等操作。 Stream 的核心概念 流&…

【Vitis AIE】FPGA快速部署ConvNet 示例MNIST数据集

AIE-ML 上的 MNIST ConvNet 版本:Vitis 2024.2 简介 本教程在 AMD VersalTM 自适应 SoC AIE-ML 上实现了一个卷积神经网络分类器,用于识别来自 MNIST 数据库 的手写数字。目标是说明如何将一个简单的机器学习示例分区和向量化到 Versal AI 引擎。MNIS…

ubuntu桌面图标异常——主目录下的所有文件(如文档、下载等)全部显示在桌面

ubuntu桌面图标异常 问题现象问题根源系统级解决方案方法一:全局修改(推荐多用户环境)方法二:单用户修改(推荐个人环境)操作验证与调试避坑指南扩展知识参考文档问题现象 主目录文件异常显示 用户主目录(如/home/user/)下的所有文件(如文档、下载等)全部显示在桌面,…

OceanBase 4.3.3 AP 解析:应用 RoaringBitmaps 类型处理海量数据的判重和基数统计

对于大数据开发人员而言,处理海量数据的判重操作和基数统计是常见需求,而 RoaringBitmap类型及其相关函数是当前非常高效的一种解决方案,许多大数据库产品已支持RoaringBitmap类型。OceanBase 4.3.3版本,作为专为OLAP场景设计的正…

W25Qxx

概述 FLASH FLASH是一种是非易失性存储器,即掉电后不会丢失数据,这和RAM(随机存储器)不同。 FLASH比起同作用的EEPROM有价格低的优点 FLASH的擦除操作是以扇区为单位的(比起EEPROM来说操作较为不方便) 芯片…

(滑动窗口)算法训练篇11--力扣3.无重复字符的最长字串(难度中等)

目录 1.题目链接:3.无重复字符的最长字符 2.题目描述: 3.解法(滑动窗口): 1.题目链接:3.无重复字符的最长字符 2.题目描述: 给定一个字符串 s ,请你找出其中不含有重复字符的 最长 子串 的长度。 示例…

深度学习1—Python基础

深度学习1—python基础 你的第一个程序 print(hello world and hello deep learning!)基本数据结构 空值 (None):在 Python 中,None 是一个特殊的对象,用于表示空值或缺失的值。它不同于数字 0,因为 0 是一个有意义的数字&#…