数据科学家发展前景_如何成为数据科学家

博客小编 (54) 2024-08-07 07:01:01

前面有文章数据分析之探索性数据分析，里面详细阐述了何为EDA，以及一些常用的分析方法，感兴趣的小伙伴们可以参考下。

本文分析数据科学家更换工作情况数据集，运用常见EDA方法分析每个特征情况及他们与目标变量之间的关系。使用seaborn进行数据可视化辅助分析数据科学家们更换工作都有哪些特征。

因篇幅过长，将分为上下两篇展开此次探索性数据分析案例精讲。

导包

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False

数据导入与查看

path_train = '../input/hr-analytics-job-change-of-data-scientists/aug_train.csv' path_test = '../input/hr-analytics-job-change-of-data-scientists/aug_test.csv' path_submission = '../input/hr-analytics-job-change-of-data-scientists/sample_submission.csv'

train = pd.read_csv(path_train) test = pd.read_csv(path_test)

train.head()

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第1张

test.sample(5) # 表示返回随机5行数据。

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第2张

探索性数据分析

一般性分析

train.shape

(19158, 14)

test.shape

(2129, 13)

train.dtypes

enrollee_id int64 city object city_development_index float64 gender object relevent_experience object enrolled_university object education_level object major_discipline object experience object company_size object company_type object last_new_job object training_hours int64 target float64 dtype: object

test.info()

<class 'pandas.core.frame.DataFrame'> RangeIndex: 2129 entries, 0 to 2128 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 enrollee_id 2129 non-null int64 1 city 2129 non-null object 2 city_development_index 2129 non-null float64 3 gender 1621 non-null object 4 relevent_experience 2129 non-null object 5 enrolled_university 2098 non-null object 6 education_level 2077 non-null object 7 major_discipline 1817 non-null object 8 experience 2124 non-null object 9 company_size 1507 non-null object 10 company_type 1495 non-null object 11 last_new_job 2089 non-null object 12 training_hours 2129 non-null int64 dtypes: float64(1), int64(2), object(10) memory usage: 216.4+ KB

list(train.columns)

['enrollee_id', 'city', 'city_development_index', 'gender', 'relevent_experience', 'enrolled_university', 'education_level', 'major_discipline', 'experience', 'company_size', 'company_type', 'last_new_job', 'training_hours', 'target']

describe方法用于生成DataFramem描述统计信息。可以很方便的查看数据集的分布情况。注意，这里的统计分布包含NaN值。

count表示计数。

mean表示平均值。

std表示标准差。

min表示最小值。

25%表示四分之一分位数

50%表示二分之一分位数。

75%表示四分之三分位数。

max表示最大值。

train.describe(include='all').T

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第3张

缺失值分析

def percentage_nulls(df):     number_nulls = pd.DataFrame(df.isnull().sum(),columns=['Total'])     number_nulls['% nulls'] = round((number_nulls['Total'] / df.shape[0])*100,1)          return number_nulls

训练集的缺失值。

nulls_train = percentage_nulls(train) nulls_train

	Total	% nulls
enrollee_id	0	0.0
city	0	0.0
city_development_index	0	0.0
gender	4508	23.5
relevent_experience	0	0.0
enrolled_university	386	2.0
education_level	460	2.4
major_discipline	2813	14.7
experience	65	0.3
company_size	5938	31.0
company_type	6140	32.0
last_new_job	423	2.2
training_hours	0	0.0
target	0	0.0

# 选择缺失数量最大的5行数据。 nulls_train.nlargest(5, 'Total')

	Total	% nulls
company_type	6140	32.0
company_size	5938	31.0
gender	4508	23.5
major_discipline	2813	14.7
education_level	460	2.4

percentage_nulls(test)

	Total	% nulls
enrollee_id	0	0.0
city	0	0.0
city_development_index	0	0.0
gender	508	23.9
relevent_experience	0	0.0
enrolled_university	31	1.5
education_level	52	2.4
major_discipline	312	14.7
experience	5	0.2
company_size	622	29.2
company_type	634	29.8
last_new_job	40	1.9
training_hours	0	0.0

缺失值的可视化

import missingno as msno

msno.matrix(train)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第4张

测试集的缺失值。

msno.matrix(test)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第5张

为了后面分析方便，将缺失值用字符串'Unknown'填充。

df_train = train.fillna("Unknown") # 填充完后检查下是否处理完毕。 df_train.isnull().sum()

enrollee_id 0 city 0 city_development_index 0 gender 0 relevent_experience 0 enrolled_university 0 education_level 0 major_discipline 0 experience 0 company_size 0 company_type 0 last_new_job 0 training_hours 0 target 0 dtype: int64 缺失值分析可以参见缺失值处理，你真的会了吗？

分析每个特征

特征 'City' -- 城市

# 切片索引出'City' city_train = df_train['city'] city_train.value_counts()

city_103 4355 city_21 2702 city_16 1533 city_114 1336 city_160 845 ... city_129 3 city_111 3 city_121 3 city_140 1 city_171 1 Name: city, Length: 123, dtype: int64

city_train.value_counts().plot()

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第6张

city_test = df_test['city'] city_test.value_counts()

city_103 473 city_21 318 city_16 168 city_114 155 city_160 113 ... city_84 1 city_171 1 city_25 1 city_93 1 city_141 1 Name: city, Length: 108, dtype: int64

观察到，城市是用数字编码的，训练集用123个不同的城市，测试集用108个不同的城市。

'city_ development _index' 城市发展指数

可以查看维基百科中的名词解释 https://en.wikipedia.org/wiki/City_development_index

# 查看特征分布状况 sns.displot(data=df_train,              x='city_development_index',             height=6,             aspect = 2,                         color = 'lightblue') sns.set_context(font_scale=1)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第7张

with sns.axes_style():     g = sns.displot(data=df_test,              x='city_development_index',             height=5,             aspect = 2,              color = 'coral')     g.set_ylabels(fontsize=15)     g.set_xlabels(fontsize=15)     g.set_xticklabels(fontsize=15)     g.set_yticklabels(fontsize=15)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第8张

注意这种写法，设置x,y轴标签字体大小。

'gender'性别

性别及后面几个特征为分类型变量，因此分别统计每个变量的总数及占比。

gender_train = df_train['gender'] gender_test = df_test['gender']

后面需要多次用到缺失值统计，因此将其定义为函数。

def percent_nan(df):     number = pd.DataFrame(df.value_counts())     number.columns = ['Total']     number['%'] = round((number['Total'] / df.notnull().sum())*100,1)          return number

percent_nan(gender_train)

	Total	%
Male	13221	69.0
Unknown	4508	23.5
Female	1238	6.5
Other	191	1.0

percent_nan(gender_test)

	Total	%
Male	1460	68.6
Unknown	508	23.9
Female	137	6.4
Other	24	1.1

两个数据集的缺失值差不多，因此对两者可视化，以更加方便看出其差异。

同样，为后续分析方便，将其定义为函数。

def draw_countplot(feature,palette,order=None):     fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(10, 5))     sns.countplot(x=feature,data=df_train,palette=palette,ax=ax[0],order=order).set_title('Train')     sns.countplot(x=feature,data=df_test,palette=palette,ax=ax[1],order=order).set_title('Test')     fig.tight_layout()

draw_countplot("gender","Set1")

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第9张

'relevent_experience' 相关经验

relevent_experience_train = df_train['relevent_experience'] relevent_experience_test = df_test['relevent_experience']

percent_nan(relevent_experience_train)

	Total	%
Has relevent experience	13792	72.0
No relevent experience	5366	28.0

percent_nan(relevent_experience_test)

	Total	%
Has relevent experience	1524	71.6
No relevent experience	605	28.4

draw_countplot("relevent_experience","Set2")

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第10张

'enrolled_university' 专业课

已注册的大学课程类型(如有)。

enrolled_university_train = df_train['enrolled_university'] enrolled_university_test = df_test['enrolled_university']

percent_nan(enrolled_university_train)

	Total	%
no_enrollment	13817	72.1
Full time course	3757	19.6
Part time course	1198	6.3
Unknown	386	2.0

percent_nan(enrolled_university_test)

	Total	%
no_enrollment	1519	71.3
Full time course	435	20.4
Part time course	144	6.8
Unknown	31	1.5

order_enrolled_university = percent_nan(enrolled_university_train).index order_enrolled_university

Index(['no_enrollment', 'Full time course', 'Part time course', 'Unknown'], dtype='object')

draw_countplot('enrolled_university',"Set3",order_enrolled_university)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第11张

'education_level' 学历

education_level_train = df_train['education_level'] education_level_test = df_test['education_level']

percent_nan(education_level_train)

	Total	%
Graduate	11598	60.5
Masters	4361	22.8
High School	2017	10.5
Unknown	460	2.4
Phd	414	2.2
Primary School	308	1.6

percent_nan(education_level_test)

	Total	%
Graduate	1269	59.6
Masters	496	23.3
High School	222	10.4
Phd	54	2.5
Unknown	52	2.4
Primary School	36	1.7

order_education_level = percent_nan(education_level_train).index

draw_countplot('education_level',"Set1",order_education_level)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第12张

'major_discipline' 专业学科

major_discipline_train = df_train['major_discipline'] major_discipline_test = df_test['major_discipline']

percent_nan(major_discipline_train)

	Total	%
STEM	14492	75.6
Unknown	2813	14.7
Humanities	669	3.5
Other	381	2.0
Business Degree	327	1.7
Arts	253	1.3
No Major	223	1.2

percent_nan(major_discipline_test)

	Total	%
STEM	1621	76.1
Unknown	312	14.7
Humanities	80	3.8
Other	40	1.9
Business Degree	37	1.7
No Major	22	1.0
Arts	17	0.8

order_major_discipline = percent_nan(major_discipline_train).index

draw_countplot('major_discipline',"Set2",order_major_discipline)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第13张

'experience' 工作年限

experience_train = df_train['experience'] experience_test = df_test['experience']

percent_nan(experience_train)

	Total	%
>20	3286	17.2
5	1430	7.5
4	1403	7.3
3	1354	7.1
6	1216	6.3
2	1127	5.9
7	1028	5.4
10	985	5.1
9	980	5.1
8	802	4.2
15	686	3.6
11	664	3.5
14	586	3.1
1	549	2.9
<1	522	2.7
16	508	2.7
12	494	2.6
13	399	2.1
17	342	1.8
19	304	1.6
18	280	1.5
20	148	0.8
Unknown	65	0.3

percent_nan(experience_test)

	Total	%
>20	383	18.0
5	163	7.7
3	154	7.2
4	145	6.8
6	130	6.1
2	128	6.0
7	116	5.4
9	113	5.3
10	96	4.5
11	86	4.0
8	82	3.9
<1	74	3.5
16	68	3.2
15	59	2.8
1	56	2.6
14	55	2.6
13	54	2.5
12	52	2.4
17	36	1.7
19	29	1.4
18	26	1.2
20	19	0.9
Unknown	5	0.2

order_experience = percent_nan(experience_train).index

draw_countplot('experience',"Set3",order_experience)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第14张

'company_size'公司规模

company_size_train = df_train['company_size'] company_size_test = df_test['company_size']

percent_nan(company_size_train)

	Total	%
Unknown	5938	31.0
50-99	3083	16.1
100-500	2571	13.4
10000+	2019	10.5
10/49	1471	7.7
1000-4999	1328	6.9
<10	1308	6.8
500-999	877	4.6
5000-9999	563	2.9

percent_nan(company_size_test)

	Total	%
Unknown	622	29.2
50-99	338	15.9
100-500	318	14.9
10000+	217	10.2
10/49	172	8.1
<10	163	7.7
1000-4999	143	6.7
500-999	88	4.1
5000-9999	68	3.2

order_company_size = percent_nan(company_size_train).index

draw_countplot('company_size',"Set1",order_company_size)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第15张

'company_type'公司类型

company_type_train = df_train['company_type'] company_type_test = df_test['company_type']

percent_nan(company_type_train)

	Total	%
Pvt Ltd	9817	51.2
Unknown	6140	32.0
Funded Startup	1001	5.2
Public Sector	955	5.0
Early Stage Startup	603	3.1
NGO	521	2.7
Other	121	0.6

percent_nan(company_type_test)

	Total	%
Pvt Ltd	1141	53.6
Unknown	634	29.8
Public Sector	127	6.0
Funded Startup	97	4.6
Early Stage Startup	65	3.1
NGO	53	2.5
Other	12	0.6

order_company_type = percent_nan(company_type_train).index

draw_countplot('company_type',"Set2",order_company_type)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第16张

'lastnewjob' 以前的工作与现在的工作的年差

last_new_job_train = df_train['last_new_job'] last_new_job_test = df_test['last_new_job']

percent_nan(last_new_job_train)

	Total	%
1	8040	42.0
>4	3290	17.2
2	2900	15.1
never	2452	12.8
4	1029	5.4
3	1024	5.3
Unknown	423	2.2

percent_nan(last_new_job_test)

	Total	%
1	884	41.5
>4	353	16.6
2	342	16.1
never	258	12.1
3	133	6.2
4	119	5.6
Unknown	40	1.9

order_last_new_job = percent_nan(last_new_job_train).index

draw_countplot('last_new_job',"Set3",order_last_new_job)

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第17张

'training_hours'已完成的培训时长

sns.displot(data=df_train,              x='training_hours',             height=5,             aspect=1.5,             color = 'lightblue')

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第18张

sns.displot(data=df_test,              x='training_hours',             height=5,             aspect=1.5,             color = 'coral')

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第19张

'Target'

0 - Not looking for job change
1 - Looking for a job change

target = df_train['target'] percent_nan(target)

	Total	%
0.0	14381	75.1
1.0	4777	24.9

sns.countplot(x='target',               data=df_train,               palette="Set1").set_title('Train')

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第20张

本文数据使用 kaggle数据集，关注公众号，并回复【 hr 】获取数据。

推荐阅读

Python数据分析之探索性数据分析(EDA)

缺失值处理，你真的会了吗？

-- 数据STUDIO --

数据科学家发展前景_如何成为数据科学家 (https://mushiming.com/) 第21张

THE END

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

发表回复

请先登录账户再评论哦

数据科学家发展前景_如何成为数据科学家

导包

数据导入与查看

探索性数据分析

一般性分析

缺失值分析

缺失值的可视化

分析每个特征

特征 'City' -- 城市

'city_ development _index' 城市发展指数

'gender'性别

'relevent_experience' 相关经验

'enrolled_university' 专业课

'education_level' 学历

'major_discipline' 专业学科

'experience' 工作年限

'company_size'公司规模

'company_type'公司类型

'lastnewjob' 以前的工作与现在的工作的年差

'training_hours'已完成的培训时长

'Target'

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推荐文章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

数据科学家发展前景_如何成为数据科学家

导包

数据导入与查看

探索性数据分析

一般性分析

缺失值分析

缺失值的可视化

分析每个特征

特征 'City' -- 城市

'city_ development _index' 城市发展指数

'gender'性别

'relevent_experience' 相关经验

'enrolled_university' 专业课

'education_level' 学历

'major_discipline' 专业学科

'experience' 工作年限

'company_size'公司规模

'company_type'公司类型

'lastnewjob' 以前的工作与现在的工作的年差

'training_hours'已完成的培训时长

'Target'

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推 荐 文 章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

推荐文章