据说看了这篇大数据分析技术的小白，月薪会突破20K

一、首先要确定分析目的
企业对数据分析岗位的要求是什么样的。
要具备怎样的能力和素质才能顺利找到理想工作。
二、对问题进行分解（文章下面有具体的分析图）
不同的城市和地区，数据分析岗位的需求分布以及对应的薪资分布
不同经验，数据分析岗位的需求分布以及对应的薪资分布
不同学历，数据分析岗位的需求分布以及对应的薪资分布
不同企业规模，数据分析岗位的需求分布以及对应的薪资分布
探索数据分析岗位对应的工具型技能与对应的薪资水平
探索数据分析岗位对应非工具型能力的需求

三、对数据集进行定义

不感兴趣

开通SVIP免广告

四、获取需要的数据
数据来源：拉勾网
数据范围：互联网行业、数据分析岗位
数据集：全国数据分析岗位招聘信息数据集

幸运的是该数据集不存在缺失值，这是很少遇到的情况

步骤 3：数据清洗
#zoo 包的 index 函数library(zoo)#定义数据清洗函数cleaning
#删除重复值 my.data
#计算平均月薪 min_salary
max_salary
my.data$avg_salary
#清理字符串中的不需要的字符 #并将需要分析的字符变量转化为因子，并对部分因子重新编码 my.data$city
my.data$experience
my.data$experience[my.data$experience %in% c("不限","应届毕业生")]
#这里的学历：“大专”，“本科”，“硕士”都表明是要求该学历“及以上” my.data$education
my.data$education[my.data$education=="不限"]
my.data$phase
c("不需要融资","未融资","天使轮","A 轮", "B 轮","C 轮","D 轮及以上","上市公司")) my.data$campany my.data$scale
"\\1",paste(my.data$scale,my.data$scale2)), levels =c("少于 15 人","15-50 人","50-150 人", "150-500 人","500-2000 人","2000 人以上")) my.data$id
my.data
return(my.data)}#清洗数据，得到清洗后的数据CN.clean str(CN.clean)

步骤 4：文本挖掘
文本挖掘工具：jiebaR 包
说明：
在进行正式挖掘之前测试了一下 jiebaR 的关键词（keywords）分词器，测试的结果发现 SQL,Python 等词在 jiebaR 词典中的 IDF 值均为 11.7392，但“R”这个字符无论如何(即使自定义了用户字典，或者在 idf 字典中添加 R 的 idf 值)都无法被分词器识别为关键词，猜测可能是默认 R 的词性标注或者算法实现方法的原因。但因为 R 是数据分析师的重要工具，识别不出来是不可容忍的，因此要另求出路。
测试代码如下：
> library(jiebaR)
> library(jiebaRD)
> engine keywords("我在用 R,R,R,R 语言,SQL,PYTHON,EXCEL 等工具,了解 MySQL 会更有好处",engine)
结果如下：
# 11.7392 11.7392 11.7392 11.7392 6.87603 6.1635 6.11745 5.09665
# "EXCEL" "MySQL" "PYTHON" "SQL" "好处" "语言" "工具" "了解"

解决办法：
关键词算法的实现原理是 TF-IDF 算法，TF 为词频，IDF 为逆文档率（词的权重），因此 TF-IDF=TF*IDF 为衡量是否关键词的指标，若控制 IDF，则 TF-IDF 的值与 TF 值成正比关系，简单来说 TF 值可以代替 TF-IDF 值。
由于此次分析的是数据分析师的工具和技能，因此只考虑 SQL,PYTHON,R,SAS 等常用且类似的词的分析，又因为该类词在 jiebaR 分词器识别出来的 IDF 值均是同级别的（即使可能存在有差异也在此假设其等值），因此这部分词汇的关键指标的衡量可以简化为出现的词频，即 TF 值，这个可以通过 jiebaR 的默认分词器（不是关键词分词器）来处理即可，最终解决 R 关键词识别的问题。

文本挖掘思路：
1、工具型技能的关键词：采用默认分词器的词频 TF 值
2、非工具型能力或素质的关键词：采用关键词分词器的 TF-IDF 值

不感兴趣

开通SVIP免广告

代码如下：
library(jiebaR)library(jiebaRD)library(zoo)library(plyr)source("myfun.R")#提取技能型关键词#采用默认 jiebaR 分词器engine
#分词，并删除无关的词汇word.lis
v
v
return(v)})#将所有分出来的词转化为大写，消除大小写差异segWords
stopwords
#过滤停词，由于文本可能会存在其他高频的词汇，把不需要的词去除，如(and,of…)#此处确保我要得到的前 20 个关键技能是正确的数据分析技能segWords
#形成词频表(数据框格式),获取前 15 个技能关键词top15.df
#生成有 id 和 keyword 构建的数据框，id 对应 cleandata 数据集的 id（即数据字典表 1 和表 2 的关系）id

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

9回复贴，共1页

<<返回大数据的那...吧

分享到:

日	一	二	三	四	五	六