网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
12月22日漏签0天
大数据的那些事吧 关注:23,369贴子:104,063
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 9回复贴,共1页
<<返回大数据的那...吧
>0< 加载中...

据说看了这篇大数据分析技术的小白,月薪会突破20K

  • 只看楼主
  • 收藏

  • 回复
  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
一、首先要确定分析目的
企业对数据分析岗位 的要求是什么样的。
要具备怎样的能力和素质才能顺利找到理想工作。
二、对问题进行分解(文章下面有具体的分析图)
不同的城市和地区,数据分析岗位的需求分布以及对应的薪资分布
不同经验,数据分析岗位的需求分布以及对应的薪资分布
不同学历,数据分析岗位的需求分布以及对应的薪资分布
不同企业规模,数据分析岗位的需求分布以及对应的薪资分布
探索数据分析岗位对应的工具型技能与对应的薪资水平
探索数据分析岗位对应非工具型能力的需求


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
三、对数据集进行定义


2025-12-22 17:09:10
广告
不感兴趣
开通SVIP免广告
  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
四、获取需要的数据
数据来源:拉勾网
数据范围:互联网行业、数据分析岗位
数据集:全国数据分析岗位招聘信息数据集


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

幸运的是该数据集不存在缺失值,这是很少遇到的情况


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
步骤 3:数据清洗
#zoo 包的 index 函数library(zoo)#定义数据清洗函数cleaning
#删除重复值 my.data
#计算平均月薪 min_salary
max_salary
my.data$avg_salary
#清理字符串中的不需要的字符 #并将需要分析的字符变量转化为因子,并对部分因子重新编码 my.data$city
my.data$experience
my.data$experience[my.data$experience %in% c("不限","应届毕业生")]
#这里的学历:“大专”,“本科”,“硕士”都表明是要求该学历“及以上” my.data$education
my.data$education[my.data$education=="不限"]
my.data$phase
c("不需要融资","未融资","天使轮","A 轮", "B 轮","C 轮","D 轮及以上","上市公司")) my.data$campany my.data$scale
"\\1",paste(my.data$scale,my.data$scale2)), levels =c("少于 15 人","15-50 人","50-150 人", "150-500 人","500-2000 人","2000 人以上")) my.data$id
my.data
return(my.data)}#清洗数据,得到清洗后的数据CN.clean str(CN.clean)


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
步骤 4:文本挖掘
文本挖掘工具:jiebaR 包
说明:
在进行正式挖掘之前测试了一下 jiebaR 的关键词(keywords)分词器,测试的结果发现 SQL,Python 等词在 jiebaR 词典中的 IDF 值均为 11.7392,但“R”这个字符无论如何(即使自定义了用户字典,或者在 idf 字典中添加 R 的 idf 值)都无法被分词器识别为关键词,猜测可能是默认 R 的词性标注或者算法实现方法的原因。但因为 R 是数据分析师的重要工具,识别不出来是不可容忍的,因此要另求出路。
测试代码如下:
> library(jiebaR)
> library(jiebaRD)
> engine keywords("我在用 R,R,R,R 语言,SQL,PYTHON,EXCEL 等工具,了解 MySQL 会更有好处",engine)
结果如下:
# 11.7392 11.7392 11.7392 11.7392 6.87603 6.1635 6.11745 5.09665
# "EXCEL" "MySQL" "PYTHON" "SQL" "好处" "语言" "工具" "了解"


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
解决办法:
关键词算法的实现原理是 TF-IDF 算法,TF 为词频,IDF 为逆文档率(词的权重),因此 TF-IDF=TF*IDF 为衡量是否关键词的指标,若控制 IDF,则 TF-IDF 的值与 TF 值成正比关系,简单来说 TF 值可以代替 TF-IDF 值。
由于此次分析的是数据分析师的工具和技能,因此只考虑 SQL,PYTHON,R,SAS 等常用且类似的词的分析,又因为该类词在 jiebaR 分词器识别出来的 IDF 值均是同级别的(即使可能存在有差异也在此假设其等值),因此这部分词汇的关键指标的衡量可以简化为出现的词频,即 TF 值,这个可以通过 jiebaR 的默认分词器(不是关键词分词器)来处理即可,最终解决 R 关键词识别的问题。


  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
文本挖掘思路:
1、工具型技能的关键词:采用默认分词器的词频 TF 值
2、非工具型能力或素质的关键词:采用关键词分词器的 TF-IDF 值


2025-12-22 17:03:10
广告
不感兴趣
开通SVIP免广告
  • Python大数据
  • 活跃吧友
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
代码如下:
library(jiebaR)library(jiebaRD)library(zoo)library(plyr)source("myfun.R")#提取技能型关键词#采用默认 jiebaR 分词器engine
#分词,并删除无关的词汇word.lis
v
v
return(v)})#将所有分出来的词转化为大写,消除大小写差异segWords
stopwords
#过滤停词,由于文本可能会存在其他高频的词汇,把不需要的词去除,如(and,of…)#此处确保我要得到的前 20 个关键技能是正确的数据分析技能segWords
#形成词频表(数据框格式),获取前 15 个技能关键词top15.df
#生成有 id 和 keyword 构建的数据框,id 对应 cleandata 数据集的 id(即数据字典表 1 和表 2 的关系)id


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 9回复贴,共1页
<<返回大数据的那...吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示