您现在的位置: 首页 > 动态 > 文章正文动态
常见的收集数据的方法有(做数据分析与挖掘,需要具备哪些知识与技术)
发布时间:2022-10-24 04:43 点击:次
首先明确地说一点, 数据分析与数据挖掘无论是在职业上还是技术栈上并没有很明显的界限。两者的技术和工作内容存在很大的重合,比如数据分析也有很多时候用到数据挖掘的理论和模型,很多数据分析从业者使用SAS、R、SPSS就是一个很好的例子,另一方面,做数据挖掘项目时同样需要有人懂业务懂数据,能够根据业务需要提出正确的数据挖掘需求和方案,能够提出备选的算法模型,实际上这样的人一脚在数据分析上另一只脚已经在数据挖掘上了。
如果非要说有什么区别的话,我觉得可能数据分析更注重对已知事实的分析,即出现了某个业务现象,通过数据分析探索发生的原因,进而进行针对性地应对。而数据挖掘更注重在大数据中进行探索,挖掘潜藏在数据背后的业务规律,进而为业务发展寻找突破点。
回到题主关注的技术层面,针对数据分析师,需要掌握的技能有:概率论和统计学知识,能够熟练运用Excel、SQL,R、Python、SPSS等至少一门专业分析软件,注意是熟练运用,而且Excel是必备技能,如果做大数据分析的话,SQL,HIVE等也要比较熟练的使用,最后还有最最重要的一项,要有深刻的内部业务见解和外部商业分析能力,这是很多数据分析师的痛点和薄弱点,数据分析重在业务,不是技术,千万不要本末倒置!!!
数据挖掘入门门槛就要高一点了,不仅要具备基础的工程能力,还要具备一定的算法能力和业务经验,主要包括:
一、工程能力:
1、编程语言:Python,Java至少要会一种吧,shell也会用到很多,也是要会的
2、操作系统:Linux基础的操作要会的
3、数据结构:这是实现算法的必备,必然要掌握的
二、算法能力
1、数学基础:概率论,数理统计,线性代数,随机过程,最优化理论
建议:这些是必须要了解的,即使没法做到基础扎实,起码也要掌握每门学科的理论体系,涉及到相应知识点时通过查阅资料可以做到无障碍理解;
2、机器学习/深度学习:掌握常见的机器学习模型(线性回归,逻辑回归, SVM ,感知机;决策树,随机森林, GBDT , XGBoost ;贝叶斯, KNN , K-means , EM 等);掌握常见的机器学习理论(过拟合问题,交叉验证问题,模型选择问题,模型融合问题等);掌握常见的深度学习模型( CNN ,RNN 等);
推荐书籍:《统计学习方法》《机器学习》《机器学习实战》
3、自然语言处理:掌握常见的方法( tf-idf , word2vec ,LDA );
三、业务经验
除了以上工程能力和算法能力,还有很重要的就是业务经验,就是对业务的熟悉程度,这决定了你如何构造你的数据集,如何构造你的特征,如何进行数据清洗,如何进行模型调参,所有的数据挖掘都要落地到实际业务中产生价值,否则就毫无意义,落地业务最关键的一点就是熟悉业务,道理很简单,但却很容易被忽视。
以上是从事我从事数据分析和数据挖掘相关工作以来的一些感悟,一家之言仅供参考,也希望更多行业里的大神多多指教交流!