最新资讯

您现在的位置: 首页 > 动态 > 文章正文动态

    常见的收集数据的方法有(做数据分析与挖掘,需要具备哪些知识与技术)

    发布时间:2022-10-24 04:43 点击:

      首先明确地说一点, 数据分析与数据挖掘无论是在职业上还是技术栈上并没有很明显的界限。两者的技术和工作内容存在很大的重合,比如数据分析也有很多时候用到数据挖掘的理论和模型,很多数据分析从业者使用SAS、R、SPSS就是一个很好的例子,另一方面,做数据挖掘项目时同样需要有人懂业务懂数据,能够根据业务需要提出正确的数据挖掘需求和方案,能够提出备选的算法模型,实际上这样的人一脚在数据分析上另一只脚已经在数据挖掘上了。

      如果非要说有什么区别的话,我觉得可能数据分析更注重对已知事实的分析,即出现了某个业务现象,通过数据分析探索发生的原因,进而进行针对性地应对。而数据挖掘更注重在大数据中进行探索,挖掘潜藏在数据背后的业务规律,进而为业务发展寻找突破点。

      回到题主关注的技术层面,针对数据分析师,需要掌握的技能有:概率论和统计学知识,能够熟练运用Excel、SQL,R、Python、SPSS等至少一门专业分析软件,注意是熟练运用,而且Excel是必备技能,如果做大数据分析的话,SQL,HIVE等也要比较熟练的使用,最后还有最最重要的一项,要有深刻的内部业务见解和外部商业分析能力,这是很多数据分析师的痛点和薄弱点,数据分析重在业务,不是技术,千万不要本末倒置!!!

      数据挖掘入门门槛就要高一点了,不仅要具备基础的工程能力,还要具备一定的算法能力和业务经验,主要包括:

      一、工程能力:

      1、编程语言:Python,Java至少要会一种吧,shell也会用到很多,也是要会的

      2、操作系统:Linux基础的操作要会的

      3、数据结构:这是实现算法的必备,必然要掌握的

      二、算法能力

      1、数学基础:概率论,数理统计,线性代数,随机过程,最优化理论

      建议:这些是必须要了解的,即使没法做到基础扎实,起码也要掌握每门学科的理论体系,涉及到相应知识点时通过查阅资料可以做到无障碍理解;

      2、机器学习/深度学习:掌握常见的机器学习模型(线性回归,逻辑回归, SVM ,感知机;决策树,随机森林, GBDT , XGBoost ;贝叶斯, KNN , K-means , EM 等);掌握常见的机器学习理论(过拟合问题,交叉验证问题,模型选择问题,模型融合问题等);掌握常见的深度学习模型( CNN ,RNN 等);

      推荐书籍:《统计学习方法》《机器学习》《机器学习实战》

      3、自然语言处理:掌握常见的方法( tf-idf , word2vec ,LDA );

      三、业务经验

      除了以上工程能力和算法能力,还有很重要的就是业务经验,就是对业务的熟悉程度,这决定了你如何构造你的数据集,如何构造你的特征,如何进行数据清洗,如何进行模型调参,所有的数据挖掘都要落地到实际业务中产生价值,否则就毫无意义,落地业务最关键的一点就是熟悉业务,道理很简单,但却很容易被忽视。

      以上是从事我从事数据分析和数据挖掘相关工作以来的一些感悟,一家之言仅供参考,也希望更多行业里的大神多多指教交流!


      上一篇:嗡是什么意思(嗡三拨惹三拨惹啥意思)

      下一篇:历届德甲冠军(出自1962年以来的每个德甲冠军有哪些俱乐部)

嗡是什么意思(嗡三拨惹三拨惹啥意思) 霜树尽空枝肠断丁香结的意思诗意(汤树静空知肠断香丁结的意思 魔域桃源电视剧(魔域桃源里傅青云和唐琪是兄妹吗) 腾讯发布两款能源行业产品 邓超 董洁(谁知道董洁和邓超的电视剧(现代版),(相爱十年 STEAM无法连接到内容服务器(steam平台买东西显示连接不上服务器 立夏和夏至的区别(立夏和夏至各代表什么意思) 嗔痴是什么意思(心血来潮的意思是什么,出处是哪里) 魔法终结者(《终结者:黑暗命运》终结者70岁了,还能战吗) 七月流火 八月(七月诗经注音版)