用户名:密 码:注册|找回密码设置首页 | 返回首页

当前位置 > 首页 > 股市动态 > 机构传真 > Top30数据分析师常见面试题(附答案)!

Top30数据分析师常见面试题(附答案)!

发布时间:2019-10-07 22:08来源:凤凰彩票网采集侠字号:

  【IT168 评论】这是一个用数据说话的时代,也是一个依靠数据竞争的时代。各大互联网公司都在不断完善自己的数据分析团队,数据分析师的薪酬也是水涨船高。业内人士透露,应届毕业生的平均薪资大概在6K左右,1至3年经验的大概在10K到20K之间,5至10年经验的大概在25K以上。薪资还是十分诱人的,那么,如何快速成长为一名年薪百万的数据分析师呢?快来看看,以下30道数据分析相关面试题,你会多少? 内容来自dedecms

  1、分析数据还要写java代码是不是效率有点低? 内容来自dedecms

Top30数据分析师常见面试题(附答案)! 本文来自织梦


本文来自织梦

  2、成为一名数据分析师需要具备哪些技能? copyright dedecms

  要成为一名数据分析师,需要掌握丰富的报告软件包(Business Objects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识以及分析大型数据集(SAS,Excel,SPSS等)的统计软件包知识。 copyright dedecms

  3、分析项目的各个步骤是什么? 织梦内容管理系统

  分析项目的各个步骤包括:

织梦内容管理系统

  ·问题定义 织梦好,好织梦

  ·数据挖掘

织梦内容管理系统

  ·数据准备

织梦好,好织梦

  ·模型化 copyright dedecms

  ·数据认证 内容来自dedecms

  ·实施跟踪

织梦内容管理系统

  4、分析的结果数据特别大,在线请求这些结果数据扛不住了,咋搞? dedecms.com

Top30数据分析师常见面试题(附答案)!

织梦内容管理系统


dedecms.com

  5、列出数据清理的最佳实践?

copyright dedecms

  一些数据清理的最佳实践包括: dedecms.com

  ·按不同的属性排序数据

内容来自dedecms

  ·对于大数据集,逐步清理并改进数据,直到获得良好的数据质量

dedecms.com

  ·对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度

织梦内容管理系统

  ·要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值

内容来自dedecms

  ·如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题 dedecms.com

  ·分析每列的汇总统计数据(标准差,均值,缺失值的数量)

内容来自dedecms

  ·保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作

织梦内容管理系统

  6、海量日志数据,提取出某日访问百度次数最多的那个IP。 本文来自织梦

Top30数据分析师常见面试题(附答案)!

本文来自织梦


本文来自织梦

  7、可用于数据分析的一些最佳工具清单有什么? 织梦好,好织梦

  ·Tableau

本文来自织梦

  ·RapidMiner

织梦好,好织梦

  ·OpenRefine 织梦好,好织梦

  ·KNIME 织梦内容管理系统

  ·Google Search Operators 织梦内容管理系统

  ·Solver

copyright dedecms

  ·NodeXL

织梦好,好织梦

  ·io 织梦内容管理系统

  ·Wolfram Alpha’s 织梦好,好织梦

  ·Google Fusion tables

copyright dedecms

  8、数据挖掘和数据分析之间的区别是什么?

copyright dedecms

  数据挖掘和数据分析之间的区别在于: 织梦好,好织梦

  ·数据分析:针对个别属性的实例分析。提供有关属性的各种信息,如值范围,离散值及其频率,空值的发生,数据类型,长度等。 内容来自dedecms

  ·数据挖掘:重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。

本文来自织梦

  9、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? dedecms.com

Top30数据分析师常见面试题(附答案)! copyright dedecms


copyright dedecms

  10、用于处理分布式计算环境中应用程序大数据集的Apache框架有哪些? 织梦内容管理系统

  Hadoop和MapReduce是由Apache开发的用于处理分布式计算环境中应用程序大数据集的编程框架。 本文来自织梦

  11、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在40亿个数当中?

内容来自dedecms

Top30数据分析师常见面试题(附答案)! 织梦内容管理系统


本文来自织梦

Top30数据分析师常见面试题(附答案)!

本文来自织梦


dedecms.com

  12、解释KNN插补方法是什么? copyright dedecms

  在KNN插补中,通过使用与其值缺失的属性最相似的属性值来推断缺少的属性值。通过使用距离函数,确定两个属性的相似度。

dedecms.com

  13、数据分析师使用的数据验证方法是什么? 织梦内容管理系统

  通常,数据分析师用于数据验证的方法是数据筛选和数据验证。

内容来自dedecms

  14、解释应该如何处理可疑或缺失数据?

织梦内容管理系统

  ·准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间 织梦内容管理系统

  ·有经验的数据分析师应该检查可疑数据以确定其可接受性

copyright dedecms

  ·应该找出无效数据并用验证码替换

织梦内容管理系统

  ·对缺失数据进行处理,使用最佳分析策略,如删除,单一插补方法,基于模型的方法等。 本文来自织梦

  15、如何避免过拟合? copyright dedecms

  过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers。常见的解决办法是正则化:增大数据集,正则化

本文来自织梦

  16、解释异常值是什么?

本文来自织梦

  异常值是分析师使用的一个术语,指的是一个远远超出样本总体模式的值。有两种类型的异常值: 本文来自织梦

  ·Univariate

织梦内容管理系统

  ·Multivariate 织梦内容管理系统

  17、解释分层聚类算法是什么? 织梦内容管理系统

  分层聚类算法结合并划分现有的组,创建分层结构并展示组划分或合并的顺序。

copyright dedecms

  18、解释K均值算法是什么? dedecms.com

  K均值是一种著名的分区方法。对象被分类为属于K个组中的一个,k是先验选择的。

织梦好,好织梦

  在K均值算法中: dedecms.com

  ·簇是球形的:簇中的数据点以该簇为中心

copyright dedecms

  ·簇的方差/扩展是相似的:每个数据点属于最接近的簇 织梦好,好织梦

  19、数据分析师所需掌握的关键技能是什么? 本文来自织梦

  数据科学家必须具备以下技能: 本文来自织梦

  数据库知识 copyright dedecms

  ·数据库管理 本文来自织梦

  ·数据混合 织梦内容管理系统

  ·数据查询 内容来自dedecms

  ·数据操作 dedecms.com

  预测分析

本文来自织梦

  ·基本描述性统计 织梦好,好织梦

  ·预测建模 copyright dedecms

  ·高级分析 copyright dedecms

  大数据知识 本文来自织梦

  ·大数据分析 织梦好,好织梦

  ·非结构化数据分析 织梦内容管理系统

  ·机器学习 内容来自dedecms

  演示技巧 dedecms.com

  ·数据可视化

本文来自织梦

  ·报告设计 织梦好,好织梦

  20、解释协同过滤是什么? 织梦好,好织梦

  协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组件是用户对项目的兴趣。

织梦内容管理系统

  协同过滤一个很好的例子就是购物网站上出现的类似“为您推荐”的模块,该模块通常会获取用户的浏览记录信息,以弹出用户可能喜欢或需要的商品。 copyright dedecms

  21、大数据中通常会使用到哪些工具? 内容来自dedecms

  大数据中使用的工具包括: 内容来自dedecms

  ·Hadoop

copyright dedecms

  ·Hive copyright dedecms

  ·Pig copyright dedecms

  ·Flume

dedecms.com

  ·Mahout

本文来自织梦

  ·Sqoop copyright dedecms

  22、解释什么是KPI,实验设计和80/20规则? dedecms.com

  ·关键绩效指标(KPI):它代表关键绩效指标(Key Performance Indicator),它是关于业务流程的报告或图表

内容来自dedecms

  ·实验设计:这是用于分解数据,采样和建立数据以进行统计分析的初始过程

dedecms.com

  ·80/20规则:这意味着你收入的80%来自客户的20% copyright dedecms

  23、解释Map Reduce是什么?

内容来自dedecms

  Map-Reduce是一个处理大型数据集的框架,可以将它们分解成子集,在不同的服务器上处理每个子集,然后混合每个子集上获得的结果。 dedecms.com

  24、解释聚类是什么?聚类算法的属性? 本文来自织梦

  聚类是一种应用于数据的分类方法。聚类算法将数据集划分为自然组或集群。 本文来自织梦

  聚类算法的属性是:

本文来自织梦

  ·Hierarchical or flat dedecms.com

  ·Iterative copyright dedecms

  ·Hard and soft 织梦好,好织梦

  ·Disjunctive

本文来自织梦

  25、对数据分析师有用的统计方法是什么? 织梦好,好织梦

  对数据科学家有用的统计方法是 织梦好,好织梦

  ·贝叶斯方法

织梦内容管理系统

  ·马尔科夫过程 内容来自dedecms

  ·空间和集群进程

本文来自织梦

  ·统计数据,百分位数,异常值检测 本文来自织梦

  ·计算技巧等 内容来自dedecms

  ·简单的算法 本文来自织梦

  ·数学优化

内容来自dedecms

  26、时间序列分析是什么? 织梦好,好织梦

  时间序列分析可以在频域和时域两个域中完成。在时间序列分析中,可以通过指数平滑,对数线性回归等各种方法分析数据,来预测特定过程输出。

dedecms.com

  27、解释空间自相关分析是什么?

织梦内容管理系统

  空间自相关分析是地理空间分析的常用形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,它可以用于构建基于距离的数据相关图。 内容来自dedecms

  28、散列表是什么?散列表冲突是什么?如何避免?

内容来自dedecms

  在计算中,哈希表(散列表)是键值对的映射,这是一个用于实现关联数组的数据结构。它使用散列函数来计算一个时隙阵列的索引,从中可以获取所需的值。 本文来自织梦

  当两个不同的键散列到相同的值时,发生散列表冲突。两个数据不能存储在阵列的同一个插槽中。

织梦内容管理系统

  为了避免散列表碰撞,有很多技巧,这里列出两个: 本文来自织梦

  ·分离链接:它使用数据结构来存储散列到同一个插槽的多个项目。

内容来自dedecms

  ·再探测:在找到查找位置的index的index-1,index+1位置查找,index-2,index+2查找,依次类推。这种方法称为线性再探测。

内容来自dedecms

  29、解释 imputation是什么?列出不同类型的插补技术?哪种插补方法更有利?

织梦内容管理系统

  在插补过程中,我们用替代值替换丢失的数据。插补技术涉及的类型有: dedecms.com

  ·单一插补 织梦好,好织梦

  ·热点插补:从随机选择的类似记录中推断缺失值

本文来自织梦

  ·冷却板插补:与热点插补相同,但更先进,从其他数据集中选择供体 织梦好,好织梦

  ·平均估算:在所有其他情况下,用该变量的平均值代替缺失值 织梦好,好织梦

  ·回归插补:用基于其他变量的变量预测值替换缺失值

织梦好,好织梦

  ·随机回归:与回归插补一样,但它将平均回归方差加入到回归估计中 内容来自dedecms

  ·多重插补:与单个插补不同,多重插补会多次估计值

内容来自dedecms

  虽然单一插补法被广泛使用,但并不能反映随机丢失数据所造成的不确定性。因此,在数据丢失的情况下,多重插补更有利。 织梦内容管理系统

  30、解释N-gram是什么? copyright dedecms

  N-gram是来自给定序列文本或语音的n个项目的连续序列。这是一种以(n-1)形式预测下一个项目的概率语言模型。 织梦好,好织梦

(财经窝小编:财经窝)

专家一览机构一览行业一览