人员流动是一个企业的基本情况,每年到了招聘高峰期,找工作的朋友们都非常的紧张,有些新手甚至莫不着头脑,无从下手,像大数据这种技术型的面试就更容易让人紧张了。大数据面试题有哪些?不懂Java那就很麻烦了。当然也有人问大数据是什么?
近年我们经常会用到云,云计算也随之兴起,大数据也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据非常神奇也非常神秘,想要弄懂大数据,一时半会是很难的。在工作中成长,在工作中学习,那么想做大数据,在面试中会遇到些什么样的问题呢?来看看吧!
1、你会Java语言吗?熟悉到什么程度?
2、你喜欢的编程语言是什么?为什么?
3、处理过的的数据量?你是如何处理他们的?处理的结果如何。
2、在处理大数据过程中,如何保证得到期望值?
3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
7、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?
9、Hive和Hbase的区别?
10、MapReduce的思想,以及MapReduce调优问题?
11、你所了解的开源网站?
12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?13、Hbase的优化?
14、集群的版本,以及集群的瓶颈问题?
15、CRM项目,怎么跟Spark结合?
16、如何创建一个关键字分类?
17、海量日志数据,提取出某日访问百度次数多的那个IP?
18、Hadoop和Spark处理数据时,出现内存溢出的处理方法?
19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率的50个词。
20、你是如何处理缺少数据的?你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?
如果不会Java,面试题就答不会,这样难道不尴尬吗?正如加里·金(崇拜/崇拜)说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”大数据时代,没有Java基础,如何开启你的大数据时代?