大家好,今天小编关注到一个比较有意思的话题,就是关于亚马逊GCS手机测评的问题,于是小编就整理了1个相关介绍亚马逊GCS手机测评的解答,让我们一起看看吧。
2019年,Hadoop还是数据处理的可选方案吗?
2019年,对于大的互联网公司来说,已经渐渐开始不用Hadoop的MapReduce计算框架,不过对于一些小公司,还是会使用Hadoop作为数据处理的一种方案。
Hadoop自2006年开源以来,最初来源谷歌的两篇文章,GFS和MapReduce。到现在还有很多互联网公司进行使用。不过由于大的互联网公司强大的自己研发实力,已经慢慢开始弃用Hadoop,转而开始通过自研来解决公司的大数据计算场景。
Hadoop整体包含三个模块:MapReduce、HDFS、Yarn。MapReduce是Hadoop的分布式计算框架,在对大数据文件进行数据处理的,会先对文件进行分片,每一个都是一个人Map任务,所以一个大文件,会有多个Map任务同时处理,每个Map任务只处理部分数据:
虽然Hadoop MapReduce计算框架分布式并行的处理数据,但是有一个问题就是,在进行数据Shuffle的时候,数据会临时存储在磁盘上,由于磁盘IO方面比较慢,有时候一个MapReduce任务可能运行好几个小时。Shuffle的含义就是数据从Map任务段到Reduce任务段的过程。
大型互联网公司,由于数据量非常巨大,同时业务场景有非常复杂,不可能接受一个任务跑几个小时的。所以一些互联网公司开始使用Spark计算框架来代替Hadoop MapReduce,比如头条。阿里的话,开始通过自研来解决这个问题,比如自研了MaxCompute框架、伏羲分布式调度、***分布式文件存储等。
小型互联网公司有两个特点,一个是公司业务场景没有那么复杂,另一个是数据体量不大。所以在技术选型时,不过要求特别复杂,只要能够满足业务场景即可。所以很多小公司在大数据技术选型时,都会使用Hadoop来作为大数据计算框架。
使用Hadoop作为数据处理方案,还有一个好处就是,便于统一管理和运维,小公司人员比较少,一般都是一个人负责集群的搭建、运维、维护等。Hadoop包含了计算、存储、***管理,对于小公司来说,也已经够使用了。
到此,以上就是小编对于亚马逊GCS手机测评的问题就介绍到这了,希望介绍关于亚马逊GCS手机测评的1点解答对大家有用。