① 某电商双11数据分析与预测为什么会用到hive,可不可以直接用Hadoop
首先明确Hive和Hadoop两者的关系:
1、Hadoop是一种用于存储、读取以及处理海量数据的技术。你可以将他等价理解为个人PC的文件系统,只不过它能够承载远比一两块硬盘所能储存的多得多的数据;
2、Hive是一种构建在Hadoop之上的工具,它通过书写SQL语句的方式部分实现了Hadoop的功能,也就是说,所有Hive具备的能力,Hadoop都有,只不过Hive提供了一套描述工具,让你用可读性更强、更通用的方式描述你想解决的问题,然后由Hive将其转换成Hadoop的底层逻辑,最终解决问题。
所以,你问的问题也就不言自明了,当然可以直接基于Hadoop,使用Java、Python等语言直接编写MapRece的处理过程;但是,常规的数据分析如果使用Hive,可能只需要若干Select查询语句即可完成,若编写代码完成,可能需要安装配置本地IDE、完成相关代码库的依赖、MapRece完整逻辑的实现、任务的提交、计算结果的获取等等一系列庞杂的细节。两厢对比,我认为虽然理论上可以直接用Hadoop,但是在真实业务场景下,就是不能用的。
希望我说明白了~
② hive简单理解的功能就是把一条sql进行解析成mr任务去给hadoop执行,那么hive的核心
hive作为数据仓库平台,其实是来解决mr编写程序困难的问题,提供了sql接口。目前的hive不止支持mr,还有tez和spark,不过逻辑都是一样的。现在最新版本提供了内存计算,也就是中间结果不再存入hdfs,而是直接缓存在内存里,提高查询性能
③ 定时离线分析 hdfs+maprece 和hadoop+hive+hbase的区别
HDFS和MapRece是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。
《Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapRece+Hbase+Hive内部机理详解》从内部机理详细的分析了HDFS、MapRece、Hbase、Hive的运行机制,从底层到数据管理详细的将Hadoop进行了一个剖析。
④ 如何使用 Hadoop 提升 Hive 查询性能
将原始数据大小为260M的txt文件放入hdfs。并配置了Hive环境做数据查询测试。由于原始数据太小,要做GB以上的文件测试。
并且分别拷贝10、50、100、200、300、400、500份原始数据做成对应的大数据文件。
分别对这些数据使用hiveQL查询相同的数据,然后记录不同大小的数据查询的结果。做成一个图表。然后再添加一个slave计算节点,负载均衡后再使用相同的hiveQL语言查询相同的数据集,记录对应的结果。
⑤ 如何使用Hive&R从Hadoop集群中提取数据进行分析
Hive提供了类似SQL的连接语义。内连接是应用程序中使用的最常见的join操作,可将它视为默认连接类型。内连接基于连接谓词将两个表(假设为A(CDR)和B(网络日志))的列值合并在一起。内部join查询将A表与B表的每一行进行比较,找出满足连接谓词的所有行对。如果满足连接谓词,则会将该记录的A和B的列值合并,以建立新的合成记录。可以这样思考内连接:它获取这两个表的Cartesian产品,然后返回满足连接谓词的记录。
⑥ 为什么说 hive 是 hadoop 数据仓库,从方 面理解
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapRece任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRece统计,不必开发专门的MapRece应用,十分适合数据仓库的统计分析。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。
(1).hive由FaceBook开源用于解决海量结构化日志的数据统计。
(2).hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。
(3).hive是构建在hadoop之上的数据仓库:
使用HQL语句作为查询接口
使用HDFS进行存储
使用maprece进行计算。
(4).hive本质是:将HQL转化成MapRece程序。
(5).灵活和扩展性比较好:支持UDF,自定义存储格式。
(6).适合离线处理。
(7).查询和管理在分布式存储的大的数据集(数据库:增删改查,hive不支持增删该)。管理主要是对表的管理。
⑦ hadoop 数据分析---hive数据仓库
用命令行吧。hive查询语句和SQL非常类似,如果你能用SQL统计出想要结果,用HIVE也肯定没问题。如果hive查询结果集很大,你也可以把结果集直接写进HDFS。
hive底层就是MapRece算法,用Java写的话代码量肯定很大,而且逻辑也要复杂点
⑧ hive中统计数据的问题
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),平台有hadoop
⑨ hive如何实现数据分析
hive只是基于hadoop的数据仓库平台,类似一个数据库而已,分析还是要看做什么应用了