hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。
与传统关系数据库相比的优势是:能够处理海量数据。
劣势是:它只提供查询功能,不能增、删、改。涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用。
运行机理:将sql语句转换为MapReduce任务,让Hadoop处理。
图3-1
查询结果落文件有两种方式:
/*查询结果输出到指定目录,文件名一般是0000_0,没有标题列。*/ /*数据量大时可能有若干个结果文件,处理不方便*/ INSERT OVERWRITE LOCAL DIRECTORY '/home/me/csvFileDir/' row format delimited fields terminated by ',' select * from table_name limit 10; /*查询数据并导出到单一文件,分隔符就是制表符,携带标题。*/ hive -e "select * from db_name.table_name limit 10" >> /home/me/csvFileDir/hiveResult.txt几百兆的大文件,只有UltraEdit能应对。还可以用navicate导入数据库用。
相关资源:HIVE讲义,HIVE数据库是基于maperesources