一个助Hadoop集群数据快速上云工具

xiaoxiao2025-08-30 58

背景

越来越多的公司和企业希望将业务迁移到云上，同时业务数据也希望能更顺畅的迁移到云上。

当前业界有很多公司是以Hadoop技术构建数据中心，所以本文将探讨如何快速的将Hadoop文件系统（HDFS）上的数据迁移到云上。

在阿里云上使用最广泛的存储服务是OSS对象存储。OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上，但这个工具无法读取Hadoop文件系统的数据，无法发挥Hadoop分布式的特点。并且因为工具只支持本地文件，所以需要将HDFS上的文件先下载到本地，再通过工具上传，整个过程耗时又耗力。

工具介绍

本文介绍一个从Hadoop集群直接迁移数据到OSS上的工具，该工具由阿里云E-MapReduce团队开发，基于Hadoop社区中常用的DistCp工具，并从E-MapReduce产品中剥离出了一个常见的功能，做成工具开放给全体阿里云客户使用。

0) 环境准备确保当前机器可以正常访问你的Hadoop集群，也就是说，可以用hadoop命令访问HDFS：hadoop fs -ls /

1) 下载和安装：下载附件中的emr-tools.tar.gz工具，并解压缩到本地目录：tar jxf emr-tools.tar.bz2

2) HDFS数据复制到OSS上：cd emr-tools./hdfs2oss4emr.sh /path/on/hdfs oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss

其中accessKeyId和accessKeySecret是你访问阿里云API（包括OSS等云产品）的密钥，bucket-name.oss-cn-hangzhou.aliyuncs.com是OSS的访问域名，包括bucket名称和所在Region的endpoint地址。如果参数都正确，则会启动一个Hadoop MapReduce任务（DistCp），作业运行完毕之后会打印本次数据迁移的信息：

17/05/04 22:35:08 INFO mapreduce.Job: Job job_1493800598643_0009 completed successfully17/05/04 22:35:08 INFO mapreduce.Job: Counters: 38

File System Counters FILE: Number of bytes read=0 FILE: Number of bytes written=859530 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=263114 HDFS: Number of bytes written=0 HDFS: Number of read operations=70 HDFS: Number of large read operations=0 HDFS: Number of write operations=14 OSS: Number of bytes read=0 OSS: Number of bytes written=258660 OSS: Number of read operations=0 OSS: Number of large read operations=0 OSS: Number of write operations=0 Job Counters Launched map tasks=7 Other local map tasks=7 Total time spent by all maps in occupied slots (ms)=60020 Total time spent by all reduces in occupied slots (ms)=0 Total time spent by all map tasks (ms)=30010 Total vcore-milliseconds taken by all map tasks=30010 Total megabyte-milliseconds taken by all map tasks=45015000 Map-Reduce Framework Map input records=10 Map output records=0 Input split bytes=952 Spilled Records=0 Failed Shuffles=0 Merged Map outputs=0 GC time elapsed (ms)=542 CPU time spent (ms)=14290 Physical memory (bytes) snapshot=1562365952 Virtual memory (bytes) snapshot=17317421056 Total committed heap usage (bytes)=1167589376 File Input Format Counters Bytes Read=3502 File Output Format Counters Bytes Written=0 org.apache.hadoop.tools.mapred.CopyMapper$Counter BYTESCOPIED=258660 BYTESEXPECTED=258660 COPY=10

copy from /path/on/hdfs to oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss does succeed !!!

作业完成后，可以用osscmd等工具查看OSS上数据情况：

osscmd ls oss://bucket-name/path/on/oss

3) OSS数据复制到HDFS：同样的，如果已经在阿里云上搭建了Hadoop集群，可以方便的把数据从OSS上迁移到新的Hadoop集群

./hdfs2oss4emr.sh oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss /path/on/new-hdfs

4) 其他说明：这个工具同时兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x等版本，如果有其他Hadoop版本兼容性的需求，可以直接联系我们。

一个助Hadoop集群数据快速上云工具

背景

工具介绍

更多使用场景