本文共 1928 字,大约阅读时间需要 6 分钟。
作者: lly
本文介绍通过使用Hadoop命令的方式将csv数据导入进入HDFS中
具体的环境准备及搭建流程可参考以下文章,本文不再做赘述
基础环境准备: Hadoop集群搭建:未注册到 iServer的 csv 数据进行分布式分析服务,则需确保在 csv 存放目录下有与其对应的 .meta 文件,该.meta文件包含 csv 数据文件的元信息,所以我们将两个数据一起拷入。以示范数据 newyork_taxi_2013-01_14k.csv 为例,.meta 文件内容为:
"FieldInfos": [ { "name": "col0", "type": "WTEXT" }, { "name": "col1", "type": "WTEXT" }, { "name": "col2", "type": "WTEXT" }, { "name": "col3", "type": "INT32" }, { "name": "col4", "type": "WTEXT" }, { "name": "col5", "type": "WTEXT" }, { "name": "col6", "type": "WTEXT" }, { "name": "col7", "type": "INT32" }, { "name": "col8", "type": "INT32" }, { "name": "col9", "type": "DOUBLE" }, { "name": "X", "type": "DOUBLE" }, { "name": "Y", "type": "DOUBLE" }, { "name": "col12", "type": "DOUBLE" }, { "name": "col13", "type": "DOUBLE" } ], "GeometryType": "POINT", "HasHeader": false, "StorageType": "XYColumn" }
1.首先将数据放到opt目录下
2.将示例数据导入到 hdfs 中,启动 hadoop,在 hadoop-2.7.7/bin 中执行
./hadoop fs -mkdir /input #创建/input 目录./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.csv /input/ #将 taxi 数据导入到/input 目录中./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.meta /input/
3.导入完成后,可以使用如下命令查看
./hadoop fs -ls /input
4.输出结果如下
5.也可通过访问文件系统的方式来查看,访问ip:50070(ip为Hadoop所在机器的ip),并选择刚才创建的文件夹 至此,我们已成功将csv数据导入Hadoop的HDFS中。我们后续会发布更多有关SuperMap大数据平台的专题。转载地址:http://anvxi.baihongyu.com/