简介

本文介绍通过使用Hadoop命令的方式将csv数据导入进入HDFS中

一、环境准备

具体的环境准备及搭建流程可参考以下文章，本文不再做赘述

基础环境准备：

Hadoop集群搭建：

二、数据准备

未注册到 iServer的 csv 数据进行分布式分析服务，则需确保在 csv 存放目录下有与其对应的 .meta 文件，该.meta文件包含 csv 数据文件的元信息，所以我们将两个数据一起拷入。以示范数据 newyork_taxi_2013-01_14k.csv 为例，.meta 文件内容为：

"FieldInfos": [        {
               "name": "col0",            "type": "WTEXT"        },        {
              "name": "col1",            "type": "WTEXT"        },        {
               "name": "col2",            "type": "WTEXT"        },        {
               "name": "col3",            "type": "INT32"        },        {
               "name": "col4",            "type": "WTEXT"        },        {
               "name": "col5",            "type": "WTEXT"        },        {
               "name": "col6",            "type": "WTEXT"        },        {
               "name": "col7",            "type": "INT32"        },        {
               "name": "col8",            "type": "INT32"        },        {
               "name": "col9",            "type": "DOUBLE"        },        {
               "name": "X",            "type": "DOUBLE"        },        {
               "name": "Y",            "type": "DOUBLE"        },        {
               "name": "col12",            "type": "DOUBLE"        },        {
               "name": "col13",            "type": "DOUBLE"        }    ],    "GeometryType": "POINT",    "HasHeader": false,    "StorageType": "XYColumn" }

三、导入csv

1.首先将数据放到opt目录下

newyork_taxi_2013-01_14k.csv

newyork_taxi_2013-01_14k.meta

2.将示例数据导入到 hdfs 中，启动 hadoop，在 hadoop-2.7.7/bin 中执行

./hadoop fs -mkdir /input         #创建/input 目录./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.csv /input/  #将 taxi 数据导入到/input 目录中./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.meta /input/

3.导入完成后，可以使用如下命令查看

./hadoop fs -ls /input

4.输出结果如下

5.也可通过访问文件系统的方式来查看，访问ip:50070（ip为Hadoop所在机器的ip），并选择刚才创建的文件夹

至此，我们已成功将csv数据导入Hadoop的HDFS中。我们后续会发布更多有关SuperMap大数据平台的专题。

转载地址：http://anvxi.baihongyu.com/

你可能感兴趣的文章