hive java导入CVS

原文：http://bbs.chinahadoop.cn/thread-5343-1-1.html

----------------------------------------------------------------------------------

本文的目的是hive读取cvs文件，忽略字段中‘\,’，最终还是以','来分割文本
cvs格式是以逗号','隔开的文件格式，文本中可能在字段里又包含了逗号转义符号‘\,’
文件格式举例：
1,2,5,(hah\,ahojg)
如果用hive自带的分隔符建表：
create table IF NOT EXISTS test_table(p_id INT,tm INT,idate INT,url STRING)
partitioned by (dt string)
row format delimited fields terminated by ',' 或者为 '\,'
STORED AS INPUTFORMAT
'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/hdfs/data/incoming';
结果都会被分为：1 2 5 (hah\ ahojg)
因为hive只识别一个字符的分隔符，所以需要我们编写自己的input/output format
下面这段代码是网上截取的，将多个分隔符换成hive自带的\001
想要忽略‘\,’的目的，建红色的代码修改如下即可：
//先将‘\,’换成'@' ,处理完逗号分隔符，再将'@' 换成 '\,'
String repalceString_01 = value.toString().replace("\\,", "@");
String repalceString_02 = repalceString_01.replace(",", "\001");
String strReplace = repalceString_02.replace("@", "\\,");
------------------------------------------------------------------------------------------------------
步骤：myeclipse中建立java工程，根目录下新建lib目录，添加hadoop和常用的jar包

编写自定义InputFormat（MutilCharInputFormat）
编写自定义MutilCharRecordReader实现RecordReader接口，并重写next方法

编写自定义Input Format

01	package com.icloud.hive;

02	import java.io.IOException;

03	import org.apache.commons.logging.Log;

04	import org.apache.commons.logging.LogFactory;

05	import org.apache.hadoop.io.LongWritable;

06	import org.apache.hadoop.io.Text;

07	import org.apache.hadoop.mapred.FileSplit;

08	import org.apache.hadoop.mapred.InputSplit;

09	import org.apache.hadoop.mapred.JobConf;

10	import org.apache.hadoop.mapred.RecordReader;

11	import org.apache.hadoop.mapred.Reporter;

12	import org.apache.hadoop.mapred.TextInputFormat;

14	public class MutilCharInputFormat extends TextInputFormat{

15	private static final Log log = LogFactory.getLog(MutilCharRecordReader.class);

@Override

18	public RecordReader<LongWritable, Text> getRecordReader(

19	InputSplit genericSplit, JobConf job, Reporter reporter)

20	throws IOException {

21	reporter.setStatus(genericSplit.toString());

22	//创建MutilCharRecordReader并返回

23	return new MutilCharRecordReader((FileSplit)genericSplit,job);

}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/539150.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

hive java导入CVS

相关文章

Django 博客教程（三）：创建应用和编写数据库模型

python将16进制字符串转换为整数_Python 16进制与字符串的转换

python多个文件打包成exe_多个py文件生成一个可运行exe文件

CSV文件的转义处理

华为读取版本exe_关于esrv_svc.exe和SurSvc.exe疑似泄露用户信息的猜测

gitlab ci mysql_php-Gitlab CI：在阶段之间保留MySQL数据

flask 部署_只需10分钟！就能用Flask，Docker和Jenkins部署机器学习模型

Hive 导入CSV文件

腾讯云mysql架构_一个数据库存储架构的独白

Hive高级函数

groupby索引有效吗_SQL IN 一定走索引吗？

mysql函数使用场景_mysql的函数和存储过程的比较，以及在实际场景中的使用案例...

hive性能调优

推荐系统之 BPR 算法及 Librec的BPR算法实现【1】

ios 筛选_万千网友让quot;低调使用quot;的软件！居然还支持iOS

Linux卸载/删除多余网卡

CentOS7：JDK1.7.0_80安装

python海龟绘图画圣诞帽男人_python海龟绘图实例教程

spring+mybatis 多数据源整合

四管前级怎么去掉高低音音调_一些歌曲音调太高怎么才能唱上去？？