本文共 1887 字,大约阅读时间需要 6 分钟。
内置函数
show functions
desc function upper
desc function extended upper(详细)
自定义函数 UDF(user-defiened fuction)
UDF 一进一出
UDAF 聚集函数,多进一出
UDTF 一进多出
步骤:
1. 创建一个maven工程,并且导入jar(hive-exec)
2. UDF函数:创建一个类,并且继承 org.apache.hadoop.hive.ql.UDF,重写evaluate方法
public class LowerUDF extends UDF { public String evaluate (String s) { if (s == null) { return null; } return s.toLowerCase(); }}
3. 打包成jar,上传到服务器:add jar linux_jar_path,可直接放到hive的lib下,开机启动
add jar /opt/module/datas/udf.jar;
4. 创建临时函数与开发好的java class关联:create [temporary] function [dbname.]function_name as class_name;
create temporary function mylower as "LowerUDF";
5. 在HQL中使用自定义函数
select mylower(name) from student;
6. 删除函数:drop [temporary] function [if exists] [dbname.]function_name
drop temporary function if exists mylower;
需求: 自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词
public class MyUDTF extends GenericUDTF { private ListoutList = new ArrayList (); @Override public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException { //1.定义输出数据的列名和类型 List fieldNames = new ArrayList (); List fieldOIs = new ArrayList (); //2.添加输出数据的列名和类型 fieldNames.add("lineToWord"); fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector); return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs); } @Override public void process(Object[] args) throws HiveException { //1.获取原始数据 String arg = args[0].toString(); //2.获取数据传入的第二个参数,此处为分隔符 String splitKey = args[1].toString(); //3.将原始数据按照传入的分隔符进行切分 String[] fields = arg.split(splitKey); //4.遍历切分后的结果,并写出 for (String field : fields) { // 集合为复用的,首先清空集合 outList.clear(); // 将每一个单词添加至集合 outList.add(field); // 将集合内容写出 forward(outList); } } @Override public void close() throws HiveException { }}
转载地址:http://qiqen.baihongyu.com/