博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Sqoop import进阶
阅读量:4298 次
发布时间:2019-05-27

本文共 718 字,大约阅读时间需要 2 分钟。

1.学会打包成JSON数组传进去

2.从mysql的一个viewe导入,其实和table没有本质区别

 

 

CONCAT就是拼接一下

 

拼接成json数组   [{ "A":a , "B",b} , { }]

 

导入时可以从一个mysql的view导入

 

为什么采用JSON数组,因为一个Order对应一个Product,我们可以这么做。

但是他现在mysql里面就order_items,他有很多列,在Hbase里我们不好定义具体产生多少个列(只能定义列族),所以就用json对象传进来更方便。

这块我还没太明白,以后再说。

 

导入之后  在Hbase里  count 'products' 看看导入了那么多条记录没有。

scan 'products'  { LIMIT-->5 }  看看前5条 rowkey和column+cell

实际过程中就是干这些活儿的,多去验证不要觉得麻烦来熟悉这些框架,综合性练习

 

好多过滤器 什么substring

 

如何在mysql中创建view

 

其它内容

有一个开关 -Dorg.apache.sqoop.splitter.allow.text_splitter=true

文档中字符串会很长时,必须打开这个开关

 

练习2:

这个很简单,一样从mapper分解,然后取出第三个元素shape。

形状作为key传给reducer,然后再Reducer对每一个key,在value的循环里。

循环里我就直接 a++  因为根本就不循环,传过来的是空。

来一个key,我a就加1,就完成了计数。

这和词频统计一模一样,根本不难的。

 

不要在sqoop上花太多时间 他很简单,但是sqoop是非常棒的工具。主要侧重点还是hive和hbase

转载地址:http://euvws.baihongyu.com/

你可能感兴趣的文章
python正则表达式入门一
查看>>
python正则表达式入门二
查看>>
scrapy运行
查看>>
XPATH入门
查看>>
python爬虫 CSS选择器
查看>>
正常关闭java程序
查看>>
查看linux核心数
查看>>
数据结构与算法三: 数组
查看>>
Activiti工作流会签二 启动流程
查看>>
Activiti工作流会签三 撤销,审批,驳回
查看>>
Oauth2方式实现单点登录
查看>>
CountDownLatch源码解析加流程图详解--AQS类注释翻译
查看>>
ES相关度评分
查看>>
我们一起做一个可以商用的springboot脚手架
查看>>
idea在搭建ssm框架时mybatis整合问题 无法找到mapper
查看>>
java设计基本原则----单一职责原则
查看>>
HashMap的实现
查看>>
互斥锁 synchronized分析
查看>>
java等待-通知机制 synchronized和waity()的使用实践
查看>>
win10 Docke安装mysql8.0
查看>>