本文共 718 字,大约阅读时间需要 2 分钟。
1.学会打包成JSON数组传进去
2.从mysql的一个viewe导入,其实和table没有本质区别
CONCAT就是拼接一下
拼接成json数组 [{ "A":a , "B",b} , { }]
导入时可以从一个mysql的view导入
为什么采用JSON数组,因为一个Order对应一个Product,我们可以这么做。
但是他现在mysql里面就order_items,他有很多列,在Hbase里我们不好定义具体产生多少个列(只能定义列族),所以就用json对象传进来更方便。
这块我还没太明白,以后再说。
导入之后 在Hbase里 count 'products' 看看导入了那么多条记录没有。
scan 'products' { LIMIT-->5 } 看看前5条 rowkey和column+cell
实际过程中就是干这些活儿的,多去验证不要觉得麻烦来熟悉这些框架,综合性练习
好多过滤器 什么substring
如何在mysql中创建view
其它内容
有一个开关 -Dorg.apache.sqoop.splitter.allow.text_splitter=true
文档中字符串会很长时,必须打开这个开关
练习2:
这个很简单,一样从mapper分解,然后取出第三个元素shape。
形状作为key传给reducer,然后再Reducer对每一个key,在value的循环里。
循环里我就直接 a++ 因为根本就不循环,传过来的是空。
来一个key,我a就加1,就完成了计数。
这和词频统计一模一样,根本不难的。
不要在sqoop上花太多时间 他很简单,但是sqoop是非常棒的工具。主要侧重点还是hive和hbase
转载地址:http://euvws.baihongyu.com/