hbase建表命令_求助HBASE不能创建表

❶ 怎么创建关于hbase的hive表

1. 启动hive，并连接到hbase
./hive --auxpath /opt/apache/hive-0.12.0-bin/lib/hive_hbase-handler-
2. 创建内表
CREATE TABLE hive_123(word string, count bigint)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "hive_123");

执行这条命令后，hive将会在hbase上创建表"hive_123"，hive列与hbase列的映射关系为：
word字段为hbase表的rowkey，count字段则为cf1:val即column family为cf1，qualifier为val

3. 创建外表
CREATE EXTERNAL TABLE hive_vv(key string, sip string, count int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf0:sip,cf1:count")
TBLPROPERTIES ("hbase.table.name" = "hive_vv");

创建一个hive外表，将名为hive_w的hbase表识别到hive中。

❷ HBase存储架构

上图是HBase的存储架构图。

由上图可以知道，客户端是通过Zookeeper找到HMaster，然后再与具体的Hregionserver进行沟通读写数据的。

具体到物理实现，细节包括以下这些：

首先要清楚HBase在hdfs中的存储路径，以及各个目录的作用。在hbase-site.xml 文件中，配置项 <name> hbase.rootdir</name> 默认 “/hbase”，就是hbase在hdfs中的存储根路径。以下是hbase0.96版本的个路径作用。1.0以后的版本请参考这里: https://blog.bcmeng.com/post/hbase-hdfs.html

1、 /hbase/.archive
HBase 在做 Split或者 compact 操作完成之后，会将 HFile 移到.archive 目录中，然后将之前的 hfile 删除掉，该目录由 HMaster 上的一个定时任务定期去清理。

2、 /hbase/.corrupt
存储HBase损坏的日志文件，一般都是为空的。

3、 /hbase/.hbck
HBase 运维过程中偶尔会遇到元数据不一致的情况，这时候会用到提供的 hbck 工具去修复，修复过程中会使用该目录作为临时过度缓冲。

4、 /hbase/logs
HBase 是支持 WAL（Write Ahead Log）的，HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录，若客户端如果开启WAL 模式，会先将数据写入一份到.log 下，当 RegionServer crash 或者目录达到一定大小，会开启 replay 模式，类似 MySQL 的 binlog。

5、 /hbase/oldlogs
当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中，HMaster 会定期去清理。

6、 /hbase/.snapshot
hbase若开启了 snapshot 功能之后，对某一个用户表建立一个 snapshot 之后，snapshot 都存储在该目录下，如对表test 做了一个名为sp_test 的snapshot，就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹，snapshot 之后的所有写入都是记录在这个 snapshot 之上。

7、 /hbase/.tmp
当对表做创建或者删除操作的时候，会将表move 到该 tmp 目录下，然后再去做处理操作。

8、 /hbase/hbase.id
它是一个文件，存储集群唯一的 cluster id 号，是一个 uuid。

9、 /hbase/hbase.version
同样也是一个文件，存储集群的版本号，貌似是加密的，看不到，只能通过web-ui 才能正确显示出来

10、 -ROOT-
该表是一张的HBase表，只是它存储的是.META.表的信息。通过HFile文件的解析脚本 hbase org.apache.hadoop.hbase.io.hfile.HFile -e -p -f 可以查看其存储的内容，如下所示：

以上可以看出，-ROOT-表记录的.META.表的所在机器是dchbase2，与web界面看到的一致：

11、 .META.
通过以上表能找到.META.表的信息，该表也是一张hbase表，通过以上命令，解析其中一个region：

以上可以看出，adt_app_channel表的数据记录在dchbase3这台reginserver上，也与界面一致，如果有多个region，则会在表名后面加上rowkey的范围：

通过以上描述，只要找到-ROOT-表的信息，就能根据rowkey找到对应的数据，那-ROOT-在哪里找呢？从本文一开始的图中可以知道，就是在zookeeper中找的。进入zookeeper命令行界面：

可以看出-ROOT-表存储在 dchbase3 机器中，对应界面如下：

以上就是HBase客户端根据指定的rowkey从zookeeper开始找到对应的数据的过程。

那在Region下HBase是如何存储数据的呢？

以下就具体操作一张表，查询对应的HFile文件，看HBase的数据存储过程。

在HBase创建一张表 test7，并插入一些数据，如下命令：

查看wal日志，通过 hbase org.apache.hadoop.hbase.regionserver.wal.HLog --mp -p 命令可以解析HLog文件，内容如下：

查看HFile文件，内容如下：

由此可见，HFile文件就是存储HBase的KV对，其中Key的各个字段包含了的信息如下：

由于hbase把cf和column都存储在HFile中，所以在设计的时候，这两个字段应该尽量短，以减少存储空间。

但删除一条记录的时候，HBase会怎么操作呢？执行以下命令：

删除了rowkey为200的记录，查看hdfs，原来的HFile并没有改变，而是生成了一个新的HFile，内容如下：

所以在HBase中，删除一条记录并不是修改HFile里面的内容，而是写新的文件，待HBase做合并的时候，把这些文件合并成一个HFile，用时间比较新的文件覆盖旧的文件。HBase这样做的根本原因是，HDFS不支持修改文件。

❸ HBase创建，删除，清空数据表

HBase shell窗口进入，执行命令hbase shell

语法：create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}
例如：创建表t1，有两个family name：f1，f2，且版本数前者为3，后者为1

disable表
drop表

❹ 求助，HBASE不能创建表

hbase shell不能创建表的原因分析。

一.现象：

前一段时间安装了Hbase

hbase shell

进去之后 list status 命令都能够正常运行。
但是执行建表语句：
create 'aaa','bbb'

的时候他就一直卡在那不动,也不报任何错误，日志里面一直在刷如下的 debug日志：

DEBUG org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation: Lookep root region location, connection=org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation@23faa614; serverName=
INFO org.apache.hadoop.hbase.master.ServerManager: Waiting on regionserver(s) to checkin

然后我进到 hive里面也是可以执行查看语句但是不能创建表。
状态就是只能读不能写。

二.解决办法：

namenode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例，则系统会一直处于安全模式状态即只读状态。
dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式，否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。

有两个方法离开这种安全模式
（1）修改dfs.safemode.threshold.pct为一个比较小的值，缺省是0.999。
（2）hadoop dfsadmin -safemode leave命令强制离开
用户可以通过dfsadmin -safemode value 来操作安全模式，参数value的说明如下：
1. enter - 进入安全模式
2. leave - 强制NameNode离开安全模式
3. get - 返回安全模式是否开启的信息
4. wait - 等待，一直到安全模式结束。

我采取的办法是强制离开安全模式。
进入hadoop 的bin目录，

执行：

hadoop dfsadmin -safemode leave

然后我分别进入 hive 和 hbase

create 就可以顺利的执行了。

❺ 如何使用java API操作Hbase

一般情况下，我们使用Linux的shell命令，就可以非常轻松的操作Hbase，例如一些建表，建列簇，插值，显示所有表，统计数量等等，但有时为了提高灵活性，我们也需要使用编程语言来操作Hbase，当然Hbase通过Thrift接口提供了对大多数主流编程语言的支持，例如C++,PHP，Python，Ruby等等，那么本篇，散仙给出的例子是基于Java原生的API操作Hbase，相比其他的一些编程语言，使用Java操作Hbase，会更加高效一些，因为Hbase本身就是使用Java语言编写的。转载
下面，散仙给出源码，以供参考:

package com.hbase;

import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;

/**
* @author
*
* **/
public class Test {

static Configuration conf=null;
static{

conf=HBaseConfiguration.create();//hbase的配置信息
conf.set("hbase.zookeeper.quorum", "10.2.143.5"); //zookeeper的地址

}

public static void main(String[] args)throws Exception {

Test t=new Test();
//t.createTable("temp", new String[]{"name","age"});
//t.insertRow("temp", "2", "age", "myage", "100");
// t.getOneDataByRowKey("temp", "2");
t.showAll("temp");

}

/***
* 创建一张表
* 并指定列簇
* */
public void createTable(String tableName,String cols[])throws Exception{
HBaseAdmin admin=new HBaseAdmin(conf);//客户端管理工具类
if(admin.tableExists(tableName)){
System.out.println("此表已经存在.......");
}else{
HTableDescriptor table=new HTableDescriptor(tableName);
for(String c:cols){
HColumnDescriptor col=new HColumnDescriptor(c);//列簇名
table.addFamily(col);//添加到此表中
}

admin.createTable(table);//创建一个表
admin.close();
System.out.println("创建表成功!");
}
}

/**
* 添加数据,
* 建议使用批量添加
* @param tableName 表名
* @param row 行号
* @param columnFamily 列簇
* @param column 列
* @param value 具体的值
*
* **/
public void insertRow(String tableName, String row,
String columnFamily, String column, String value) throws Exception {
HTable table = new HTable(conf, tableName);
Put put = new Put(Bytes.toBytes(row));
// 参数出分别：列族、列、值
put.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column),
Bytes.toBytes(value));

table.put(put);
table.close();//关闭
System.out.println("插入一条数据成功!");
}

/**
* 删除一条数据
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);
Delete d=new Delete(Bytes.toBytes(rowkey));
h.delete(d);//删除一条数据
h.close();
}

/**
* 删除多条数据
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey[])throws Exception{
HTable h=new HTable(conf, tableName);

List<Delete> list=new ArrayList<Delete>();
for(String k:rowkey){
Delete d=new Delete(Bytes.toBytes(k));
list.add(d);
}
h.delete(list);//删除
h.close();//释放资源
}

/**
* 得到一条数据
*
* @param tableName 表名
* @param rowkey 行号
* ***/
public void getOneDataByRowKey(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);

Get g=new Get(Bytes.toBytes(rowkey));
Result r=h.get(g);
for(KeyValue k:r.raw()){

System.out.println("行号: "+Bytes.toStringBinary(k.getRow()));
System.out.println("时间戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
h.close();

}

/**
* 扫描所有数据或特定数据
* @param tableName
* **/
public void showAll(String tableName)throws Exception{

HTable h=new HTable(conf, tableName);

Scan scan=new Scan();
//扫描特定区间
//Scan scan=new Scan(Bytes.toBytes("开始行号"),Bytes.toBytes("结束行号"));
ResultScanner scanner=h.getScanner(scan);
for(Result r:scanner){
System.out.println("==================================");
for(KeyValue k:r.raw()){

System.out.println("行号: "+Bytes.toStringBinary(k.getRow()));
System.out.println("时间戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
}
h.close();

}

}

显示所有数据的打印输出如下：

==================================
行号: 1
时间戳: 1385597699287
列簇: name
列: myname
值:
==================================
行号: 2
时间戳: 1385598393306
列簇: age
列: myage
值: 100
行号: 2
时间戳: 1385597723900
列簇: name
列: myname
值:

❻ HBase调优：预分区与行键设计

基于此我们可以控制在建表的时候，创建多个空region，并确定每个region的起始和终止rowkey，这样只要我们的rowkey设计能均匀的命中各个region，就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长，该split的还是要进行split。像这样预先创建hbase表分区的方式，称之为预分区。

hash(主键) + 年月日时(2019062315)
这里只取hash(主键)的前6位，使得行键的长度正好是16，也就是8的整数倍，在64位计算机中，效果最好。

列族固定，只有一个，设为f，标签为分钟加上秒数：
分秒(5623)
如果需要精确到毫秒，可以为列族f设置有多个版本或者将标签设计为分秒毫秒(5623142)或者分秒.版本号(5623.1)

一个regionserver可以管理的region数量和列族数量与每个列族缓存的大小有关，计算公式如下：

我这里只分了三个region，用hbase shell命令创建表，设置预分区数量为3

下图中，可以看到，预分区以后，数据的读写访问请求数量均匀分布在3台RegionServer上，避免了热点问题。

❼ hbase 数据迁移

hbase snapshot数据迁移问题
不需要提前建表，分区也会自动同步
HBase自身也提供了ExportSnapshot的方法可以从HDFS文件层基于某个快照快速的导出HBase的数据，并不会对RegionServer造成影响，但该源生的方法不支持增量
1、在源集群执行
snapshot 'src_table', 'snapshot_src_table'
snapshot的流程主要有三个步骤
加锁: 加锁对象是regionserver的memstore，目的是禁止在创建snapshot过程中对数据进行insert,update,delete操作
刷盘：刷盘是针对当前还在memstore中的数据刷到HDFS上，保证快照数据相对完整，此步也不是强制的，如果不刷会，快照中数据有不一致风险
创建指针: snapshot过程不拷贝数据，但会创建对HDFS文件的指针，snapshot中存储的就是这些指针元数据

2、在源集群执行，属于推送方式，在目标集群执行数据拉取方式
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snap --from hdfs://HDFS80386/hbase --to hdfs://shyt-hadoop-4031.xx.com.cn:8020/apps/hbase/data -mappers 20 -bandwidth 5

3、在目标集群执行使用hbase用户
disable 'dalishen:bbs_member'
restore_snapshot 'bbs_member_snap'
使用restore命令在目标集群自动新建表，以及与archive里的HFile建立link
执行该步骤的时候，可能会遇到权限问题，需要赋权限
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/archive/data/dalishen/bbs_member//f/.links-":hadoop:hdfs:drwxr-xr-x
源集群
groups hadoop hdfs 可以发现导入的是源集群的权限
所以需要赋权限
hdfs dfs -chmod -R 777 /apps/hbase/data/archive/data/dalishen/bbs_member/
enable 'dalishen:bbs_member'

不需要提前建表，分区也会自动同步，支持增量备份，需要指定要备份的时间范围
Table也是属于HBase数据迁移的工具之一，以表级别进行数据迁移。Table的本质也是利用MapRece进行同步的，与DistCp不同的时，它是利用MR去scan 原表的数据，然后把scan出来的数据写入到目标集群的表。这种方式也有很多局限，如一个表数据量达到T级，同时又在读写的情况下，全量scan表无疑会对集群性能造成影响。
1.3->1.1 高到低版本不需要提前建表，分区也会自动同步
检查是否开启同步
echo "list_replicated_tables" | hbase shell -n |grep dalishen:app_deviceid
没有的话执行
enable_table_replication 'tname'
1.源集群hadoop查询数据量，如太大先别迁移超过5000w
hbase org.apache.hadoop.hbase.maprece.RowCounter 'dalishen:app_deviceid'
2.源集群上执行替换表名
hbase org.apache.hadoop.hbase.maprece.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D maprece.task.timeout=6000000 --families=f:f --peer.adr=10.52.24.42:2181:/hbase-unsecure --new.name=dalishen:app_deviceid dalishen:app_deviceid
3.目标集群上执行数据量对比下
hbase org.apache.hadoop.hbase.maprece.RowCounter 'dalishen:app_deviceid'
4.指定时间戳进行增量同步
hbase org.apache.hadoop.hbase.maprece.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D maprece.task.timeout=6000000 --starttime=1600792683760 --endtime=1600792684760 --families=f:f --peer.adr=172.18.12.7:2181:/hbase --new.name=testwang testwang

在源集群进入hbase shell
1、 add_peer '1', 'shyt-hadoop-4032.xxx.com.cn,shyt-hadoop-4031.xxx.com.cn,shyt-hadoop-4030.xxx.com.cn:2181:/hbase-unsecure'
2、修改REPLICATION_SCOPE属性=1，全局模式，此数据会被复制给所有peer
alter 'testwang',{NAME => 'f' ,REPLICATION_SCOPE => '1'}
3、hbase(main):006:0> enable_table_replication 'testwang'
0 row(s) in 0.0860 seconds
The replication swith of table 'testwang' successfully enabled
验证在源集群 put 'testwang','1005','f:name','1005'
在目标集群 get 'testwang','1005'
校验数据量：通count
hbase org.apache.hadoop.hbase.maprece.RowCounter 'testwang'
查看同步状态： status 'replication'

建议大表先进行snapshot方式同步，然后再利用进行增量数据同步，小表直接 table数据迁移，最后配置hbase replication peer实时同步

❽ hbase输入出现了星号

两个单引号当命令行出现星号的时候使用
hbase shell
进入hbase
ctrl+backspace
退格
ddl
dml
list
help
查看所有命令
create ‘probe_log’,‘info’
创建表，表名+列族名，该名称任意
describe ‘probe_log’
查看表信息表名
create_namespace ‘probe_log’
新建命名空间create
create ‘probe_log:user_event_v2’,‘info’
在命名空间下新建表

❾ Hbase0.9装到Linux7.6不建表

Hbase0.9装到Linux7.6不建表处理。
启动HBase没有问题，但是使用bin，hbaseshell命令转换到shell下时，使用比如命令，list，create，table，col等等都会出错，虽然看到了log文档里面的提示，但是由于是刚开始接触HBase，所以还是不知道如何下手。
还是上网找各种资源，最后看到官方文档上面说，如果系统是Ubuntu的话，要注意/etc/hosts里面的127.0.0.1是否是127.0.1.1，如果是的话，把他改过来就可以了，虽然网上大家的版本各种各样，但是如果真的要学的话，还是官网上面的资料齐全点。

导航:首页 > 程序命令 > hbase建表命令

hbase建表命令

与hbase建表命令相关的资料