㈠ linux上使用crond定时执行kettle的job怎么解决
linux上使用crond定时执行kettle的job的解决方法:
一、部署kettle
1. 将pdi-ce-4.1.0-stable.zip上传到Linux服务器。
2. 使用unzip命令解压pdi-ce-4.1.0-stable.zip
unzip pdi-ce-4.1.0-stable.zip -d "/mnt/kettle"
3. 赋予解压目录下.sh文件的执行权力chmod +x *.sh
4.进入解压目录,键入“./kitchen.sh”回车,如果有帮助信息则表示kettle环境部署成功。
二、接着,编写执行kettle任务的shell脚本
创建test.sh,将以下内容复制粘贴到里面,然后入“chmod+x/mnt/kettle/*.sh”,赋予test.sh执行权限。
exportjava_HOME=/usr/java/jre1.6.0_23
exportPATH=$JAVA_HOME/bin:$PATH
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
/mnt/kettle/data-integration/kitchen.sh-file=/mnt/kettle/test.kjb>/mnt/kettle/display.txt
说明:
前3行,设置Java环境变量的语句必不可少,因为crond是个守护进程,它不归属于任何用户,虽然之前以root身份配置了java的环境变量,但是crond一样找不到java命令,所以,当crond执行kettle任务时,需要动态设置java环境变量,crond才能找到java命令。
三、最后,使用crontab命令添加定时任务
1.在终端上,键入“crontab -e”,进入定时任务文件。
2.键入“a”,对文件进行编辑。
输入如下内容: 23111002*/mnt/kettle/test.sh
其中 23为分钟,11为小时,10为日,02为月,*为星期几,crontab命令的使用这里不再赘述。
3.键盘敲击exc,终端键入“:wq”,保存文件。
4.重启crond服务。
键入“cd /etc/init.d”,进入该目录。
键入“./crond restart”,重启crond服务。
5.等待执行结果。
6.执行成功,oh..nice!
㈡ kettlelinux
如何设置kettle开机自启,能在开机的时候执行定时任务?
就是后台要有这个进程才可以,如果是通过界面执行的话,要点击那个绿色的三角,如果是命令行启动,后台要有这个进程。不推荐使用kettle里面的自动执行,使用操作系统的定时执行要比这个稳定的多。windows下使用定时任务计划,linux下使用crontab
kettle是个什么程序?
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。
kettle不是开源软件对吗?
不对,kettle是开源软件。
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
常用的etl工具有哪些?
1、DataPipelineDataPipeline隶属于北京数见科技有限公司,是一家企业级批流一体数据融合服务商和解决方案提供商,国内实时数据管道技术的倡导者。通过平台和技术为企业客户解决数据准备过程中的各种痛点,帮助客户更敏捷、更高效、更简单地实现复杂异构数据源到目的地的实时数据融合和数据管理等综合服务。从而打破传统ETL给客户灵活数据应用带来的束缚,让数据准备过程不再成为数据消费的瓶颈。
2、KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
3、TalendTalend是数据集成解决方案领域的领袖企业,为公共云和私有云以及本地环境提供一体化的数据集成平台。Talend的使命是致力于帮助客户优化数据,提高数据可靠性,把企业数据更快地转化为商业价值。以此为使命,Talend的解决方案将数据从传统基础架构中解放出来,提高客户在业务中的洞察力,让客户更早实现业务价值。
4、InformaticaInformatica是全球领先的数据管理软件提供商。在如下Gartner魔力象限位于领导者地位:数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务(EiPaaS)魔力象限。
5、DataStageIBM?InfoSphere?InformationServer是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphereInformationServer提供了一个统一的平台,使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。IBM?InfoSphere?DataStage?andQualityStage?提供了图形框架,您可使用该框架来设计和运行用于变换和清理、加载数据的作业。
开源的etl工具排行?
1、DataPipelineDataPipeline隶属于北京数见科技有限公司,是一家企业级批流一体数据融合服务商和解决方案提供商,国内实时数据管道技术的倡导者。通过平台和技术为企业客户解决数据准备过程中的各种痛点,帮助客户更敏捷、更高效、更简单地实现复杂异构数据源到目的地的实时数据融合和数据管理等综合服务。从而打破传统ETL给客户灵活数据应用带来的束缚,让数据准备过程不再成为数据消费的瓶颈。
2、KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
3、TalendTalend是数据集成解决方案领域的领袖企业,为公共云和私有云以及本地环境提供一体化的数据集成平台。Talend的使命是致力于帮助客户优化数据,提高数据可靠性,把企业数据更快地转化为商业价值。以此为使命,Talend的解决方案将数据从传统基础架构中解放出来,提高客户在业务中的洞察力,让客户更早实现业务价值。
4、InformaticaInformatica是全球领先的数据管理软件提供商。在如下Gartner魔力象限位于领导者地位:数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务(EiPaaS)魔力象限。
5、DataStageIBM?InfoSphere?InformationServer是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphereInformationServer提供了一个统一的平台,使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。IBM?InfoSphere?DataStage?andQualityStage?提供了图形框架,您可使用该框架来设计和运行用于变换和清理、加载数据的作业。
㈢ linux下怎样安装使用kettle
安装JDK环境:根据自己的linux系统选择相应的版本,比如我的centos7是x64的,所以我选择jdk-8u74-linux-x64.tar.gz下载
下载下来以后,我们将其移到我们创建的一个目录中,存放tar包的目录为/usr/local/src/jdk,然后解压:
tar -zxf /usr/local/src/jdk/jdk-7u65-linux-x64.tar.gz
编辑 vi /etc/profile 文件
在文件后面添加:
export JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_74
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:$CLASSPATH:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
执行 . /etc/profile
配置成功后,关闭终端,重新进入,输入java –version 如果出现版本号什么的,就证明jdk安装成功
1. 将data-integration文件夹直接拷贝到/usr/local/kettle文件夹下面
cd /usr/local/kettle/data-integration 进入该目录
为所有.sh文件赋予执行权限
chmod +x *.sh
然后在终端键入./kitchen.sh 如果出现帮助信息,说明kettle安装成功
./kitchen.sh -----运行job
./span.sh -----运行转换
1. 在kettle下建立data 文件夹,用来存放转换和job文件
建立ktllog 文件夹,用来存放日志文件
建立ktlsh 文件夹,用来存放脚本文件
1. 在ktlsh文件夹中新建执行job的文件,
新建文件命令: touch xxx.sh
并赋予文件执行权限
chmod +x xxx.sh
编辑xxx.sh文件
Vi xxx.sh
输入 :
#!/bin/sh
source /etc/profile 配置环境变量(使用crontab时候,由于crontab不识别系统的环境变量,所以需要我们这边再配置一遍)
ROOT_TOPDIR=/usr/local/kettle
Export ROOT_TOPDIR --设置kettle目录
$ROOT_TOPDIR/data-integration/kitchen.sh –file=需要执行的job的文件(绝对路径)
保存!
可在ktlsh目录下直接执行./xxx.sh 文件运行
1. 配置crontab 定期执行作业或者转换
基本格式 :
*****command
分时日月周命令
第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令
在crontab中配置自动每天12点30分执行xxx.sh文件
编辑crontab : crontab –e
增加一行
30 12 * * * /usr/loca/kettle/ktlsh/xxx.sh
如果要输出日志可
30 12 * * * /usr/loca/kettle/ktlsh/xxx.sh >> /usr/local/kettle/ktllog/log01
如果ktllog下面不存在log01文件会自动创建
配置完后重启crontab服务:
Service crond restart
查看crontab服务
Service crond status
查看crontab中的内容
Crontab –1
㈣ linux 系统怎么布曙kettle
一直以来服务器是linux系统,但是感觉linux图形化不强,于是从接触kettle以来都是在windows系统操作ETL的设计和处理。现在需要在linux中查看一下kettle资源库是否连接正常,以及在linux上调度kettle的job,就需要在Linux上配置kettle环境了。
登陆-linux-(切换到kettle部署的用户下面)