日期:2014-05-16  浏览次数:20565 次

财汇数据抽取过程总结

利用开源的ETL工具KETTLE完成数据转换和抽取的工作方法总结

一、安装KETTLE
? 从官网http://nchc.dl.sourceforge.net/project/pentaho/Data%20Integration/2.5.2-stable/Kettle-src-2.5.2.zip下载kettle2.5.2或更高版本(在我的实验中,2.5以上版本都不能正常启动,问题原因不详),解压到任何文件夹下(如d:\kettle\)均可,但最好不要包含中文。在安装路径下找到spoon.bat,双击该文件即可启动kettle,启动过程选择“没有资源库”,进入kettle工作环境。
二、数据转换和抽取

?? 在kettle主界面下,选择文件--》新建,有两个选项供选择。其中transformation(转换)完成数据的转换和抽取,即源数据库里进行数据的输入,可以有多个库输入,对各个输入进行相应的转换处理,最后把结果数据输出到目标数据库中。而job可以调度不同的转换,也就是在一个job中可以运行多个不同的转换。在命令行下运行转换和job分别要用到pan.bat和kitchen.bat两个程序。运行job ---Kitchen.bat? /file:user-transfer-job.kjb(命令必须在kitchen所在目录下执行)
运行转换则用 pan.bat /file:user-transormation.ktr.
??? 对本项目的数据抽取任务而言可以采取这样的方法:
??? 1.对每个要从财会数据库导入的表建立一个转换。
??? 2.建立一个job,包含所有的转换。
??? 3.定时运行这个job。 在控制面板--->任务计划里添加任务计划,选择程序F:\softsetup\Kettle\Kitchen.bat 。完成后在其属性-->任务下运行一栏添加 /file:myjob.kjb。并在计划选项卡下设置定时执行的参数。


?三、在linux环境下使用kettle进行定时数据抽取的方法

首先,安装jre,配置java环境变量
?
(一)?? 下载jre-6u23-linux-x64.bin

下载地址:http://cds-esd.sun.com/ESD6/JSCDL/jdk/6u23-b05/jre-6u23-linux-x64.bin?AuthParam=1292401739_2abc6c61c57eec5b100fe647086d1f33&TicketId=CJ0nhpzNkjGGwpbkW40LAgA%3D&GroupName=CDS&FilePath=/ESD6/JSCDL/jdk/6u23-b05/jre-6u23-linux-x64.bin&File=jre-6u23-linux-x64.bin

(二)?? 安装jre-6u23-linux-x64.bin

????? 将jre-6u23-linux-x64.bin上传到linux服务器

1.???? 在终端上,键入:
su

2.???? 输入超级用户口令。

3.???? 切换到所需的安装目录。类型:
cd <目录路径名>
例如,要在 /usr/java/ 目录中安装软件,请键入:
cd /usr/java/

关于超级用户访问权限的说明:要将 JRE 安装在系统级位置(例如 /usr/local),必须以超级用户身份登录,从而获得必要的权限。如果您不具有超级用户访问权限,请将 JRE 安装在您的主目录中,或者安装在您具有写入权限的子目录中。

4.???? 将您下载的文件的权限更改为可执行。类型:
chmod a+x jre-6u23-linux-x64.bin

5.????? 启动安装过程。键入:
./ jre-6u23-linux-x64.bin

此时将显示二进制许可协议。通读许可协议。按空格键显示下一页。读完许可协议后,输入 yes 继续安装(此步骤可能直接跳过)。

7.???? JRE 安装在其自身的目录中。在本例中,它将安装在 /usr/java/ jre1.6.0_23目录中。当安装完成时,您将看到 Done(完成)字样。

?

?(三)?? 配置java环境变量

1.???? 命令行键入“cd /etc”进入etc目录

2.???? 命令行键入“vi profile”打开profile文件

3.???? 敲击键盘ctrl+F到文件末尾


4.???? 在末尾处,即第一个~的地方,敲击键盘将以下内容输入到文件


JAVA_HOME=/usr/java/jre1.6.0_23

PATH=$JAVA_HOME/bin:$PATH

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME

export PATH

export CLASSPATH

???? 5.???? 键盘敲击exc,命令行键入“:wq”,保存文件;

???? 6.???? 重新登录linux,在命令行键入“java”,如果出现帮助信息则表示配置成功。


然后,部署kettle

?????? 1.???????? 将pdi-ce-4.1.0-stable.zip上传到linux服务器

2.???????? 使用unzip命令解压pdi-ce-4.1.0-stable.zip
unzip pdi-ce-4.1.0-stable.zip -d "/mnt/kettle"

3.???????? 赋予解压目录下.sh文件的执行权力

chmod +x *.sh

4.???????? 进入解压目录,键入“./kitchen.sh”回车,如果有帮助信息则表示kettle环境部署成功


※(重点)接着,编写执行kettle任务的shell脚本

创建test.sh,将以下内容复制粘贴到里面,然后键入“chmod +x /mnt/kettle/*.sh”,赋予test.sh执行权限。

export JAVA_HOME=/usr/java/jre1.6.0_23
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
/mnt/kettle/data-integration/kitchen.sh -file=/mnt/kettle/test.kjb > /mnt/kettle/display.txt

说明:
前3行,设置java环境变量的语句必不可少,
因为crond是个守护进程,它不归属于任何用户,虽然之前以root身份配置了java的环境变量,但是crond一样找不到java命令,
所以,当crond执行kettle任务时,需要动态设置java环境变量,crond才能找到java命令。


最后,使用crontab命令添加定时任务

?????? 1.在终端上,键入“crontab -e”,进入定时任务文件
?????? 2.键入“a”,对文件进行编辑
????????? 输入如下内容:? 23 11 10 02 * /mnt/kettle/test.sh??????? 其中 23为分钟,11为小时,10为日,02为月,*为星期几,crontab命令的使用这里不再赘述。
?????? 3.键盘敲击exc,终端键入“:wq”,保存文件
?????? 4.重启crond服务
????????? 键入“cd /etc/init.d”,进入该目录
????????? 键入“./crond restart”,重启crond服务
????? 5.等待执行结果
????? 6.执行成功,oh..nice!


???