`

在Kettle(PDI)跑Apache Spark作业

 
阅读更多

原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156

 

hadoop上要跑Apache Spark作业

使用的ETL工具是Kettle(PDI)

 

目前能够执行像mapreduce一样执行作业,插件以及demo在附近中

将附件解压

 

使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际应用中,Hive的使用范围比较广,需要将Hive基于Mapreduce的运算引擎切换为Apache Spark,在Apache Spark安装好后,执行如下命令,启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050

使用Hive Driver JDBC连接SparkSQL和查询数据

 

  • 大小: 94.2 KB
  • 大小: 18 KB
分享到:
评论
1 楼 centhia 2015-11-06  
您好,我想请问一下你的日志是怎么显示出来的?是这样的,我之前是在Kettle上跑mapreduce程序,集成后也能像你截图中那样,有运行过程(logging)输出,但是集成spark就没有,我查看过kettle包,里面有haoop包,没有spark包,所以我想问一下你是怎么集成spark到kettle的,谢谢~~

相关推荐

Global site tag (gtag.js) - Google Analytics