其他行业

展开

PiFlow(大数据流水线系统) v0.9官方版

大小:302M语言:英文 类别:其他行业系统:WinAll
简介|教程|评论(0)
软件性质:免费软件时间:2024-09-03 14:19:57

标签: PiFlow(大数据流水线系统)

软件介绍

PiFlow是一个简单易用,功能强大的大数据流水线系统,混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能!

软件特色

  简单易用

  可视化配置流水线

  监控流水线

  查看流水线日志

  检查点功能

  扩展性强:

  支持自定义开发数据处理组件

  性能优越:

  基于分布式计算引擎Spark开发

  功能强大:

  提供100+的数据处理组件

  包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等

  集成了微生物领域的相关算法

使用方法

  解压piflow-server-v0.9.tar.gz:

  tar -zxvf piflow-server-v0.9.tar.gz

  编辑配置文件config.properties

  运行、停止、重启PiFlow Server

  start.sh、stop.sh、 restart.sh、 status.sh

  测试 PiFlow Server

  设置环境变量 PIFLOW_HOME

  vim /etc/profile

  export PIFLOW_HOME=/yourPiflowPath/bin

  export PATH=PATH:PIFLOW_HOME/bin

  运行如下命令

  piflow flow start example/mockDataFlow.json

  piflow flow stop appID

  piflow flow info appID

  piflow flow log appID

  piflow flowGroup start example/mockDataGroup.json

  piflow flowGroup stop groupId

  piflow flowGroup info groupId

  如何配置config.properties

  #spark and yarn config

  spark.master=yarn

  spark.deploy.mode=cluster

  #hdfs default file system

  fs.defaultFS=hdfs://10.0.86.191:9000

  #yarn resourcemanager.hostname

  yarn.resourcemanager.hostname=10.0.86.191

  #if you want to use hive, set hive metastore uris

  #hive.metastore.uris=thrift://10.0.88.71:9083

  #show data in log, set 0 if you do not want to show data in logs

  data.show=10

  #server port

  server.port=8002

  #h2db port

  h2.port=50002

加载全部内容

热门推荐
推荐教程
猜你喜欢
相关合集
用户评论
本类排行