由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 问个docker做pipeline的基础问题
相关主题
为什么对go这么恋恋不舍docker is next big deal
Docker 1.0发布了docker的确是game changer
搞docker的别忘了lxc/lxddocker一上台面宣传瞬间被揭出安全漏洞
问题流的架构/设计问题是不是Docker会替代类似Heroku 这种?
ask for help about AMD clusterVagrant v.s. Docker
大牛们说说为什么我那么钟意node?docker的致命缺陷
Docker这种东西 真心不看好 门槛太低,哪个公司都能搞Weaving A Network Layer Into Docker
vagrant很不错Docker
相关话题的讨论汇总
话题: pipeline话题: docker话题: image话题: cwl话题: 组件
进入Programming版参与讨论
1 (共1页)
n******7
发帖数: 12463
1
想dockerize手上的一些pipeline
保证结果的可重复性,以及pipeline的可移植性
对docker的使用经验仅限于tutorial
感觉有几个思路可以做这个事情,但是不知道那个好
1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
些胶水python code
这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
2.把每个pipeline做出一个image
这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
个image
3. 类似方案1,把每个组件做成image,然后对每个pipeline,在把各个组件的image和
胶水code一起做成一个新的image
这个完美了,但是不知道这种image套image能搞不?
一般大家是怎么做的呢?
n******7
发帖数: 12463
2
研究了一下,好像应该用docker compose来做这个
https://docs.docker.com/compose/
s******s
发帖数: 13035
3
当然是1. 不过中间不用python,你需要的是workflow language.
去查cwl 和 wdl

【在 n******7 的大作中提到】
: 想dockerize手上的一些pipeline
: 保证结果的可重复性,以及pipeline的可移植性
: 对docker的使用经验仅限于tutorial
: 感觉有几个思路可以做这个事情,但是不知道那个好
: 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
: 些胶水python code
: 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
: 2.把每个pipeline做出一个image
: 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
: 个image

A*****n
发帖数: 243
4
Bioinformatics的一些workflow应该是用选项1作的,用所谓的Common Workflow
Language把每一步串起来,重要的是定义好每一步的input/output。如果只是可重复性
的话,描述pipeline的json或者yaml文件就够用了。

【在 n******7 的大作中提到】
: 想dockerize手上的一些pipeline
: 保证结果的可重复性,以及pipeline的可移植性
: 对docker的使用经验仅限于tutorial
: 感觉有几个思路可以做这个事情,但是不知道那个好
: 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
: 些胶水python code
: 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
: 2.把每个pipeline做出一个image
: 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
: 个image

n******7
发帖数: 12463
5
谢谢楼上两位
CWL以前看framework的review paper的时候看过
我个人比较讨厌没有必要的复杂性,所以没有仔细看
特别是之前用GO的时候碰过名字类似的OWL
感觉完全是一帮人闲得蛋疼弄的
除了增加了一些工作岗位,没有任何实际意义
不过看了下“CWL builds on technologies such as JSON-LD for data modeling and
Docker for portable runtime environments.”
还是好好看看
谢谢!
b****b
发帖数: 656
6
如果讨厌CWL的复杂,可以看看Script of Scripts ( http://vatlab.github.io/SOS/ ),用Python,支持Docker,remote execution。唯一的问题是还在beta。
SoS 的最大优点是提供一个从交互分析到批量执行都可以使用的平台,script的可读性
非常强,适合于需要经常修改的bioinformatics pipeline。Docker方面用起来也很简
单,具体就是有什么script,本地可以run,加上 docker_image=name 的option就可以
在docker中执行。我推荐你用SoS写pipeline,根据需要把其中几步放docker中去执行(
诸如说tophat,用python2,不用docker装起来很麻烦)。以后需要在cluster上run了,
只需要几个小的改动就可以了。
入门可以看看 http://vatlab.github.io/SOS/doc/presentations/SoS_BCB_Jan23_2017/index.html , 不过哪个讲的简单,没有提docker。

and

【在 n******7 的大作中提到】
: 谢谢楼上两位
: CWL以前看framework的review paper的时候看过
: 我个人比较讨厌没有必要的复杂性,所以没有仔细看
: 特别是之前用GO的时候碰过名字类似的OWL
: 感觉完全是一帮人闲得蛋疼弄的
: 除了增加了一些工作岗位,没有任何实际意义
: 不过看了下“CWL builds on technologies such as JSON-LD for data modeling and
: Docker for portable runtime environments.”
: 还是好好看看
: 谢谢!

N*****m
发帖数: 42603
7
用airbnb的airflow吧,算是功能比较全的

【在 n******7 的大作中提到】
: 想dockerize手上的一些pipeline
: 保证结果的可重复性,以及pipeline的可移植性
: 对docker的使用经验仅限于tutorial
: 感觉有几个思路可以做这个事情,但是不知道那个好
: 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
: 些胶水python code
: 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
: 2.把每个pipeline做出一个image
: 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
: 个image

n******7
发帖数: 12463
8
谢谢
我喜欢简单直接的东西

行(

【在 b****b 的大作中提到】
: 如果讨厌CWL的复杂,可以看看Script of Scripts ( http://vatlab.github.io/SOS/ ),用Python,支持Docker,remote execution。唯一的问题是还在beta。
: SoS 的最大优点是提供一个从交互分析到批量执行都可以使用的平台,script的可读性
: 非常强,适合于需要经常修改的bioinformatics pipeline。Docker方面用起来也很简
: 单,具体就是有什么script,本地可以run,加上 docker_image=name 的option就可以
: 在docker中执行。我推荐你用SoS写pipeline,根据需要把其中几步放docker中去执行(
: 诸如说tophat,用python2,不用docker装起来很麻烦)。以后需要在cluster上run了,
: 只需要几个小的改动就可以了。
: 入门可以看看 http://vatlab.github.io/SOS/doc/presentations/SoS_BCB_Jan23_2017/index.html , 不过哪个讲的简单,没有提docker。
:
: and

s******s
发帖数: 13035
9
btw, 你做什么pipeline呀?NGS?

【在 n******7 的大作中提到】
: 想dockerize手上的一些pipeline
: 保证结果的可重复性,以及pipeline的可移植性
: 对docker的使用经验仅限于tutorial
: 感觉有几个思路可以做这个事情,但是不知道那个好
: 1. 把这些pipeline里面用的工具做成image,然后每个pipeline就是一些image加上一
: 些胶水python code
: 这个最直接,但是还是有一些不是dockerize的code,似乎有些不纯
: 2.把每个pipeline做出一个image
: 这样最纯粹,但是缺乏灵活性,各个组件复用等于0,对pipeline做点改动就要再建一
: 个image

s******s
发帖数: 13035
10
Auction也是做生物信息的么?biology版没见过呀

【在 A*****n 的大作中提到】
: Bioinformatics的一些workflow应该是用选项1作的,用所谓的Common Workflow
: Language把每一步串起来,重要的是定义好每一步的input/output。如果只是可重复性
: 的话,描述pipeline的json或者yaml文件就够用了。

相关主题
大牛们说说为什么我那么钟意node?docker is next big deal
Docker这种东西 真心不看好 门槛太低,哪个公司都能搞docker的确是game changer
vagrant很不错docker一上台面宣传瞬间被揭出安全漏洞
进入Programming版参与讨论
n******7
发帖数: 12463
11
对,各种NGS

【在 s******s 的大作中提到】
: btw, 你做什么pipeline呀?NGS?
A*****n
发帖数: 243
12
是啊,大部分时间潜水中。这一段时间因为在考察Seven Bridge那一套东西,所以一直
在看Docker和CWL。

【在 s******s 的大作中提到】
: Auction也是做生物信息的么?biology版没见过呀
s******s
发帖数: 13035
13
楼上两位,有兴趣为治疗癌症奋斗终生么?!!!!
哈哈,其实我想说的是,Genomic Data Commons缺人,地方在芝加哥。

【在 A*****n 的大作中提到】
: 是啊,大部分时间潜水中。这一段时间因为在考察Seven Bridge那一套东西,所以一直
: 在看Docker和CWL。

n******7
发帖数: 12463
14
癌症是很有兴趣
我以前组的癌症研究方向就是我建议的
现在那个组里面都在做癌症了
我的当时做癌症诊断的文章也快publish了
不过non-profit的工资也就那样
你们那里估计跟我现在拿的差不多
最近被清洁工工资刺激了
我考虑不玩了

【在 s******s 的大作中提到】
: 楼上两位,有兴趣为治疗癌症奋斗终生么?!!!!
: 哈哈,其实我想说的是,Genomic Data Commons缺人,地方在芝加哥。

s******s
发帖数: 13035
15
加州清洁工肯定是追不上了
准备改行清洁工了?哈哈

【在 n******7 的大作中提到】
: 癌症是很有兴趣
: 我以前组的癌症研究方向就是我建议的
: 现在那个组里面都在做癌症了
: 我的当时做癌症诊断的文章也快publish了
: 不过non-profit的工资也就那样
: 你们那里估计跟我现在拿的差不多
: 最近被清洁工工资刺激了
: 我考虑不玩了

n******7
发帖数: 12463
16
现在改已经晚了十几年 哈哈

【在 s******s 的大作中提到】
: 加州清洁工肯定是追不上了
: 准备改行清洁工了?哈哈

1 (共1页)
进入Programming版参与讨论
相关主题
Dockerask for help about AMD cluster
Vagrant, Docker, 这些主要用处和区别是什么大牛们说说为什么我那么钟意node?
docker的newbie 问题Docker这种东西 真心不看好 门槛太低,哪个公司都能搞
HN 上关于 Docker 的讨论vagrant很不错
为什么对go这么恋恋不舍docker is next big deal
Docker 1.0发布了docker的确是game changer
搞docker的别忘了lxc/lxddocker一上台面宣传瞬间被揭出安全漏洞
问题流的架构/设计问题是不是Docker会替代类似Heroku 这种?
相关话题的讨论汇总
话题: pipeline话题: docker话题: image话题: cwl话题: 组件