由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请问搭建一个类似IBM I2或者palantir的分析平台需要多少人?
相关主题
想山寨palantir了求建议:用什么软件开发好? (转载)
数据可视化有什么好的创业机会么我来讲几句
如何生成C++/Java类层次视图?建议大家介绍自己日常的编程任务,工具,如何选择
windows 7 file chooser 的问题请推荐一个subversion的stats工具
Linux下Qt开发有什么免费可视化工具?基于地图的visualization
有什么可视化的debug工具么做技术的,能为人民安全提供什么服务,切实的有用的作用么?
学习VC++求教Xmind这个Java做的软件,十来个人,年利润一百万刀
怎么学习python周永康关系图数据可视化
相关话题的讨论汇总
话题: br话题: 可视化话题: 算法话题: 数据话题: 网页
进入Programming版参与讨论
1 (共1页)
r********3
发帖数: 694
1
现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
那样的企业级别大数据可视化分析平台.
主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
他们想要个轻量级的平台主要服务于内部,整合和分析数据
对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
现在数据和数据库之类的底层都是ready的
我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
后台
文本处理分析,NLP,text mining 1人
machine learning, data mining (graph, multi-dimensional) 1人
后台架构,编程 2人
数据库处理, streaming engine 1人
前台
应用架构及网页编程 1-2人
分析应用1人(我)
UI UX设计 1人
希望有经验的人给点建议,谢谢!
x***4
发帖数: 1815
2
老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

g****t
发帖数: 31659
3
这个取决于目标客户是谁。要求有多高。
楼主的安排不一定不合理。


: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。

: data



【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

w***g
发帖数: 5958
4
技术上来说几百人都是打酱油的。

【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

r********3
发帖数: 694
5
我没说清楚,
他们想要个轻量级的平台
主要服务于内部,整合和分析数据
对外的客户端有专门的另一批人做
他们的产品是基于我们的分析结果

【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

r********3
发帖数: 694
6
我之前加入过一个做cloud-based BI的初创团队
大概就是7,8个人
产品release时大概就是这些人做的
现在算上sales, marketing这些已经有40多个人了

【在 w***g 的大作中提到】
: 技术上来说几百人都是打酱油的。
g****t
发帖数: 31659
7
如果是内部工具。
理论上来讲1,2个人就可以了。
内部用不需要网页视图。避免了麻烦的网页架构。
算法和数据分析做的好的,没有人不懂数据可视化的,
但不一定走网页。做算法的人自己做图就完事了。
比较麻烦的是streaming data.
懂recursive 算法处理的人很少。多数ML都是batch处理。


: 我没说清楚,

: 他们想要个轻量级的平台

: 主要服务于内部,整合和分析数据

: 对外的客户端有专门的另一批人做

: 他们的产品是基于我们的分析结果



【在 r********3 的大作中提到】
: 我之前加入过一个做cloud-based BI的初创团队
: 大概就是7,8个人
: 产品release时大概就是这些人做的
: 现在算上sales, marketing这些已经有40多个人了

g****t
发帖数: 31659
8
他这个是内部工具。我看1,2人就可以了。
只是处理数据,输入输出相对来说是规范的。
用户也不可能很多。
不要弄成12306买火车票的结构就好。


: 我之前加入过一个做cloud-based BI的初创团队

: 大概就是7,8个人

: 产品release时大概就是这些人做的

: 现在算上sales, marketing这些已经有40多个人了



【在 r********3 的大作中提到】
: 我之前加入过一个做cloud-based BI的初创团队
: 大概就是7,8个人
: 产品release时大概就是这些人做的
: 现在算上sales, marketing这些已经有40多个人了

r********3
发帖数: 694
9
"内部用不需要网页视图。避免了麻烦的网页架构"
内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
再好的算法也有误差.有效的可视化工具是必不可少的.
"算法和数据分析做的好的,没有人不懂数据可视化的,"
我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
但作算法的牛人,我还真没见过会做可视化的
我这里说的可视化不是简单的bar chart, pie chart
要highliy interactive的,而且整合graph, geospatial, temporal和 text
visualization,
而且要把这些可视化部件整合在单独视图,而且要scalable, zoomable, context-aware
, streaming,这些在可视化领域都是open problems,
总不能让analyst用几个pie chart, line chart从几亿数据里面找恐怖分子吧...

【在 g****t 的大作中提到】
: 如果是内部工具。
: 理论上来讲1,2个人就可以了。
: 内部用不需要网页视图。避免了麻烦的网页架构。
: 算法和数据分析做的好的,没有人不懂数据可视化的,
: 但不一定走网页。做算法的人自己做图就完事了。
: 比较麻烦的是streaming data.
: 懂recursive 算法处理的人很少。多数ML都是batch处理。
:
:
: 我没说清楚,
:
: 他们想要个轻量级的平台

g****t
发帖数: 31659
10
My two cents:
1.
可视化工具不止网页一种。
Excel也是可视化工具,而且还是没有网页视图可比的工具。
Tableau, MS BI等就更多了。
2.
算法要找会开发算法的人。不要找只会实现或者抄已经有的算法的人。
做一个新算法,数据不知要看多少遍,不知要画多少各种
图。能自己开发ML算法的人,不会画图是不可能的,没有自己的画图tool chain也是很
难的。
现有的算法Streaming data的算法很少,懂的人更少,good luck


: "内部用不需要网页视图。避免了麻烦的网页架构"

: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算
法辅助(
走的

: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依
赖智能
算法,

: 再好的算法也有误差.有效的可视化工具是必不可少的.

: "算法和数据分析做的好的,没有人不懂数据可视化的,"

: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...

: 作算法的牛人,我还真没见过会做可视化的

: 我这里说的可视化不是简单的bar chart, pie chart

: 要highliy interactive的,而且整合graph, geospatial, temporal和
text

: visualization,



【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

相关主题
有什么可视化的debug工具么求建议:用什么软件开发好? (转载)
学习VC++求教我来讲几句
怎么学习python建议大家介绍自己日常的编程任务,工具,如何选择
进入Programming版参与讨论
g****t
发帖数: 31659
11
你说的那些特性,在网页里是很难的。
在桌面是简单的,20年前Delphi 就可以做地理信息系统了。
时至今日,Lazarus free
pascal还有屌丝继续这么干呢。vb 6也有一批。


: "内部用不需要网页视图。避免了麻烦的网页架构"

: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算
法辅助(
走的

: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依
赖智能
算法,

: 再好的算法也有误差.有效的可视化工具是必不可少的.

: "算法和数据分析做的好的,没有人不懂数据可视化的,"

: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...

: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...

: 但作算法的牛人,我还真没见过会做可视化的

: 我这里说的可视化不是简单的bar chart, pie chart

: 要highliy interactive的,而且整合graph, geospatial, temporal和
text



【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

r********3
发帖数: 694
12
算法肯定能自己开发的最好
不过国内企业界不知道有多少有这种实力的人

【在 g****t 的大作中提到】
: My two cents:
: 1.
: 可视化工具不止网页一种。
: Excel也是可视化工具,而且还是没有网页视图可比的工具。
: Tableau, MS BI等就更多了。
: 2.
: 算法要找会开发算法的人。不要找只会实现或者抄已经有的算法的人。
: 做一个新算法,数据不知要看多少遍,不知要画多少各种
: 图。能自己开发ML算法的人,不会画图是不可能的,没有自己的画图tool chain也是很
: 难的。

w**z
发帖数: 8232
13
直接外包给 wdong

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

r********3
发帖数: 694
14
这个不可能
数据高度机密
fake data不现实

【在 w**z 的大作中提到】
: 直接外包给 wdong
:
: data

r********3
发帖数: 694
15
这个不可能
数据高度机密
fake data不现实

【在 w**z 的大作中提到】
: 直接外包给 wdong
:
: data

x***4
发帖数: 1815
16
我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多中高水
平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。

【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

w***g
发帖数: 5958
17
guvest太有情怀。
我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方法走网页。
别的呈现技术相比之下都是小众,找轮子,找人,出了问题在stackoverflow上找
解决方案都不方便。
你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确实不合适。
初创team也不适合搞新算法。

【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

g****t
发帖数: 31659
18
你说的网页的人容易找,这条是对的。但我说的不是情怀,是实际例子。我们半导体公
司内部有很多可视化tool,外部也有给客户用的tool chain. 硬件不少附送光盘的那种
tool也有很多。
凡我提要求给tool组烙印做的tool,他们总要做网页,然后把公司IT的人拉过来,一个
小项目要找十几个人。我经常灭他们。
我就让他们vb,c#,有时候数据交换让他们email 自动化,数据库我都不走。找个
contract几天搞定。一旦走网页还要分用户权限,内部防火墙扯皮,浏览器兼容,数不
清的麻烦事。
另外从技术上来说,之前我在本版问过,一个网页显示7万个点可以互动的time series
都有难度,不是短时间能搞定的。
Local tool资源足,写程序容易。另外我之前问过AA Dallas做线性规划算法的人。他
们的tool 也不是网页。稍微复杂点的可视化他说网页很难搞定。
楼主的需求说了不少buzz words,要互动,地理信息,还要对数据的内容自动改图的显示
方法,如果走
网页太难了。


: guvest太有情怀。

: 我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方
法走网
页。

: 别的呈现技术相比之下都是小众,找轮子,找人,出了问题在
stackoverflow上找

: 解决方案都不方便。

: 你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确
实不合
适。

: 初创team也不适合搞新算法。



【在 w***g 的大作中提到】
: guvest太有情怀。
: 我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方法走网页。
: 别的呈现技术相比之下都是小众,找轮子,找人,出了问题在stackoverflow上找
: 解决方案都不方便。
: 你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确实不合适。
: 初创team也不适合搞新算法。

g****t
发帖数: 31659
19
他这段话buzz words太多。比zillow之类的网站不差了。走网页的话,没上百人我看搞
不定。


: 我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多
中高水

: 平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。



【在 x***4 的大作中提到】
: 我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多中高水
: 平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。

l******n
发帖数: 9344
20
你这个计划是mission impossible,严重低估这个平台的难度。

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

相关主题
请推荐一个subversion的stats工具Xmind这个Java做的软件,十来个人,年利润一百万刀
基于地图的visualization周永康关系图数据可视化
做技术的,能为人民安全提供什么服务,切实的有用的作用么?好东西传送门周报汇总 2015-03-08
进入Programming版参与讨论
w**z
发帖数: 8232
21
用 tabulea 不行?还得自己搞?

series

【在 g****t 的大作中提到】
: 你说的网页的人容易找,这条是对的。但我说的不是情怀,是实际例子。我们半导体公
: 司内部有很多可视化tool,外部也有给客户用的tool chain. 硬件不少附送光盘的那种
: tool也有很多。
: 凡我提要求给tool组烙印做的tool,他们总要做网页,然后把公司IT的人拉过来,一个
: 小项目要找十几个人。我经常灭他们。
: 我就让他们vb,c#,有时候数据交换让他们email 自动化,数据库我都不走。找个
: contract几天搞定。一旦走网页还要分用户权限,内部防火墙扯皮,浏览器兼容,数不
: 清的麻烦事。
: 另外从技术上来说,之前我在本版问过,一个网页显示7万个点可以互动的time series
: 都有难度,不是短时间能搞定的。

g**********l
发帖数: 214
22
second this.
what is the downside using tableau for this task? (thinking about doing the
same thing myself)
they should have plenty of money to buy tableau license (or subscription)

【在 w**z 的大作中提到】
: 用 tabulea 不行?还得自己搞?
:
: series

g****t
发帖数: 31659
23
Tableau 可以get thing done.从最早的spotfire我们都有用。还可以调用接口。但是
这个问题和MS的一样。


: second this.

: what is the downside using tableau for this task? (thinking
about
doing the

: same thing myself)

: they should have plenty of money to buy tableau license (or
subscription)



【在 g**********l 的大作中提到】
: second this.
: what is the downside using tableau for this task? (thinking about doing the
: same thing myself)
: they should have plenty of money to buy tableau license (or subscription)

w*****6
发帖数: 1333
24
tableau只是做传统bi的吧。
让去做反恐,反诈骗,分析几T的文本数据,有用tableau做的么?

the

【在 g**********l 的大作中提到】
: second this.
: what is the downside using tableau for this task? (thinking about doing the
: same thing myself)
: they should have plenty of money to buy tableau license (or subscription)

g**********l
发帖数: 214
25
这可能要看case by case, requirement 吧
没有人说用要用tableau as backend.
个人对高大上的数据可视化不懂
反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?
分析几T的文本数据,真的store all in memory and interact several TB of data
in real-time ?
觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce the data to
*only* that is relevant to the specific business decision needed, then it is
a lot easier and more tools will be able to handle it.
如果杀鸡杀猪,不需要屠龙刀吧
(觉得一般internal team always likes to ask more. would it be nice if they
have everything that they want? of course. do they really need everything
that they ask for their case? often not.)
不过楼主好像要建一个 general purpose 的可视化平台,no specific use-case but
handle everything that people want to do -- that is a whole different story,
and a whole lot money.

【在 w*****6 的大作中提到】
: tableau只是做传统bi的吧。
: 让去做反恐,反诈骗,分析几T的文本数据,有用tableau做的么?
:
: the

g****t
发帖数: 31659
26
可以用spotfire做可视化前端。分析engine python c#.
我们做过类似的自动化从实验数据出报告。


: 这可能要看case by case, requirement 吧

: 没有人说用要用tableau as backend.

: 个人对高大上的数据可视化不懂

: 反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?

: 分析几T的文本数据,真的store all in memory and interact several
TB of
data

: in real-time ?

: 觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce
the
data to

: *only* that is relevant to the specific business decision needed
, then
it is

: a lot easier and more tools will be able to handle it.

: 如果杀鸡杀猪,不需要屠龙刀吧



【在 g**********l 的大作中提到】
: 这可能要看case by case, requirement 吧
: 没有人说用要用tableau as backend.
: 个人对高大上的数据可视化不懂
: 反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?
: 分析几T的文本数据,真的store all in memory and interact several TB of data
: in real-time ?
: 觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce the data to
: *only* that is relevant to the specific business decision needed, then it is
: a lot easier and more tools will be able to handle it.
: 如果杀鸡杀猪,不需要屠龙刀吧

s*********y
发帖数: 6151
27
可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行 我很感兴趣
谢谢

【在 g****t 的大作中提到】
: 如果是内部工具。
: 理论上来讲1,2个人就可以了。
: 内部用不需要网页视图。避免了麻烦的网页架构。
: 算法和数据分析做的好的,没有人不懂数据可视化的,
: 但不一定走网页。做算法的人自己做图就完事了。
: 比较麻烦的是streaming data.
: 懂recursive 算法处理的人很少。多数ML都是batch处理。
:
:
: 我没说清楚,
:
: 他们想要个轻量级的平台

g****t
发帖数: 31659
28
你写个程序算算f(x)=0的根。
x加噪声,0加噪声。就明白了。


: 可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行
我很
感兴趣

: 谢谢



【在 s*********y 的大作中提到】
: 可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行 我很感兴趣
: 谢谢

1 (共1页)
进入Programming版参与讨论
相关主题
周永康关系图数据可视化Linux下Qt开发有什么免费可视化工具?
好东西传送门周报汇总 2015-03-08有什么可视化的debug工具么
才知道liteIDE是国人的牛作!更要支持学习VC++求教
用户交互界面求建议怎么学习python
想山寨palantir了求建议:用什么软件开发好? (转载)
数据可视化有什么好的创业机会么我来讲几句
如何生成C++/Java类层次视图?建议大家介绍自己日常的编程任务,工具,如何选择
windows 7 file chooser 的问题请推荐一个subversion的stats工具
相关话题的讨论汇总
话题: br话题: 可视化话题: 算法话题: 数据话题: 网页