由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 刚知道有这个版。问一下nosql比sql好在哪里?
相关主题
data science Master, 美国哪个大学好?DS对数据库需要了解多少?
单机学习spark/hadoop的方案? (转载)DS工作机会,欢迎找工作的同学们联系我
大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?Well-funded Startup Software Engineer Position
请教各位DS大拿找DS工作, 一定要懂(甚至精通)machine learning或者statistics
【新人】版里有工程的转数据的么?data scientist 的 code test是不是集中在数据寻找上
Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)我觉得关于datascience最近看到的几个有价值的贴
请问学习NoSQL有什么好点的参考书?有人知道newsql吗? (转载)
有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)data science 的coding skill requirement 跟码工比如何?
相关话题的讨论汇总
话题: 算法话题: nosql话题: sql话题: 分布式话题: nodes
进入DataSciences版参与讨论
1 (共1页)
t*****9
发帖数: 569
1
所有东西搞在一起,不要data relation了?
靠强大的infrastructure和分布式计算算法提供in time查询,插入,更新?
z****e
发帖数: 54598
2
这就是统计牛逼的地方
能从不make sense的东西给你弄成make sense
从无到有这一步是最难的
z****e
发帖数: 54598
3
分布式算法跟big data没必然联系
算法是优化,从一个make sense的东西提升效率
但是big data最重要的是你要有办法从不make sense弄成make sense
这个根本不是算法的问题
等make sense了之后,再通过算法分析,找出更优化的算法
让结果结论跑得快一点罢了
分布式算法主要是解决不同nodes之间的冲突问题
因为如果系统nodes多了,如果不同nodes不能保证象单机一样执行的话
那麻烦就大了,分布式算法严格来说也不是特别象单机一样,考虑n^2还是lgn
复杂度这种单机上的算法热点在分布式中用得不多,多数时候都在处理并发冲突
单机现在压根不考虑并发了,asynchronized一来,都无状态处理了
甚至连游戏都不怎么搞并发了,就os还在搞,再往上的并发处理都压给os去做
而分布式算法则天天倒腾如何处理并发,这个层面就不是os层面了
z****e
发帖数: 54598
4
data relation不是不要搞,是你自己想办法去找
能不能找到,看统计水平怎样
统计就擅长从一堆乱七八糟的东西找出一定的结论,就搞这个的
z****e
发帖数: 54598
5
举两个例子
分布式算法基础,最基础的是一个比如message,广播到group中去
那么如何保证这个group中所有的nodes收到的msg都执行同一个顺序呢?
这个网络无法保证,后发送的msg有可能会被某些nodes先收到,因为网络的latency
最简单的就是给所有的msg编一个号,谁都能想到
这个主要是分布式算法处理的范畴
big data是这样
我给你一堆文档,什么格式都有
请问,我现在输入一个term,比如china
你能否给我反馈一串相关china的文档列表,按照相关度排序?
简单说就是一个google
算法在这里也有用,比如clustering, classification时候,需要计算时间复杂度
前者如果是bottom up的话,复杂度可能达到n^3这样,那就非常慢了
但是不是不可行,用top down的话,复杂度是n,快很多
所以尽可能使用top down, 但是有trade off,top down对seed敏感
你怎么找seed?这就很关键了,找seed也主要是统计来搞
z****e
发帖数: 54598
6
nosql比sql强在本身消耗的平均资源偏少
其次结构也不需要那么严格和完整
所以把前期的整理工作给干掉了
交给统计去挖掘合理性
所以可以短时间内爆nodes
喷射出去,这个对于现代互联网时代的产品来说尤其重要
因为访问量的增长是呈指数级增长的
一般db那种完全跟不上
g*****o
发帖数: 812
7
( ⊙o⊙ )哇
不明觉厉..

【在 z****e 的大作中提到】
: nosql比sql强在本身消耗的平均资源偏少
: 其次结构也不需要那么严格和完整
: 所以把前期的整理工作给干掉了
: 交给统计去挖掘合理性
: 所以可以短时间内爆nodes
: 喷射出去,这个对于现代互联网时代的产品来说尤其重要
: 因为访问量的增长是呈指数级增长的
: 一般db那种完全跟不上

1 (共1页)
进入DataSciences版参与讨论
相关主题
data science 的coding skill requirement 跟码工比如何?【新人】版里有工程的转数据的么?
Data Scientist的编程能力Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)
scala的主场在数学应用上 (转载)请问学习NoSQL有什么好点的参考书?
大家觉得Weka和Python比较如何?有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
data science Master, 美国哪个大学好?DS对数据库需要了解多少?
单机学习spark/hadoop的方案? (转载)DS工作机会,欢迎找工作的同学们联系我
大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?Well-funded Startup Software Engineer Position
请教各位DS大拿找DS工作, 一定要懂(甚至精通)machine learning或者statistics
相关话题的讨论汇总
话题: 算法话题: nosql话题: sql话题: 分布式话题: nodes