刚知道有这个版。问一下nosql比sql好在哪里？ - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 刚知道有这个版。问一下nosql比sql好在哪里？

相关主题
● data science Master, 美国哪个大学好？	● DS对数据库需要了解多少？
● 单机学习spark/hadoop的方案？ (转载)	● DS工作机会，欢迎找工作的同学们联系我
● 大妈想找数据库方面的工作是否需要证书在哪里上培训班？	● Well-funded Startup Software Engineer Position
● 请教各位DS大拿	● 找DS工作, 一定要懂(甚至精通)machine learning或者statistics
● 【新人】版里有工程的转数据的么？	● data scientist 的 code test是不是集中在数据寻找上
● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)	● 我觉得关于datascience最近看到的几个有价值的贴
● 请问学习NoSQL有什么好点的参考书？	● 有人知道newsql吗？ (转载)
● 有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)	● data science 的coding skill requirement 跟码工比如何?

相关话题的讨论汇总
话题: 算法话题: nosql话题: sql话题: 分布式话题: nodes

进入DataSciences版参与讨论

1

(共1页)

t*****9 发帖数: 569	1 所有东西搞在一起，不要data relation了？靠强大的infrastructure和分布式计算算法提供in time查询，插入，更新？
z****e 发帖数: 54598	2 这就是统计牛逼的地方能从不make sense的东西给你弄成make sense 从无到有这一步是最难的
z****e 发帖数: 54598	3 分布式算法跟big data没必然联系算法是优化，从一个make sense的东西提升效率但是big data最重要的是你要有办法从不make sense弄成make sense 这个根本不是算法的问题等make sense了之后，再通过算法分析，找出更优化的算法让结果结论跑得快一点罢了分布式算法主要是解决不同nodes之间的冲突问题因为如果系统nodes多了，如果不同nodes不能保证象单机一样执行的话那麻烦就大了，分布式算法严格来说也不是特别象单机一样，考虑n^2还是lgn 复杂度这种单机上的算法热点在分布式中用得不多，多数时候都在处理并发冲突单机现在压根不考虑并发了，asynchronized一来，都无状态处理了甚至连游戏都不怎么搞并发了，就os还在搞，再往上的并发处理都压给os去做而分布式算法则天天倒腾如何处理并发，这个层面就不是os层面了
z****e 发帖数: 54598	4 data relation不是不要搞，是你自己想办法去找能不能找到，看统计水平怎样统计就擅长从一堆乱七八糟的东西找出一定的结论，就搞这个的
z****e 发帖数: 54598	5 举两个例子分布式算法基础，最基础的是一个比如message，广播到group中去那么如何保证这个group中所有的nodes收到的msg都执行同一个顺序呢？这个网络无法保证，后发送的msg有可能会被某些nodes先收到，因为网络的latency 最简单的就是给所有的msg编一个号，谁都能想到这个主要是分布式算法处理的范畴 big data是这样我给你一堆文档，什么格式都有请问，我现在输入一个term，比如china 你能否给我反馈一串相关china的文档列表，按照相关度排序？简单说就是一个google 算法在这里也有用，比如clustering, classification时候，需要计算时间复杂度前者如果是bottom up的话，复杂度可能达到n^3这样，那就非常慢了但是不是不可行，用top down的话，复杂度是n，快很多所以尽可能使用top down，但是有trade off，top down对seed敏感你怎么找seed？这就很关键了，找seed也主要是统计来搞
z****e 发帖数: 54598	6 nosql比sql强在本身消耗的平均资源偏少其次结构也不需要那么严格和完整所以把前期的整理工作给干掉了交给统计去挖掘合理性所以可以短时间内爆nodes 喷射出去，这个对于现代互联网时代的产品来说尤其重要因为访问量的增长是呈指数级增长的一般db那种完全跟不上
g*****o 发帖数: 812	7 ( ⊙o⊙ )哇不明觉厉.. 【在 z****e 的大作中提到】 : nosql比sql强在本身消耗的平均资源偏少 : 其次结构也不需要那么严格和完整 : 所以把前期的整理工作给干掉了 : 交给统计去挖掘合理性 : 所以可以短时间内爆nodes : 喷射出去，这个对于现代互联网时代的产品来说尤其重要 : 因为访问量的增长是呈指数级增长的 : 一般db那种完全跟不上

1

(共1页)

进入DataSciences版参与讨论

相关主题
● data science 的coding skill requirement 跟码工比如何?	● 【新人】版里有工程的转数据的么？
● Data Scientist的编程能力	● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)
● scala的主场在数学应用上 (转载)	● 请问学习NoSQL有什么好点的参考书？
● 大家觉得Weka和Python比较如何?	● 有没有open source DB像greenplum那样同时支持RDBMS 和hadoop呢 (转载)
● data science Master, 美国哪个大学好？	● DS对数据库需要了解多少？
● 单机学习spark/hadoop的方案？ (转载)	● DS工作机会，欢迎找工作的同学们联系我
● 大妈想找数据库方面的工作是否需要证书在哪里上培训班？	● Well-funded Startup Software Engineer Position
● 请教各位DS大拿	● 找DS工作, 一定要懂(甚至精通)machine learning或者statistics

相关话题的讨论汇总
话题: 算法话题: nosql话题: sql话题: 分布式话题: nodes

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)