是我的错觉么？我觉得google的三架马车其实没啥东西 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

相关主题
● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 有同学愿意拿open source项目练手吗？	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● java的内存管理真是气死我了	● 能不能在hadoop中用open mpi?
● C++多线程和硬件的关系	● 这里有没有多线程算法的专家？
● 关于mapreduce一问	● 转行做data warehouse的问个学习大数据的问题
● big data怎么搞定商业报表？	● Flink Sparks Next Wave of Distributed Data Processing
● 请问为什么现在big data的toolkit都是和java有紧密的关系？	● MapReduce 的思想是怎么发明的？
● mapreduce, hadoop还能火几年？	● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？

相关话题的讨论汇总
话题: hadoop话题: google话题: 游戏话题: crawler话题: 东西

进入Programming版参与讨论

(共1页)

z****e
发帖数: 54598

所谓的mapreduce的话，其实无非是多线程＋切割＋不同物理机器上查找的一个实现
找到后把结果反馈最后归并的一个过程，如果对多线程和垮物理机器有点经验的话
其实大同小异，难点主要是这两个，但是都算不上什么特别难的
多线程是编程基础，这个多线程比绝大多数多线程都简单
甚至没有什么并发的冲突，应该不用加任何锁在map的时候，reduce的话应该也不用
垮物理机的调用稍微有些深入，但是网络学得好的话
问题不大，用不了rmi或者corba可以用socket来写，socket学过网络的应该也都会
毕竟这个查找不要求百分百精准，而且对时间的要求也偏低
不象游戏那样要求那么高，这是第一个
第二个是nosql的存储，这个其实可以看成是一个简化的db
也就是不存在有sql和transaction的db系统，只有很少的几个index
所有查询必须通过这个index来做，所以灵活度比不上sql
但是简化的东西没有理由比脚本更难才对，所以学过db的话
这个其实也不是很难，理论上不会比db的sql难，毕竟是简化的东西
如果是搜多引擎的话，定义两个index就差不多了，一个是网站的域名
另外一个是日期，日期排序好排，域名的排序等下说crawler时候再说
最后一个是file system，那这个就完全是一个存放格式
这个其实自定义都可以，现在机器性能并不差，你怎么定义，其实都不会慢多少
定义因为是自定义，所以不要没事上xml去规范格式
所以将来也就不用去parse xml，定义成无规范结构的格式就可以了
而且处理完全就是一个io的过程，而且大部分时候都是只增不减
所以一旦硬盘不够，往上拼命加机器就好了
有谁知道这个部分的trick在哪里？
三架马车之外就是收集数据用的crawler，那这个无非是通过parse网页
找到链接之后再发送http请求之后接收网页，存放网页，再parse网页，再发送
再接收，再存放，再parse……
如此反复的一个过程，parse也不难，找到www.或者http://开头的
然后以空格结束就行了，匹配这个pattern就成了
这个倒是可以用上kmp算法，不过貌似改良不了多少
然后对www.后面那个字符串以及http://后面那个字符串做记录
以这些个字符串出现的次数来定义优先级，出现次数越多优先级越高
优先级越高的，mapreduce找到之后越早显示，这就是前面说的域名的排序方式
就这么一个过程
是我的错觉吗？为什么我觉得这里面其实没什么东西呢？
都是很基础的东西就可以实现了，而且都是简化的东西
比如nosql查找是简化的sql，比如file system是简化版的oa
map是简化版的xml，reduce就是做加法
crawler的parse也就是找www之后再找空格，就这么一个过程
有高人来说说这里面有什么是别人很难复制的么？
是不是跟开源的很多产品一样，以后随便谁都可以架设一台搜索引擎出来？
不过我看hadoop貌似有这个势头
不过貌似开源的hadoop还少一个crawler？
是不是说如果有人把crawler给补上，那么任何一个发烧的屌丝
找几台机器，连上网络，跑起来，给crawler足够的时间收集数据
屌丝们自己也可以山寨一个google或者bing出来？

j*a
发帖数: 14423

goodbug说，做大了上规模了就难了。
分析是一回事，实际上去做才会碰到各种想不到的问题。

【在 z****e 的大作中提到】

: 所谓的mapreduce的话，其实无非是多线程＋切割＋不同物理机器上查找的一个实现
: 找到后把结果反馈最后归并的一个过程，如果对多线程和垮物理机器有点经验的话
: 其实大同小异，难点主要是这两个，但是都算不上什么特别难的
: 多线程是编程基础，这个多线程比绝大多数多线程都简单
: 甚至没有什么并发的冲突，应该不用加任何锁在map的时候，reduce的话应该也不用
: 垮物理机的调用稍微有些深入，但是网络学得好的话
: 问题不大，用不了rmi或者corba可以用socket来写，socket学过网络的应该也都会
: 毕竟这个查找不要求百分百精准，而且对时间的要求也偏低
: 不象游戏那样要求那么高，这是第一个
: 第二个是nosql的存储，这个其实可以看成是一个简化的db

l*********s
发帖数: 5409

re 2nd, plus, search engine is free to use, you have to compete on quality.

w***g
发帖数: 5958

crawler可以把人做死。非常非常难做。

【在 z****e 的大作中提到】

c***d
发帖数: 996

你对系统的认识太粗浅了。海量数据处理要靠并行IO，怎么做IO并行一百种use case
有一百种做法。 google给了一个从计算模型到数据模型到物理存储的实用的统一解决
架构，这个就是它的贡献。

【在 z****e 的大作中提到】

o**********t
发帖数: 406

按你这么说所有的都没啥东西，GOOG 就一引擎，msft 就一操作系统，加办公软件，
aapl 就做一电话，加普通电脑跟电话之间的小板子，AMZEN 更没啥，就一网店。
废话别人做出来了看着都容易。你自己 TRY TRY 就知道水深水浅了。
前头有人说了，光一个 crawler 就能做死，
...“通过parse网页找到链接之后再发送http请求之后接收网页，存放网页，再parse
网页”
做梦哪？现在的网页有 JS, Silverlight, flash, java applet, AJAX, picture,
video ... 还有很多华丽呼哨的东西，redirect N 次， n 多广告 link, iframe,
tracking beacons ...
慢慢做啊，

l******d
发帖数: 530

研究db的、研究file systems的，研究distributed systems的……一群phd全被lz打趴
下了

c*********e
发帖数: 16335

对，没做过的，不可能知道做起来有那么多细节。

【在 j*a 的大作中提到】

: goodbug说，做大了上规模了就难了。
: 分析是一回事，实际上去做才会碰到各种想不到的问题。

m*****k
发帖数: 731

crawler 需要care 这些么？
：redirect N 次， n 多广告 link, iframe,
这些link crawler 确实可以从dom 和 network traffic 中很快析出来。
来个实际点的吧，咋个高效的防止cralwer 陷入Loop？
parse

g*****g
发帖数: 34805

Making a search engine is not hard, making a good search engine is very hard.
You can say that about everything.

相关主题
● big data怎么搞定商业报表？	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 请问为什么现在big data的toolkit都是和java有紧密的关系？	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● mapreduce, hadoop还能火几年？	● 能不能在hadoop中用open mpi?
进入Programming版参与讨论

c****e
发帖数: 1453

You need dynamic rendering to get more information. Search Engine looks at
more than static page parsed DOM. Discovery alone is not trivial. Usually
webpages are assigned in group to be updated at different frequency. A good
crawling pipeline requires well-designed distributed infrastructure. Too
many details here. one example, you could spam the website by sending too
many requests from crawler.

【在 m*****k 的大作中提到】

: crawler 需要care 这些么？
: ：redirect N 次， n 多广告 link, iframe,
: 这些link crawler 确实可以从dom 和 network traffic 中很快析出来。
: 来个实际点的吧，咋个高效的防止cralwer 陷入Loop？
: parse

z****e
发帖数: 54598

真不懂假不懂啊？
网页本质上就是一个html文件
虽然有js或者是css什么的
你直接找a href = ""这个关键字就可以找到链接了
js什么压根不会出现这个，如果真出现了
大不了先忽略就是了，谁也没要求搜索引擎百分百正确不是
搜索引擎好就好在可以错
顶多说优化时候再把js里面的链接给加上去
至于什么applet之类的，那完全是不同的tag
这要是识别不出来，那还了得
广告link倒是可以考虑一下是怎么回事

parse

【在 o**********t 的大作中提到】

: 按你这么说所有的都没啥东西，GOOG 就一引擎，msft 就一操作系统，加办公软件，
: aapl 就做一电话，加普通电脑跟电话之间的小板子，AMZEN 更没啥，就一网店。
: 废话别人做出来了看着都容易。你自己 TRY TRY 就知道水深水浅了。
: 前头有人说了，光一个 crawler 就能做死，
: ...“通过parse网页找到链接之后再发送http请求之后接收网页，存放网页，再parse
: 网页”
: 做梦哪？现在的网页有 JS, Silverlight, flash, java applet, AJAX, picture,
: video ... 还有很多华丽呼哨的东西，redirect N 次， n 多广告 link, iframe,
: tracking beacons ...
: 慢慢做啊，

c****e
发帖数: 1453

你基本还是小规模系统的思维。Web scale的search engine基本是分布系统的最高境界
了。对于latency, cocurrency的要求以及数据量的大小和一般的网站不是一个档次的。
1. 想想看如果两个表JOIN SORTED BY怎么处理？100T和100T,100T和1G的，处理有什么
不同。MR基本东西不难，具体的优化水很深。文件在disk上放内圈外圈都要考虑。IO一
般来说是最大的问题。
2.东西放在100台机器上，哪怕只是基本的filtering,做个查询容易吗？怎么aggregate
,多到一个机器放不下怎么办？在很多方面，scale比支持transaction要麻烦很多。
3. 搜索引擎你还没有入门。哪里是两个index。时间只是ranking的一个feature.可以
找一片讲ranking relevance的paper看看。另外，想清楚怎么build index了吗。如果
有个10b的webpage,不是lucence这类东西能handle的。Index build和merge非常麻烦
4.文件系统，核心是replication.就问一个简单的问题，怎么知道一个block
corrupted并处理data corruption? 别说靠OS的file system,这个靠不住。
好多概念还是要多看看wiki。

i****p
发帖数: 76

确实是你的错觉。好比你觉得做个板凳很容易。你着手做之后，你保证能比IKEA做的好
？你能铸造出你需要的钉子吗？木板你能弄平整，能保证木板温度变化不会收缩涨大么？
世界上任何事情，要做到最好都是很困难的。google是搜索上做的最好的。你如果能把
板凳做到世界上最好么？不是我小看你，从你发帖就觉得你这个人缺乏理性思考，讲难
听点有点眼高手低。低调点，不知道没关系，说出来之后大家都知道你不知道了。那样
就不好了。沉默是金，特别是你自己不懂的时候。
file system 如果是distributed的话很不好做，怎么处理冗余，continental data
center之间的文件传输又同时要注意bandwidth shaper。这些还只是冰山一角。

c*********e
发帖数: 16335

计算机这个行当太大，每个人只是做其中一个边边角角的东西。象steve jobs那种是少
见，不过他付出了生命的代价。

么？

【在 i****p 的大作中提到】

: 确实是你的错觉。好比你觉得做个板凳很容易。你着手做之后，你保证能比IKEA做的好
: ？你能铸造出你需要的钉子吗？木板你能弄平整，能保证木板温度变化不会收缩涨大么？
: 世界上任何事情，要做到最好都是很困难的。google是搜索上做的最好的。你如果能把
: 板凳做到世界上最好么？不是我小看你，从你发帖就觉得你这个人缺乏理性思考，讲难
: 听点有点眼高手低。低调点，不知道没关系，说出来之后大家都知道你不知道了。那样
: 就不好了。沉默是金，特别是你自己不懂的时候。
: file system 如果是distributed的话很不好做，怎么处理冗余，continental data
: center之间的文件传输又同时要注意bandwidth shaper。这些还只是冰山一角。

t******g
发帖数: 1667

还有disk的io调度问题，估计lz都没有想过有这些问题

o**********t
发帖数: 406

wa cow ... 看来你是真不懂。
现在的网页，一半以上的 href 不是静态的，很多时候靠 js 运行实时产生链接。
很多 html 不是静态，第一次 download 就一空壳，然后靠 ajax 或 flash 或
sliverlight 继续，这样才 best performance。
只找静态 href ...一半以上的 link 都漏掉了，还做啥？

【在 z****e 的大作中提到】

: 真不懂假不懂啊？
: 网页本质上就是一个html文件
: 虽然有js或者是css什么的
: 你直接找a href = ""这个关键字就可以找到链接了
: js什么压根不会出现这个，如果真出现了
: 大不了先忽略就是了，谁也没要求搜索引擎百分百正确不是
: 搜索引擎好就好在可以错
: 顶多说优化时候再把js里面的链接给加上去
: 至于什么applet之类的，那完全是不同的tag
: 这要是识别不出来，那还了得

t****t
发帖数: 6806

他挖一坑你们就纷纷跳啊跳啊---我也跳!

【在 o**********t 的大作中提到】

: wa cow ... 看来你是真不懂。
: 现在的网页，一半以上的 href 不是静态的，很多时候靠 js 运行实时产生链接。
: 很多 html 不是静态，第一次 download 就一空壳，然后靠 ajax 或 flash 或
: sliverlight 继续，这样才 best performance。
: 只找静态 href ...一半以上的 link 都漏掉了，还做啥？

d**o
发帖数: 864

zhaoce每两周就能挖出个大坑，这种能力不得不佩服！

【在 t****t 的大作中提到】

: 他挖一坑你们就纷纷跳啊跳啊---我也跳!

c*********e
发帖数: 16335

都是万人坑级别的。

【在 d**o 的大作中提到】

: zhaoce每两周就能挖出个大坑，这种能力不得不佩服！

相关主题
● 这里有没有多线程算法的专家？	● MapReduce 的思想是怎么发明的？
● 转行做data warehouse的问个学习大数据的问题	● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？
● Flink Sparks Next Wave of Distributed Data Processing	● Re: 劈柴进狗狗是靠刷题么？ (转载)
进入Programming版参与讨论

l*******s
发帖数: 1258

比如不少网页里面有这种恶心的标签
lz你给我弄个crawler抓这个网页试试看看有几次你抓得不是空白页
ps：lz是在装疯卖傻吗？光是page rank、query extension、search result
optimization，Google基本上没人干得过他

l*********s
发帖数: 5409

确实很长知识。

【在 c*********e 的大作中提到】

: 都是万人坑级别的。

H*******g
发帖数: 6997

哈哈，你们啊。ZHAOCE显然就是来挖坑的。。。

z****e
发帖数: 54598

空白页直接做个判断扔掉就是了
又不是你去拼命抓，都是机器自动抓的
抓十次才准一次又怎样？时间足够的话，数据就积累起来了
你们是写db写太多了么？这种不允许错的思维方式玩big data会死的很惨的
没人干得过它并不代表很难山寨，我只需要做到它得30%就可以了
然后把这个东西开放，给所有屌丝用，屌丝一多，30%就可以呈现级数增长
就好比没有人干得过websphere，但是spring用得如火如荼

【在 l*******s 的大作中提到】

: 比如不少网页里面有这种恶心的标签
: lz你给我弄个crawler抓这个网页试试看看有几次你抓得不是空白页
: ps：lz是在装疯卖傻吗？光是page rank、query extension、search result
: optimization，Google基本上没人干得过他

z****e
发帖数: 54598

没有关系
静态链接能抓到50%就已经很好了
剩下得按照www.和http://开头来抓
这里能搞定30%吧？
剩下20%不要也没什么，山寨得东西么

【在 o**********t 的大作中提到】

z****e
发帖数: 54598

是的，我在想如何山寨一个原型出来
剩下的慢慢优化

【在 t******g 的大作中提到】

: 还有disk的io调度问题，估计lz都没有想过有这些问题

z****e
发帖数: 54598

我不需要做这么大
假设google的数据量有1万个t
那我只需要对付1个t就行了
然后开放给全部屌丝去用
屌丝岂止一万个，动不动就上千万个
千万个屌丝一起跑，不见得就差了
每个企业自己内部跑一个
还可以控制安全级别，免得被google偷窥
以前觉得山寨google是遥不可及的一件事
后来看了hadoop，又看了百度
泥马百度不就是用hadoop来山寨google的嘛
李艳红可以，我想屌丝们也可以

的。
aggregate

【在 c****e 的大作中提到】

: 你基本还是小规模系统的思维。Web scale的search engine基本是分布系统的最高境界
: 了。对于latency, cocurrency的要求以及数据量的大小和一般的网站不是一个档次的。
: 1. 想想看如果两个表JOIN SORTED BY怎么处理？100T和100T,100T和1G的，处理有什么
: 不同。MR基本东西不难，具体的优化水很深。文件在disk上放内圈外圈都要考虑。IO一
: 般来说是最大的问题。
: 2.东西放在100台机器上，哪怕只是基本的filtering,做个查询容易吗？怎么aggregate
: ,多到一个机器放不下怎么办？在很多方面，scale比支持transaction要麻烦很多。
: 3. 搜索引擎你还没有入门。哪里是两个index。时间只是ranking的一个feature.可以
: 找一片讲ranking relevance的paper看看。另外，想清楚怎么build index了吗。如果
: 有个10b的webpage,不是lucence这类东西能handle的。Index build和merge非常麻烦

g*****g
发帖数: 34805

Google又不收你的钱，你这屌丝的引擎，上哪找小白鼠去。如果是说嵌入做应用，跟
Hadoop可比的，当然有，比如SOLR，Elastic Search。

【在 z****e 的大作中提到】

: 我不需要做这么大
: 假设google的数据量有1万个t
: 那我只需要对付1个t就行了
: 然后开放给全部屌丝去用
: 屌丝岂止一万个，动不动就上千万个
: 千万个屌丝一起跑，不见得就差了
: 每个企业自己内部跑一个
: 还可以控制安全级别，免得被google偷窥
: 以前觉得山寨google是遥不可及的一件事
: 后来看了hadoop，又看了百度

w***g
发帖数: 5958

版主赶紧过来把这人封了吧.

【在 z****e 的大作中提到】

z****e
发帖数: 54598

话说你不就在用？
其实这个东西本意想到的是一个code challenging
因为看到有人被要求在50分钟内写出一个crawler
那我就想，如果对方要求我做一个google的prototype出来的话
我会怎么做
这就好比公孙大神出的题，要求你24小时内出原型
否则干掉，那这种题目是最好玩的了
如果对方要求我24小时内，出一个搜索引擎的模型的话
该怎么选择，迅速拼装出一个原型出来
当然说市场上如何定位
那这个其实可以从百度中汲取经验
百度用hadoop做出了一个土鳖版的google
那我也可以个性化做一个什么音乐搜索之类的出来
不求全面击溃google，但是我可以从我擅长的领域入手
话说这不就是为什么最近有hadoop和cassandra经验的人那么火爆的原因么？
如果都不做的话，那码农谁来请？总不能说去不了google的都去死吧？

【在 g*****g 的大作中提到】

: Google又不收你的钱，你这屌丝的引擎，上哪找小白鼠去。如果是说嵌入做应用，跟
: Hadoop可比的，当然有，比如SOLR，Elastic Search。

相关主题
● hadoop job 速度提升	● 有同学愿意拿open source项目练手吗？
● 十个包子求助：NodeJS多线程？	● java的内存管理真是气死我了
● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)	● C++多线程和硬件的关系
进入Programming版参与讨论

z****e
发帖数: 54598

我肯定不会重造一个hadoop
直接用hadoop和cassandra或者hbase
现在主要少的是web crawler，这个我一直没找到合适的产品
这个要自己做，有现成开源的我一定用
如果web crawler有现成的开源的，最好还是apache的
那就更好了，我们javaer不都是这样的么？
有就用，然后反馈，然后上集团军优势
围剿那些不肯开源的
如果spring可以围剿ejb
那hadoop也可以围剿gfs这些
什么时候搜索引擎遍地都是了
那差不多这行就可以走人了，向下一个进军
开源就是蝗虫
当年搞个论坛，四方连通还能变成新浪
后来论坛代码遍地都是了，天涯做得再好，想变成新浪
想上市，那多少就没这个可能了
我看好hadoop的前景，hadoop基本上三驾马车都模拟了
现在web crawler有什么好的免费的开源的推荐没有？
我不求自己能写出什么jvm，app server这些
但是我很需要知道，有什么比较好的东西能够让我免费使用
而且又能够山寨这些产品
就像当年spring和jboss搞websphere
mysql搞oracle db一样
hadoop和cassandra真是好东西，越看越喜欢啊，想起当年我对jboss的各种喜欢了
现在nosql, db, mapreduce, container, framework, web server这些都有开源的免费的
我都会用，也多少都有点经验，没有的也会去积累
现在是不是就少一个web crawler了？
google的确不收我钱，但是我想要有自己的搜索引擎，貌似还不行
hadoop也还缺点东西，这个部分目前看，就是web crawler了

【在 g*****g 的大作中提到】

: Google又不收你的钱，你这屌丝的引擎，上哪找小白鼠去。如果是说嵌入做应用，跟
: Hadoop可比的，当然有，比如SOLR，Elastic Search。

c*********e
发帖数: 16335

现在好多网站，都做了防止bot来抓页面的措施，比如，如果你不是会员，你就不能看
坛子里的帖子，注册会员的时候，要你填个歪歪扭扭的验证码，bot干不了。
歪歪扭扭的验证码，就是防止bot的。

【在 z****e 的大作中提到】

: 空白页直接做个判断扔掉就是了
: 又不是你去拼命抓，都是机器自动抓的
: 抓十次才准一次又怎样？时间足够的话，数据就积累起来了
: 你们是写db写太多了么？这种不允许错的思维方式玩big data会死的很惨的
: 没人干得过它并不代表很难山寨，我只需要做到它得30%就可以了
: 然后把这个东西开放，给所有屌丝用，屌丝一多，30%就可以呈现级数增长
: 就好比没有人干得过websphere，但是spring用得如火如荼

c*********e
发帖数: 16335

你這個思维，是第一代搜索引擎人士的观念，有个加拿大的小伙子，用perl之类的，做
搜索引擎，就是基于你这种思想。google的搜索引擎已经大变样了。

【在 z****e 的大作中提到】

c*********e
发帖数: 16335

朋友跟我说，有次大老板开会，一高兴，说，你们都是我的guinea pigs.汗！

【在 z****e 的大作中提到】

c*********e
发帖数: 16335

大锅啊，你会用hadoop,不等于你会写hadoop這個软件。

【在 z****e 的大作中提到】

: 我肯定不会重造一个hadoop
: 直接用hadoop和cassandra或者hbase
: 现在主要少的是web crawler，这个我一直没找到合适的产品
: 这个要自己做，有现成开源的我一定用
: 如果web crawler有现成的开源的，最好还是apache的
: 那就更好了，我们javaer不都是这样的么？
: 有就用，然后反馈，然后上集团军优势
: 围剿那些不肯开源的
: 如果spring可以围剿ejb
: 那hadoop也可以围剿gfs这些

c********l
发帖数: 8138

别看你做后端很牛逼，
这句话显示了你WEB前端的无知
无论是jquery，还是一些大公司自己内部做的javascript framework
一个很重要的功能就是用javascript/ajax返回entity 动态生成a herf
再把 a href通过manipulate dom tree加到网页上
这样一来，搜索引擎就必须要有一个内部轻量级的JS引擎，
这个工作量就太多了……

【在 z****e 的大作中提到】

c********l
发帖数: 8138

就算并行计算+分布式这一个东西在你眼里看来没什么
那么自然语言处理呢？
光这一项，就可以提供1000个PHD+数万个阿三的就业岗位

【在 z****e 的大作中提到】

c*********e
发帖数: 16335

轻量级的JS引擎咋做？ ajax,javascript里都是一个变量，值不是固定的。

【在 c********l 的大作中提到】

: 别看你做后端很牛逼，
: 这句话显示了你WEB前端的无知
: 无论是jquery，还是一些大公司自己内部做的javascript framework
: 一个很重要的功能就是用javascript/ajax返回entity 动态生成a herf
: 再把 a href通过manipulate dom tree加到网页上
: 这样一来，搜索引擎就必须要有一个内部轻量级的JS引擎，
: 这个工作量就太多了……

c*********e
发帖数: 16335

如果开源就是陈胜吴广起义;ms就是。。。

【在 z****e 的大作中提到】

c********l
发帖数: 8138

如果轻量级的JS引擎做不起来，那就只能做一个full fledged的JS引擎
工作量更大

【在 c*********e 的大作中提到】

: 轻量级的JS引擎咋做？ ajax,javascript里都是一个变量，值不是固定的。

相关主题
● C++多线程和硬件的关系	● 请问为什么现在big data的toolkit都是和java有紧密的关系？
● 关于mapreduce一问	● mapreduce, hadoop还能火几年？
● big data怎么搞定商业报表？	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
进入Programming版参与讨论

c****e
发帖数: 1453

Vertical market一直有人做。很多用的的确就是hadoop+lucene.很多电商的产品搜索
也就是用的这些。这个组合达到了搜索引擎的最基本需求，但是和Google,Bing之类的
没法比。最重要的就是有没有relevance的infrastructure. Index的build可以通过
hadoop解决scale的问题，但是lucene的query serve非常慢。relevane才是硬骨头。至
于细节就更多了，speller， query understanding, user intent都需要大量的用户数
据和click,这就是为什么很多网站的站内搜素超级烂，还不如从google直接搜。
Ebay这么大的公司，自己的product search都很难做，挖了一些人做Cassini,效果并不
好。
http://www.slideshare.net/fullscreen/cloudera/hadoop-world-2011
你要找crawler可以看nutch,parse pdf这样的文档可以用tika.至于动态页面的parsing
,可以自己wrap webkit.都有现成的方案。但是靠这些，山寨不了google,差的非常远。

【在 z****e 的大作中提到】

: 话说你不就在用？
: 其实这个东西本意想到的是一个code challenging
: 因为看到有人被要求在50分钟内写出一个crawler
: 那我就想，如果对方要求我做一个google的prototype出来的话
: 我会怎么做
: 这就好比公孙大神出的题，要求你24小时内出原型
: 否则干掉，那这种题目是最好玩的了
: 如果对方要求我24小时内，出一个搜索引擎的模型的话
: 该怎么选择，迅速拼装出一个原型出来
: 当然说市场上如何定位

w**z
发帖数: 8232

你连人家code name 都知道。Cassini live 没有？都做了好几年了。之前的version
连description 都没index 的。

【在 c****e 的大作中提到】

: Vertical market一直有人做。很多用的的确就是hadoop+lucene.很多电商的产品搜索
: 也就是用的这些。这个组合达到了搜索引擎的最基本需求，但是和Google,Bing之类的
: 没法比。最重要的就是有没有relevance的infrastructure. Index的build可以通过
: hadoop解决scale的问题，但是lucene的query serve非常慢。relevane才是硬骨头。至
: 于细节就更多了，speller， query understanding, user intent都需要大量的用户数
: 据和click,这就是为什么很多网站的站内搜素超级烂，还不如从google直接搜。
: Ebay这么大的公司，自己的product search都很难做，挖了一些人做Cassini,效果并不
: 好。
: http://www.slideshare.net/fullscreen/cloudera/hadoop-world-2011
: 你要找crawler可以看nutch,parse pdf这样的文档可以用tika.至于动态页面的parsing

z****e
发帖数: 54598

同学，你这辈子能走完全世界么？
不行吧？那是不是意味着你就不需要去旅游了呢？
你跑步能跑得过世界冠军么？
不行吧？那是不是意味着你就不需要体育课了呢？

【在 c********l 的大作中提到】

: 就算并行计算+分布式这一个东西在你眼里看来没什么
: 那么自然语言处理呢？
: 光这一项，就可以提供1000个PHD+数万个阿三的就业岗位

z****e
发帖数: 54598

慢慢做，山寨的东西不争朝夕
写软件其实一个娱乐爱好，并不是工作
对我来说

【在 c********l 的大作中提到】

z****e
发帖数: 54598

小妹啊，我又没说我要写，我会用就可以了
你肯定用过微积分，你会证明么？
spring和jvm我都不会写，但是我会用就可以了
也没有人要求我一定要会写这些东西

【在 c*********e 的大作中提到】

: 大锅啊，你会用hadoop,不等于你会写hadoop這個软件。

c*********e
发帖数: 16335

很多网站的站内搜素一般是搜索自己的database.
从google直接搜,不是搜索database

parsing

【在 c****e 的大作中提到】

x****u
发帖数: 44466

你才看出来？
这个观点不管是放到波音，洛马或者SpaceX上都成立。

【在 z****e 的大作中提到】

l*******s
发帖数: 1258

问题是这种网页不管抓多少次都是空白
现在很多网站各自有各自的变态网页结构一堆东西放那里你抓下来结果就是啥都没有
我还真不是写db的。
我就是做crawler和scraper的，整天鼓捣这玩意，快被恶心死了。都要撂挑子了

【在 z****e 的大作中提到】

s***r
发帖数: 500

眼高手低，一看就知道没做过search相关的工作。你这说的就像用搭草棚的手段盖摩天
大厦。还是老老实实去Y/G/M之类的search组做一两年再说吧，起码懂些基本概念。

【在 z****e 的大作中提到】

x****u
发帖数: 44466

弹棉花也得老老实实干个一两年才能入门。

【在 s***r 的大作中提到】

:
: 眼高手低，一看就知道没做过search相关的工作。你这说的就像用搭草棚的手段盖摩天
: 大厦。还是老老实实去Y/G/M之类的search组做一两年再说吧，起码懂些基本概念。

相关主题
● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)	● 转行做data warehouse的问个学习大数据的问题
● 能不能在hadoop中用open mpi?	● Flink Sparks Next Wave of Distributed Data Processing
● 这里有没有多线程算法的专家？	● MapReduce 的思想是怎么发明的？
进入Programming版参与讨论

m*****k
发帖数: 731

network traffic,
which covers all,
for example, browsermob or firebug get all traffic info.

good

【在 c****e 的大作中提到】

: You need dynamic rendering to get more information. Search Engine looks at
: more than static page parsed DOM. Discovery alone is not trivial. Usually
: webpages are assigned in group to be updated at different frequency. A good
: crawling pipeline requires well-designed distributed infrastructure. Too
: many details here. one example, you could spam the website by sending too
: many requests from crawler.

m*****k
发帖数: 731

专业点， CAPCHA

【在 c*********e 的大作中提到】

: 现在好多网站，都做了防止bot来抓页面的措施，比如，如果你不是会员，你就不能看
: 坛子里的帖子，注册会员的时候，要你填个歪歪扭扭的验证码，bot干不了。
: 歪歪扭扭的验证码，就是防止bot的。

m*****k
发帖数: 731

parse DOM does not mean parsing the static original html,
so long as it is rendered, u have the dynamically generated DOM to parse. :-)
firebug's html panel is an example.

good

【在 c****e 的大作中提到】

z****e
发帖数: 54598

区别在于你靠这个吃饭，有各种考虑
我没有这个考虑，能做多少是多少，做多了算是bonus
而且市场的竞争在于，钓丝失败无所谓，反正也不靠这个吃饭
做了一半还可以开源扔给别人去做，其它钓丝接过来继续努力
慢慢的往前推进，而做搜索引擎的一旦失败一次，那就是另外一个故事了

没有

【在 l*******s 的大作中提到】

: 问题是这种网页不管抓多少次都是空白
: 现在很多网站各自有各自的变态网页结构一堆东西放那里你抓下来结果就是啥都没有
: 我还真不是写db的。
: 我就是做crawler和scraper的，整天鼓捣这玩意，快被恶心死了。都要撂挑子了

z****e
发帖数: 54598

其实我要的就是某人的这句话：
很多用的的确就是hadoop+lucene.很多电商的产品搜索
也就是用的这些。这个组合达到了搜索引擎的最基本需求

【在 s***r 的大作中提到】

z****e
发帖数: 54598

问题在于波音这种，我可没有办法搞出一个原型来灰起来
但是我看到大学里面机械工程系的的确做了几个可以跑的四驱车放在大楼里
每年校庆时候拉出来跑一下，很拉风的说
要是我学的是航空航天，我也去做一个来灰一下
可惜不是，但是软件这个东西，倒腾个原型还是可以的
前一段在倒腾2d贴图，蛮好玩的说
搜索引擎这个东西的意义在于，以前我不知道怎么做
无从下手，现在大概有个头绪了
很多ba到今天也都还不知道该如何下手去做这样一个东西
听到google就吓坏了，需求就被挡掉了
所以才有市场上对mapreduce那么大的需求
因为很多人还不知道怎么去用这个东西
什么时候mapreduce随便是个人就明白怎么用了
那差不多这一波泡沫就该破了

【在 x****u 的大作中提到】

: 你才看出来？
: 这个观点不管是放到波音，洛马或者SpaceX上都成立。

x****u
发帖数: 44466

你那个原型就是模型车的水平，差距都在细节上。

【在 z****e 的大作中提到】

: 问题在于波音这种，我可没有办法搞出一个原型来灰起来
: 但是我看到大学里面机械工程系的的确做了几个可以跑的四驱车放在大楼里
: 每年校庆时候拉出来跑一下，很拉风的说
: 要是我学的是航空航天，我也去做一个来灰一下
: 可惜不是，但是软件这个东西，倒腾个原型还是可以的
: 前一段在倒腾2d贴图，蛮好玩的说
: 搜索引擎这个东西的意义在于，以前我不知道怎么做
: 无从下手，现在大概有个头绪了
: 很多ba到今天也都还不知道该如何下手去做这样一个东西
: 听到google就吓坏了，需求就被挡掉了

z****e
发帖数: 54598

以我个人的力量，做到这个水平就很开心了
毕竟是原来以为不可能做到的东西，现在居然可以做到
这是一大步，类似张某人的无穷到7000万
至于7000万到2还有很远，那是另外一回事

【在 x****u 的大作中提到】

: 你那个原型就是模型车的水平，差距都在细节上。

c****e
发帖数: 1453

When I refer dynamic, it means full fledged JS engine. To save parsing cost,
you don't need run a heavy rendering engine such as browser (not matter it'
s webkit or Gecko). It's much easier to write a parser for pure HTML and
simple CSS. JS interpreter is a monster. You'd better stick with established
implementation.
In your example, firebug relies on the browser to render the page, which
includes its own JS engine. It easily takes more than 1 second to finish one
page. If you only parse "static" html page, you get 100 pages/second.

【在 m*****k 的大作中提到】

: parse DOM does not mean parsing the static original html,
: so long as it is rendered, u have the dynamically generated DOM to parse. :-)
: firebug's html panel is an example.
:
: good

z****e
发帖数: 54598

搜索database的话，负担会很大，而且没有必要
上mapreduce，而且可以通过nosql降低对于db的要求
可以大幅度增加性能，很多数据不需要保证百分百准确
尤其是很多客户资料，你说客户的兴趣爱好，这个玩意上db就有些吃太饱了
上nosql就好，错了就错了，本来就不是很准确的东西
其实大部分企业，除了交易和账户信息，这两块，其它大部分是非精准信息
应该用nosql来降低负载同时扩容，然后用mapreduce来找
mapreduce+nosql带来的性能提升很可喜啊
其实这个可以回答java版的那个关于store procedure的问题
sp不仅难以维护，而且成本并不低，移植性扩展性也很差
上nosql
这也能回答为什么现在hadoop和cassandra经验那么热门的原因
会hadoop和cassandra下一个十年才有发展，db那个不能说过时
但是热点的确已经不在这一块了，oracle财报刚出来，远低于预期
股价暴跌9％，别固守sql和db了，nosql是大势所趋，要顺应潮流

【在 c*********e 的大作中提到】

: 很多网站的站内搜素一般是搜索自己的database.
: 从google直接搜,不是搜索database
:
: parsing

相关主题
● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？	● 十个包子求助：NodeJS多线程？
● Re: 劈柴进狗狗是靠刷题么？ (转载)	● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)
● hadoop job 速度提升	● 有同学愿意拿open source项目练手吗？
进入Programming版参与讨论

g******n
发帖数: 253

坑

【在 z****e 的大作中提到】

x****u
发帖数: 44466

人类几千年前就有车了，到最近几十年才有模型车。

【在 z****e 的大作中提到】

: 以我个人的力量，做到这个水平就很开心了
: 毕竟是原来以为不可能做到的东西，现在居然可以做到
: 这是一大步，类似张某人的无穷到7000万
: 至于7000万到2还有很远，那是另外一回事

n******t
发帖数: 4406

Google当然有东西，这么多服务没有技术肯定不行、
但是google放出来的东西，好吧，基本上都是大白话和没用的东西。
map reduce本来就是一个超级大白话，比果子的专利还要无厘头。
不过这么搞的结果是两点：
1.99%的人都喜欢大白话。所以呢，google一说，那些个公司的manager就开始high，然后
开始互有。
2.99%的人呢，都认为大白话不是大白话。也就是说，认为拿到这些概念性的东西就可
以写出一个真正能用的东西。结果就有各种google的这些概念的实现（GFS, Mapreduce
),包括
open source的（像hadoop这种joke).
google发现这样也不错，所以貌似隔一段时间就放出一些这一类的东西调戏大家。

【在 z****e 的大作中提到】

x****u
发帖数: 44466

人多了不内斗的太厉害的话，都会有很多绝活的。

然后
Mapreduce

【在 n******t 的大作中提到】

: Google当然有东西，这么多服务没有技术肯定不行、
: 但是google放出来的东西，好吧，基本上都是大白话和没用的东西。
: map reduce本来就是一个超级大白话，比果子的专利还要无厘头。
: 不过这么搞的结果是两点：
: 1.99%的人都喜欢大白话。所以呢，google一说，那些个公司的manager就开始high，然后
: 开始互有。
: 2.99%的人呢，都认为大白话不是大白话。也就是说，认为拿到这些概念性的东西就可
: 以写出一个真正能用的东西。结果就有各种google的这些概念的实现（GFS, Mapreduce
: ),包括
: open source的（像hadoop这种joke).

z****e
发帖数: 54598

是不是joke，用了就知道
我看古德霸他们用得瞒好的
如果有问题，实践中再改进就是了
自己动手，丰衣足食

然后
Mapreduce

【在 n******t 的大作中提到】

z****e
发帖数: 54598

人多了，代码都是joke
看多了就会顿悟的
绝活和joke往往呈正比

【在 x****u 的大作中提到】

: 人多了不内斗的太厉害的话，都会有很多绝活的。
:
: 然后
: Mapreduce

z****e
发帖数: 54598

很多东西用起来就是一个大白话
java写起来就是一个大白话
但是要实现一个jvm，乖乖，那够痛苦的
对于用户来说，有个大白话就行了
怎么实现，交给开源去做吧
开源的好处就在于，现在不行不代表以后不行
我们有足够的时间和信心去等它慢慢地行起来
温水煮蛙，等着就好了，等不及的话，你也可以贡献
帮助推一把，你看古德霸他们对cassandra就做得蛮好的
我们现在给aws什么提供的东西
其实也是建立在各种开源软件的基础之上
什么tomcat,spring这些
spring狠狠滴抢占ejb的市场这个也是不争的事实
不过开源的spring一开始就很行就是了
微积分也就是一个大白话，证明起来有够呛的
欧姆定律和高斯分布也是大白话，作者都牛到死
google再坏，论文也会公开，总有屌丝会贡献一把力
我们有足够的信心等着屌丝们做出足够的贡献
推动社会前进，现在hadoop越来越好咯，我就等着2.0之后上马
话说现在google自己都用hadoop，这里的google招人
如果有hadoop经验，算是一个plus

然后
Mapreduce

【在 n******t 的大作中提到】

z****e
发帖数: 54598

马车跟火车还有汽车都是车，只是动作原理不是一回事
主机，db和nosql都是存储，只是运做起来不是一回事

【在 x****u 的大作中提到】

: 人类几千年前就有车了，到最近几十年才有模型车。

c*********e
发帖数: 16335

没有微积分，老爱就不可能发现相对论。当年欧洲可是微积分水平最高的地方。

【在 z****e 的大作中提到】

: 很多东西用起来就是一个大白话
: java写起来就是一个大白话
: 但是要实现一个jvm，乖乖，那够痛苦的
: 对于用户来说，有个大白话就行了
: 怎么实现，交给开源去做吧
: 开源的好处就在于，现在不行不代表以后不行
: 我们有足够的时间和信心去等它慢慢地行起来
: 温水煮蛙，等着就好了，等不及的话，你也可以贡献
: 帮助推一把，你看古德霸他们对cassandra就做得蛮好的
: 我们现在给aws什么提供的东西

s***o
发帖数: 6934

z掉了还来！lol

【在 t****t 的大作中提到】

: 他挖一坑你们就纷纷跳啊跳啊---我也跳!

相关主题
● 有同学愿意拿open source项目练手吗？	● 关于mapreduce一问
● java的内存管理真是气死我了	● big data怎么搞定商业报表？
● C++多线程和硬件的关系	● 请问为什么现在big data的toolkit都是和java有紧密的关系？
进入Programming版参与讨论

t****t
发帖数: 6806

这个BBS现在很没意思, 别的版也很无聊. 至少这里水还不少.

【在 s***o 的大作中提到】

: z掉了还来！lol

r****y
发帖数: 26819

现在感觉，有这功夫还不如随便找两行代码读读
哪怕去听郭德纲也比这些段子强。。。

【在 t****t 的大作中提到】

: 这个BBS现在很没意思, 别的版也很无聊. 至少这里水还不少.

x****u
发帖数: 44466

上BBS不来灌水，难道还是来读代码的么？

【在 r****y 的大作中提到】

: 现在感觉，有这功夫还不如随便找两行代码读读
: 哪怕去听郭德纲也比这些段子强。。。

r****y
发帖数: 26819

呵呵，以前这版不也是灌水么，你觉得何以thrust要感慨现在呢？

【在 x****u 的大作中提到】

: 上BBS不来灌水，难道还是来读代码的么？

x****u
发帖数: 44466

时代不同了，插不上嘴了。IT业不是中医药业，变化太快了。

【在 r****y 的大作中提到】

: 呵呵，以前这版不也是灌水么，你觉得何以thrust要感慨现在呢？

r****y
发帖数: 26819

我看还是风格不同。thrust属于对着代码问题才能灌水的。就算是c++也可以坚持纯聊天
比气场灌水，这跟时代无关。

【在 x****u 的大作中提到】

: 时代不同了，插不上嘴了。IT业不是中医药业，变化太快了。

x****u
发帖数: 44466

稍微往上翻就有人讨论用C++实现interface的best pratice的，这个问题很现实也很有
意义，不过老人未必感兴趣。

聊天

【在 r****y 的大作中提到】

: 我看还是风格不同。thrust属于对着代码问题才能灌水的。就算是c++也可以坚持纯聊天
: 比气场灌水，这跟时代无关。

n******t
发帖数: 4406

google这个公司到目前为止在实现上还是比较close to metal的。
这是他们service质量高的主要原因。

【在 z****e 的大作中提到】

n******t
发帖数: 4406

读代码读倒垃圾了，还不如灌水。

【在 r****y 的大作中提到】

: 现在感觉，有这功夫还不如随便找两行代码读读
: 哪怕去听郭德纲也比这些段子强。。。

c********l
发帖数: 8138

从旅游和跑步比喻本身来看，没有错。但与你这里说的没有类比性
1，google的搜索引擎外，还有更多的技术。
就好比周游世界有很多东西可玩，
一个人说：“我觉得欧洲其实没啥东西，北欧没啥，南欧没啥，西欧没啥，东欧没啥”
2，个人的体育课，和专业的长跑运动员训练的内容和方式有很大差别
这些大规模的并行应用，并不是小公司所需要的
小公司需要考虑哪些？界面怎么做得漂亮一些，怎么找便宜的host，怎么吸引风投

【在 z****e 的大作中提到】

: 同学，你这辈子能走完全世界么？
: 不行吧？那是不是意味着你就不需要去旅游了呢？
: 你跑步能跑得过世界冠军么？
: 不行吧？那是不是意味着你就不需要体育课了呢？

相关主题
● mapreduce, hadoop还能火几年？	● 能不能在hadoop中用open mpi?
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 这里有没有多线程算法的专家？
● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)	● 转行做data warehouse的问个学习大数据的问题
进入Programming版参与讨论

r****y
发帖数: 26819

因噎废食么。。。

【在 n******t 的大作中提到】

: 读代码读倒垃圾了，还不如灌水。

z****e
发帖数: 54598

公司本身其实跟我没有太大关系
不给钱都是杂种，只要给钱都是good guy
对于码农本身来说，更重要的是skill set的补全
以前mapreduce和nosql我不会，毫无概念
但是现在有了hadoop和cassandra这些，如果有人要我做这个
那我就会做了，从无到有的进步是很关键的
至于性能上的提升，那个区别其实不大
举两个例子
比如websphere和weblogic，这两个牛逼到死
现在这两个用的jvm，r9和jrockit效率都要明显优于hotspot
这两个都是准real time的jvm
但是呢，这两个要钱，要不少钱，资本家都是抠门的
软件licence fee掏出去了，那会从哪里找回平衡，很容易想到的
多半是我的工资
那怎么办？还好，有开源，jboss推出之后，就算我没有办法做到跟ibm还有bea一样
我一样可以提供类似的服务，剩下的一点点效率上的差异，那个其实绝大多数时候用不到
这就是为什么古德霸说，real time其实不是它的领域
再比如，日本人他们做游戏，很多时候，帧数控制在60fps
跟美帝技术上其实差得很远，美帝上个90fps无压力
但是小日本的游戏有的是市场
为什么？因为人眼对于60和90的差异不是那么敏感
60足够做出好的产品了，但是如果从数字上判断，这两个差距甚远
回到我们的例子，google现在效率很高，以前搜索一个经常用时不到0.05s
最近慢了很多，可能是关联产品太多的缘故，如果砍掉关联产品，回到这个效率是可能的
那我就是让它慢十倍，变成0.5s，其实也完全可以接受，人其实感觉不到那么细微的差别
然后再通过cache等手段再优化一下，就基本上可以对付绝大多数需求了
这就足够了，从目前看，最接近google那些东东的产品就是hadoop和cassandra这些
所以从发展和职业技能补全的角度出发，不会这些是不行的
虽然可能永远都无法达到那些巨头的高度，但是对付大多数应用，足够了
还有一个就是，现在除了hadoop，没有其它类似产品
所以除了g以外的大多数互联网公司，尤其是f和l，都在用hadoop
那这样的话，hadoop会被提升很快，因为有商业公司的参与
历史上有商业公司参与的产品都得到了很好的提高，java就是典型
要没有ibm这些巨头的持续投入，java可能到今天都达不到delphi那个水准吧
热点一定要参与，否则迟早被淘汰
参与的形式可以有多种，但是说不搞，那是不行滴

【在 n******t 的大作中提到】

: google这个公司到目前为止在实现上还是比较close to metal的。
: 这是他们service质量高的主要原因。

z****e
发帖数: 54598

也许你觉得很多东西只有到了大公司才有用武之地
而在我看来，大小之间的界限是灰常模糊的
今天的小公司就是明天的大公司
我做什么，都会为明天埋下一个铺垫
就像酒一样，越酿才越香
至于界面漂亮，这个其实你我这种搞技术的，努力是沒有用的
这个你做过就知道了，艺术的东西，还是需要专业的人来参与
这里面的功力真的就是十年甚至二十年的差距
公孙大神那种再怎么努力，不说不可能吧
但是很难很难达到专业的水准，对于css这些
怎么忽悠风投的话，这个其实也不是搞技术的领域
不过这个比起艺术来说，其实更接近点，技术宅男还是有可能忽悠到风投的
所以唯一能做的就是在技术上做点东西，其它不是你的领域
不是说不要参与，可以做，尤其是早期没人的时候
但是一旦你手头上有了足够的资源，请找专业人士参与
这个看z大师就知道，技术上它自己搞，但是美工它就是雇别人做
因为他自己做不了

【在 c********l 的大作中提到】

: 从旅游和跑步比喻本身来看，没有错。但与你这里说的没有类比性
: 1，google的搜索引擎外，还有更多的技术。
: 就好比周游世界有很多东西可玩，
: 一个人说：“我觉得欧洲其实没啥东西，北欧没啥，南欧没啥，西欧没啥，东欧没啥”
: 2，个人的体育课，和专业的长跑运动员训练的内容和方式有很大差别
: 这些大规模的并行应用，并不是小公司所需要的
: 小公司需要考虑哪些？界面怎么做得漂亮一些，怎么找便宜的host，怎么吸引风投

l*********s
发帖数: 5409

米高同学很有想法，赞一个，其实你搞商务说不定更有前途。：-）

【在 z****e 的大作中提到】

: 也许你觉得很多东西只有到了大公司才有用武之地
: 而在我看来，大小之间的界限是灰常模糊的
: 今天的小公司就是明天的大公司
: 我做什么，都会为明天埋下一个铺垫
: 就像酒一样，越酿才越香
: 至于界面漂亮，这个其实你我这种搞技术的，努力是沒有用的
: 这个你做过就知道了，艺术的东西，还是需要专业的人来参与
: 这里面的功力真的就是十年甚至二十年的差距
: 公孙大神那种再怎么努力，不说不可能吧
: 但是很难很难达到专业的水准，对于css这些

j********x
发帖数: 2330

这种想法你想要么，我一天如果fulltime做这个，100来个应该没问题。。。
我搞商务做startup是不是轻松达到gates的水平，我觉得gates再牛逼也达不到100个
zhaoce的水平吧，你看我，轻轻松松就到了

【在 l*********s 的大作中提到】

: 米高同学很有想法，赞一个，其实你搞商务说不定更有前途。：-）

f****4
发帖数: 1359

"再比如，日本人他们做游戏，很多时候，帧数控制在60fps
跟美帝技术上其实差得很远，美帝上个90fps无压力
但是小日本的游戏有的是市场
为什么？因为人眼对于60和90的差异不是那么敏感
60足够做出好的产品了，但是如果从数字上判断，这两个差距甚远"
你没怎么接触过做游戏的吧？因果关系，你不能想当然的从结果来推原因。。。
这个差异不是小日本的游戏有市场60fps就能做出好游戏——而是小日本和美帝做游戏
最初的硬件平台的选择有关系。小日本是自己做的硬件平台，美帝直接用的pc平台。
小日本为了把有限的硬件性能发挥到极致，做了很多优化：渲染，贴图等等。控制帧数
也仅仅是因为上到90fps的收益没有付出的运算成本高而已。那会同等运算能力下面，
小日本真的是甩美帝几条街啊。但现在硬件性能完全不是啥大问题了，以前的优化工作
算是白费了。新平台重新来过。
美帝的就是用硬件的贴图贴图贴图，然后就是硬件性能上去了，效果就上去了。免费的
午餐。当然了，美帝的游戏还是做了很多优化的，但更多的是用硬件。
欢迎现在还在做游戏的出来指正一下

g****t
发帖数: 31659

不是你的错觉.山寨一个质量相当好的search engine在这个年代完全doable.
duckduckgo,还有国内baidu出来那个哥们作的search engine,...,etc
我认为质量都不比05 GooG 差.
但问题是,baidu当初可以靠着搜mp3什么的拉用户.
你现在不可能走这条路了.
如果你的用户不够多,那你就没办法积累足够的历史搜索数据.
没有历史搜索数据,就没办法更进一步提高搜索体验.发展就不可持续.
Bing和GooG差就差在用户数上.技术上说不定Bing还更好也未可知.

【在 z****e 的大作中提到】

g*****g
发帖数: 34805

微软不比10年前，牛人早走光了。新人都是拿微软保底。加上大老板SB一塌糊涂，
还指望能基因突变不成。

【在 g****t 的大作中提到】

: 不是你的错觉.山寨一个质量相当好的search engine在这个年代完全doable.
: duckduckgo,还有国内baidu出来那个哥们作的search engine,...,etc
: 我认为质量都不比05 GooG 差.
: 但问题是,baidu当初可以靠着搜mp3什么的拉用户.
: 你现在不可能走这条路了.
: 如果你的用户不够多,那你就没办法积累足够的历史搜索数据.
: 没有历史搜索数据,就没办法更进一步提高搜索体验.发展就不可持续.
: Bing和GooG差就差在用户数上.技术上说不定Bing还更好也未可知.

g****t
发帖数: 31659

陆奇不是牛人? 再说search需要多少牛人?
GooG内部绝大多数都是外围产品.真正search engine广告相关的,
好像也就200多人而已.
另外如果你用过超过3个月的Bing,很可能发现GooG很多时候是相当垃圾的.
它家现在是面向revenue的search,不是面向用户体验的.

微软不比10年前，牛人早走光了。新人都是拿微软保底。加上大老板SB一塌糊涂，
还指望能基因突变不成。

【在 g*****g 的大作中提到】

: 微软不比10年前，牛人早走光了。新人都是拿微软保底。加上大老板SB一塌糊涂，
: 还指望能基因突变不成。

z****e
发帖数: 54598

这个事情放在两三年前，我觉得是很难想象的事
现在doable了，对我来说是一个巨大的进步
至于不能再搞一个google出来，这个在预料之中，无所谓了
不指望靠山寨发财

【在 g****t 的大作中提到】

相关主题
● Flink Sparks Next Wave of Distributed Data Processing	● Re: 劈柴进狗狗是靠刷题么？ (转载)
● MapReduce 的思想是怎么发明的？	● hadoop job 速度提升
● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？	● 十个包子求助：NodeJS多线程？
进入Programming版参与讨论

g****t
发帖数: 31659

search engine在2,3年前也是doable的.甚至在10年前也是doable的.
李彦宏当年一定比你现在技术好么?不见得吧.
李开复的phd论文基本上是开创性的.李彦宏在美国有啥?
但这里有个风险问题和执行能力问题.
光看技术,很多东西都是doable的.但往往外围资源是决定性的.
李如果没背景,说不定作流氓软件阶段就被周宏伟派人抓局子里去了.
baidu搞了那么多盗版,一直不倒,这里面学问可大了.

这个事情放在两三年前，我觉得是很难想象的事
现在doable了，对我来说是一个巨大的进步
至于不能再搞一个google出来，这个在预料之中，无所谓了
不指望靠山寨发财

【在 z****e 的大作中提到】

: 这个事情放在两三年前，我觉得是很难想象的事
: 现在doable了，对我来说是一个巨大的进步
: 至于不能再搞一个google出来，这个在预料之中，无所谓了
: 不指望靠山寨发财

z****e
发帖数: 54598

两三年前我的能力达不到啊
后来慢慢琢磨，突然发现，原来可以搞了
于是就有了这篇帖子
实际上很多人还是认为山寨搜索引擎不可行
至少我认识的很多pm还坚持这么认为
有些公司做了一个类似google的搜索引擎
不过是某一个行业内部的引擎
然后演示给那些pm看，把那些pm忽悠得一愣一愣的
私下里连说impressive，impressive
所以其实这里面还有很大的利润空间可以挖掘

【在 g****t 的大作中提到】

: search engine在2,3年前也是doable的.甚至在10年前也是doable的.
: 李彦宏当年一定比你现在技术好么?不见得吧.
: 李开复的phd论文基本上是开创性的.李彦宏在美国有啥?
: 但这里有个风险问题和执行能力问题.
: 光看技术,很多东西都是doable的.但往往外围资源是决定性的.
: 李如果没背景,说不定作流氓软件阶段就被周宏伟派人抓局子里去了.
: baidu搞了那么多盗版,一直不倒,这里面学问可大了.
:
: 这个事情放在两三年前，我觉得是很难想象的事
: 现在doable了，对我来说是一个巨大的进步

g****t
发帖数: 31659

已经有那么多山寨搜索引擎存在了。别人说是不是可行，已经不重要了。
360搞的那个，还有国内另外几个。用户体验都不差。
就是邓亚萍那个，其实也还行。
我搜国内资料，都是混合找。baidu，GooG至少20%的情况下,用户体验非常垃圾。
搜索引擎确实是还有很大空间。所以现在山寨出来的这些人，
还没有公开源代码。所以周宏伟才去做。
另外前段时间看到，
国内好像有个拼音输入法，自带搜索引擎，插入广告，不知道现在怎么样了。
国内那么多公司都能快速做出来质量在一定水准的，
这玩意儿在今天我真不觉得是不能山寨的。但能不能盈利，那就是另外一回事儿了。
光是很多法律和专利问题，一般的山寨公司，我看就受不了。

两三年前我的能力达不到啊
后来慢慢琢磨，突然发现，原来可以搞了
于是就有了这篇帖子
实际上很多人还是认为山寨搜索引擎不可行
至少我认识的很多pm还坚持这么认为
有些公司做了一个类似google的搜索引擎
不过是某一个行业内部的引擎
然后演示给那些pm看，把那些pm忽悠得一愣一愣的
私下里连说impressive，impressive
所以其实这里面还有很大的利润空间可以挖掘

【在 z****e 的大作中提到】

: 两三年前我的能力达不到啊
: 后来慢慢琢磨，突然发现，原来可以搞了
: 于是就有了这篇帖子
: 实际上很多人还是认为山寨搜索引擎不可行
: 至少我认识的很多pm还坚持这么认为
: 有些公司做了一个类似google的搜索引擎
: 不过是某一个行业内部的引擎
: 然后演示给那些pm看，把那些pm忽悠得一愣一愣的
: 私下里连说impressive，impressive
: 所以其实这里面还有很大的利润空间可以挖掘

n******t
发帖数: 4406

+1.

【在 f****4 的大作中提到】

: "再比如，日本人他们做游戏，很多时候，帧数控制在60fps
: 跟美帝技术上其实差得很远，美帝上个90fps无压力
: 但是小日本的游戏有的是市场
: 为什么？因为人眼对于60和90的差异不是那么敏感
: 60足够做出好的产品了，但是如果从数字上判断，这两个差距甚远"
: 你没怎么接触过做游戏的吧？因果关系，你不能想当然的从结果来推原因。。。
: 这个差异不是小日本的游戏有市场60fps就能做出好游戏——而是小日本和美帝做游戏
: 最初的硬件平台的选择有关系。小日本是自己做的硬件平台，美帝直接用的pc平台。
: 小日本为了把有限的硬件性能发挥到极致，做了很多优化：渲染，贴图等等。控制帧数
: 也仅仅是因为上到90fps的收益没有付出的运算成本高而已。那会同等运算能力下面，

z****e
发帖数: 54598

我想说的是，大多数时候，够用就行了
你说硬件性能上去了，那太好了，我更懒得去管了
现在硬件性能发展的速度远远超过软件的发展速度
总结就是：我压根没在说原因，这个部分我只在意结果
你告诉我说，现在实现90fps无压力，够了，谢谢
这就是我想知道的，至于怎么实现，那楼上猴屁股ghost搞定

【在 f****4 的大作中提到】

f****4
发帖数: 1359

你想说够用就行了，用的例子是小日本60fps也能做出好游戏，有市场。
我告诉你的是小日本用60fps不是因为你说的够用就行了，也不是你说的60fps和90fps
人眼看这差别不大。而是小日本最初选择的硬件平台的限制。更何况小日本为了在
60fps做出好游戏做了很多现在没有意义的工作。
几次见你回帖提到只在意结果之类的话。个人看法是，没到那个层次，别有这样的口头
禅。如果你想往产品经理/管理上靠的话。

【在 z****e 的大作中提到】

: 我想说的是，大多数时候，够用就行了
: 你说硬件性能上去了，那太好了，我更懒得去管了
: 现在硬件性能发展的速度远远超过软件的发展速度
: 总结就是：我压根没在说原因，这个部分我只在意结果
: 你告诉我说，现在实现90fps无压力，够了，谢谢
: 这就是我想知道的，至于怎么实现，那楼上猴屁股ghost搞定

z****e
发帖数: 54598

是啊，60fps的确做出了很多好游戏
这个结论有什么问题？
你说当初是硬件平台的限制
so what？
结论是一样的，并没有改变日本人用相对低劣的硬件作出了好游戏这个事实
对不对？
我要说的就是很简单的东西：够用就行
我也从来没有说过我做游戏的
你干嘛那么纠结这些东西？
而且你说的，当初硬件的差异在今天看来其实已经不是问题了
这恰好是我所喜闻乐见的
我不喜欢倒腾硬件n年了，要不然干嘛用java？
实际上你说的这个论据实在是太好了
因为
我就需要这个
因为google比起hadoop什么来说，其实强的部分，就是你所说的硬件部分
随着硬件越来越便宜，这些差异会被逐步抹杀掉，就是hadoop会逐步逼近google那些产品
也就是你自己说的，如果现在去为了那一点硬件差异
而努力优化的话，这些差异迟早会变成毫无意义的工作
那既然如此，我坐着等就好了，实际上hadoop现在效率越来越好了
我对此很满意，只是不明白你在纠结什么？
你还在纠结硬件的差异么？你没发现你说的恰好是我所需要的么？

90fps

【在 f****4 的大作中提到】

: 你想说够用就行了，用的例子是小日本60fps也能做出好游戏，有市场。
: 我告诉你的是小日本用60fps不是因为你说的够用就行了，也不是你说的60fps和90fps
: 人眼看这差别不大。而是小日本最初选择的硬件平台的限制。更何况小日本为了在
: 60fps做出好游戏做了很多现在没有意义的工作。
: 几次见你回帖提到只在意结果之类的话。个人看法是，没到那个层次，别有这样的口头
: 禅。如果你想往产品经理/管理上靠的话。

z****e
发帖数: 54598

更何况小日本为了在60fps做出好游戏做了很多现在没有意义的工作。
你信不信，今天那些写c++的程序员，尤其是在google写c++做gfs这些东西的程序员
有朝一日，它们会发现，它们做了很多将来无意义的工作？
理由同小日本
这就是我想要表达的
我基本上同意你的看法
我需要的也就是你的这个论据

90fps

【在 f****4 的大作中提到】

z****e
发帖数: 54598

日本人当初在机能非常有限的时候
作出了无数的经典游戏
小菊花说的街霸在今天看来就是贴图
侍魂之类的，所用的技术都非常老旧
基本上在我小时候，这些还算是高科技
等到我上高中的时候，硬件的更新已经远远超过软件的发展
但是
你如果认真观察，小日本的游戏越做越烂
日本的游戏业开始萧条，很明显不如以前那么繁荣
日本游戏的繁荣应该是90年代，达到一个高峰期
无数经典，但是当时硬件性能，都不怎样
基本上都是2d贴图
但是00之后，3d技术开始成熟
但也就是00之后，日本游戏开始没落
越做越烂
你有没有想过一个问题
就是硬件的日新月异，反而使得人们过于关注技术
而忽略了这个东西其本质是一个艺术，艺术的表达不是技术能够完全替换的
当然也许很远的将来有可能，但是
在你我有生之年，很多艺术的表达，并不需要完全借助技术来实现
实际上你看vanillaware的游戏
大部分都是2d，也就是贴图，也就是20年前就有的技术
但是一样大热大卖，实际上好几个热门游戏都是如此
其实我要说的就是，够用就行
你的例子恰好说明了这个观点
不知道你在争辩什么，而且你说的是日本游戏业起步初期的困境
而我更多侧重点在日本人技术成熟之后，反而做不出好游戏这一个事实
你有没有发现你压根没认真看我在说什么？
我还是认为够用就行，实际上现在缺少的不是技术水平
软硬件技术都足够了，对于绝大多数游戏来说
但是技术越先进，游戏业反而越萧条
why？
你回答了这个问题，你就知道我在说什么了

90fps

【在 f****4 的大作中提到】

z****e
发帖数: 54598

100

另外就是，我认为艺术的东西是不能用产品和管理来做的
也就是今天西方世界的商业管理那些
其实无法applied to艺术产品上
游戏电影什么都是艺术
艺术的成就需要有人喜欢，也就是需要有人喜欢这个东西
很多东西都无法量化去衡量
所以不是什么产品经理能够搞定的事
还有就是，现在hadoop已经遍地开花了
时不我待，你想等，那你继续等，等一辈子都行
我不打算等了，现在固然还会有问题，还有差距
但是我坚信这些差距会逐步被抹杀
所以我不等了，准备投入使用了
如果你想等，那你尽管等下去好了

相关主题
● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)	● C++多线程和硬件的关系
● 有同学愿意拿open source项目练手吗？	● 关于mapreduce一问
● java的内存管理真是气死我了	● big data怎么搞定商业报表？
进入Programming版参与讨论

z****e
发帖数: 54598

101

我个人的看法是
你应该再等20年再来讨论这个问题
好吧
20年后见
你要是对这个有所怀疑的话，那就不要做了
你继续等吧，20年也不远，等40年更好
好不好？我觉得可以，我就有这样的口头禅，我打算付诸实施
因为我觉得我到了这个层次，我认为hadoop足够用来山寨google了
我还认为，外面一堆乱七八糟的公司都开出了高价来用找人做hadoop
我觉得现在应该毫不犹豫滴投身其中
你觉得你没有到这个层次，你认为hadoop还不能用来山寨google的话
我不反对你继续等下去

90fps

【在 f****4 的大作中提到】

t****t
发帖数: 6806

102

我只看出来一件事, 你真是一个话痨

【在 z****e 的大作中提到】

: 我个人的看法是
: 你应该再等20年再来讨论这个问题
: 好吧
: 20年后见
: 你要是对这个有所怀疑的话，那就不要做了
: 你继续等吧，20年也不远，等40年更好
: 好不好？我觉得可以，我就有这样的口头禅，我打算付诸实施
: 因为我觉得我到了这个层次，我认为hadoop足够用来山寨google了
: 我还认为，外面一堆乱七八糟的公司都开出了高价来用找人做hadoop
: 我觉得现在应该毫不犹豫滴投身其中

r****y
发帖数: 26819

103

哈哈哈哈

【在 t****t 的大作中提到】

: 我只看出来一件事, 你真是一个话痨

t*******e
发帖数: 684

104

Google类比Nutch更恰当些。

【在 g*****g 的大作中提到】

: Google又不收你的钱，你这屌丝的引擎，上哪找小白鼠去。如果是说嵌入做应用，跟
: Hadoop可比的，当然有，比如SOLR，Elastic Search。

t*******e
发帖数: 684

105

细节决定成败。即便传统数据库，实现的细节也是非常复杂的。

f****4
发帖数: 1359

106

我花点时间先解释一下为啥我提小日本游戏60bps的问题。
首先，我赞同你的够用的理论。不论做什么，不是说最优解一定是最好的，而是刨去成
本之后收益最大的那个才是最好的。
尽管我同意你的结论，但是不能接受你用错误的例子来支持你的结论。而那个错误的例
子就是小日本游戏60bps的问题。你原贴里面说小日本用60bps做游戏，是因为60bps和
90bps人眼看起来差别不大，小日本用60bps做游戏也有大市场。我给你指出，小日本最
初选择60bps的初衷，不是因为他们考虑到60bps和90bps用户体验差别不大而主动选择
的；而是因为当时的硬件性能限制。
我们都不是文科生，不能用错误的例子来支持的结论，哪怕我们都认同那个结论。
"是啊，60fps的确做出了很多好游戏
这个结论有什么问题？
你说当初是硬件平台的限制
so what？
结论是一样的，并没有改变日本人用相对低劣的硬件作出了好游戏这个事实"
如果你要比较小日本的游戏和美帝的游戏，你考虑的就是产品问题而不是技术问题了。
对于游戏而言，可玩性，用户操作习惯，用户忠诚度，文化背景这些都需要考虑进来。
市场是否接受，游戏周边这些都会影响一个产品成功与否。你用一个特地时期的小日本
的游戏比美帝的强，来支持2者刷新率的差别不影响产品成功与否？这已经不是逻辑混
乱了，这是非常牵强。
我要强调的是，你在比较产品的时候，就比较产品。比较技术的时候就比较技术。哪怕
你在比较产品的时候要考虑技术因素也要把其它干扰因素刨除掉。
记住：永远不会有用户因为你的产品用牛X技术而掏钱的！
"因为google比起hadoop什么来说，其实强的部分，就是你所说的硬件部分
随着硬件越来越便宜，这些差异会被逐步抹杀掉，就是hadoop会逐步逼近google那些产品
也就是你自己说的，如果现在去为了那一点硬件差异
而努力优化的话，这些差异迟早会变成毫无意义的工作
那既然如此，我坐着等就好了，实际上hadoop现在效率越来越好了
我对此很满意，只是不明白你在纠结什么？
你还在纠结硬件的差异么？你没发现你说的恰好是我所需要的么？"
所以这部分，我完全不知道你到底想表达什么。。。你要说google硬件，那都是钱堆出
来的。任何公司想在这方面超过google，只能用钱堆出来。你要说google的产品，那你
得用一个用hadoop已经做出来的产品来比较。你要是想说google用的技术和hadoop来比
较，你们天天在吵这个话题，都已经日经帖了。。。

【在 z****e 的大作中提到】

: 是啊，60fps的确做出了很多好游戏
: 这个结论有什么问题？
: 你说当初是硬件平台的限制
: so what？
: 结论是一样的，并没有改变日本人用相对低劣的硬件作出了好游戏这个事实
: 对不对？
: 我要说的就是很简单的东西：够用就行
: 我也从来没有说过我做游戏的
: 你干嘛那么纠结这些东西？
: 而且你说的，当初硬件的差异在今天看来其实已经不是问题了

f****4
发帖数: 1359

107

哪怕是做c++的程序员也没幻想过能做一辈子。
但你有没有想过，随着技术的发展，有朝一日，现在的hadoop程序员也会发现他们做的
也都是将来无意义的工作？
只要时代在进步，现在的技术都会淘汰。要是你为了防止被淘汰而其赌一样技术能让你
长青下去，不如考虑点别的更实际一点。

【在 z****e 的大作中提到】

: 更何况小日本为了在60fps做出好游戏做了很多现在没有意义的工作。
: 你信不信，今天那些写c++的程序员，尤其是在google写c++做gfs这些东西的程序员
: 有朝一日，它们会发现，它们做了很多将来无意义的工作？
: 理由同小日本
: 这就是我想要表达的
: 我基本上同意你的看法
: 我需要的也就是你的这个论据
:
: 90fps

t*******y
发帖数: 1289

108

工作中最烦这种嘴炮，什么都说的怎么简单，好像很牛，总想指手画脚。
理论一句话，实际工程一大车。
选老板一定要选一个有实际具体工作经历的。他能帮你屏蔽很多嘴炮。

【在 z****e 的大作中提到】

f****4
发帖数: 1359

109

"你有没有想过一个问题
就是硬件的日新月异，反而使得人们过于关注技术
而忽略了这个东西其本质是一个艺术，艺术的表达不是技术能够完全替换的
当然也许很远的将来有可能，但是
在你我有生之年，很多艺术的表达，并不需要完全借助技术来实现
实际上你看vanillaware的游戏
大部分都是2d，也就是贴图，也就是20年前就有的技术
但是一样大热大卖，实际上好几个热门游戏都是如此
其实我要说的就是，够用就行
你的例子恰好说明了这个观点
不知道你在争辩什么，而且你说的是日本游戏业起步初期的困境
而我更多侧重点在日本人技术成熟之后，反而做不出好游戏这一个事实
你有没有发现你压根没认真看我在说什么？
我还是认为够用就行，实际上现在缺少的不是技术水平
软硬件技术都足够了，对于绝大多数游戏来说
但是技术越先进，游戏业反而越萧条
why？
你回答了这个问题，你就知道我在说什么了"
这么一大段都在谈论日本游戏，既然这样我就对产品展开一下。这样也有方便举例子讲
道理。泛泛而谈那是嘴把式。
首先，我的结论是产品成功与否与技术牛否没有必然关系。你先别因为和我结论一样就
嚷嚷，看看我是怎么分析日本游戏现在没落了。
- 从日本企业文化来讲。小日本擅长精益求精。改进改进再改进。打个比方来说，空调
吧，如果它说明书说能工作10年，那么这空调到第11年，第12年差不多还能工作得妥妥
的。小日本的企业会花很多资源来提高现有产品质量。哪怕用户根本用不上。简单讲，
老美5年就搬一次家，你让他多掏钱去买能工作12年的空调还是花一半不到的钱买个说
是能用6年，实际上5年就坏了的海尔？
这个特性导致日本企业在最初打市场的时候非常有竞争里（因为东西好用耐用）；坏处
就是一旦市场稳定之后，日本企业转型非常困难和缓慢。这样的例子实在太多了，sony
的walkman，松下的彩电。。。
回到游戏业上。在最初的时候，日本游戏在有限的硬件资源上是做到极致了。游戏的可
玩性，用户体验，周边外设。然后，然后就没有然后了。因为大环境变了，以前的家庭
式的，单机游戏不流行了。但他们又不能快速转型，市场越来越小。
- 00年之后，世道变了。首先硬件性能大幅提高。互联网蓬勃发展。网络游戏成为主流
，单机存盘游戏已经out了。小日本的单机游戏题材也挖掘得差不多了。想象一下：网
络互联玩生化危机，铁拳，22个人一起踢足球，大家一起玩同级生？我可不想
当丧尸给人爆头。或者再想象一下，拿手柄玩cs，魔兽，星际？大拇指估计得搓掉皮了。
。。
其次，移动设备的普及。整个得影响了大家玩游戏的方式。日本的主机式游戏方式太麻
烦了，移动设备上你就是大号一会都能玩会游戏。年轻人已经不接受游戏主机了。
游戏成本。你要玩日本游戏，先买主机，游戏，游戏周边支持。pc上玩只要买游戏。移
动设备上可能只要几刀，甚至是免费的。
- 日本游戏业对未来的预测出过几次错。还有些不务正业，比如konami。巅峰时期去搞
全CG电影，最终幻想。全世界第一部全CG制作的电影。结果是什么？拍完投资收不回来
，差点把自己玩死。
==结论：如果你要比较产品，别光把自己限制在硬件和软件上。那样的话，too simple
sometimes naive

f****4
发帖数: 1359

110

另外就是，我认为艺术的东西是不能用产品和管理来做的
也就是今天西方世界的商业管理那些
其实无法applied to艺术产品上
游戏电影什么都是艺术
艺术的成就需要有人喜欢，也就是需要有人喜欢这个东西
很多东西都无法量化去衡量
所以不是什么产品经理能够搞定的事
=艺术这东西真得很难说。不过我想没有人愿意成为梵高第二——死了之后才大红大紫
还有就是，现在hadoop已经遍地开花了
时不我待，你想等，那你继续等，等一辈子都行
我不打算等了，现在固然还会有问题，还有差距
但是我坚信这些差距会逐步被抹杀
所以我不等了，准备投入使用了
如果你想等，那你尽管等下去好了
=我没否认hadoop现在看起来是个不错的框架。但是我也不会因为现在hadoop遍地开花
而跟进。我会考虑对我职业的长期发展是否有帮助。我会去了解一下，起码知道它干嘛
的，优缺点是啥，that's it。
现在hadoop遍地开花而去跟进真的不是个好理由。难道秋天流感流行了，我也得去凑个
热闹？？？

相关主题
● big data怎么搞定商业报表？	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 请问为什么现在big data的toolkit都是和java有紧密的关系？	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● mapreduce, hadoop还能火几年？	● 能不能在hadoop中用open mpi?
进入Programming版参与讨论

f****4
发帖数: 1359

111

"hadoop足够用来山寨google了"
山寨出来干嘛用？你用理性的分析产品的角度和方法上就知道，这是多么得无聊了。
hadoop要是能爆发的话，也不是爆发在山寨google上。。。
"外面一堆乱七八糟的公司都开出了高价来用找人做hadoop
我觉得现在应该毫不犹豫滴投身其中"
只要你自己觉得合适，没人拦着你啊。但我还是会提醒一下考虑风险问题：
要是你年纪还轻，没有家庭拖累；要是你没有身份问题要考虑
只要别把自己玩死，多试试不同的东西，人生才精彩么。
回完这个帖子，我都佩服我自己了
大家周末愉快～

【在 z****e 的大作中提到】

l*********s
发帖数: 5409

112

why i feel you tone is very similar to zhaoce ... >__<

【在 f****4 的大作中提到】

: "hadoop足够用来山寨google了"
: 山寨出来干嘛用？你用理性的分析产品的角度和方法上就知道，这是多么得无聊了。
: hadoop要是能爆发的话，也不是爆发在山寨google上。。。
: "外面一堆乱七八糟的公司都开出了高价来用找人做hadoop
: 我觉得现在应该毫不犹豫滴投身其中"
: 只要你自己觉得合适，没人拦着你啊。但我还是会提醒一下考虑风险问题：
: 要是你年纪还轻，没有家庭拖累；要是你没有身份问题要考虑
: 只要别把自己玩死，多试试不同的东西，人生才精彩么。
: 回完这个帖子，我都佩服我自己了
: 大家周末愉快～

z*******3
发帖数: 13709

113

我在讨论可行性，你出来指手画脚什么？
不想说别来捣乱好不好？

【在 t*******y 的大作中提到】

: 工作中最烦这种嘴炮，什么都说的怎么简单，好像很牛，总想指手画脚。
: 理论一句话，实际工程一大车。
: 选老板一定要选一个有实际具体工作经历的。他能帮你屏蔽很多嘴炮。

z*******3
发帖数: 13709

114

你认同结论就差不多了
论据我还真不觉得说错了多少，小日本用60fps做游戏是一个客观事实
当然小日本用一个相对差的硬件有各种理由
但是事实本身是原因，而我推论是，基于这个事实，得出某个结论
而不是基于这个事实的原因，得出某个结论
所以这个原因本身可以不用去讨论它
还有就是，其实这个帖子出发点本身来自code challenge
也就是面试时候遇到的一个
给50分钟，写出一个web crawler
所以基于这个事实出发，我在想，能不能出一个code challenge
给你一天时间，prototype一个google出来

【在 f****4 的大作中提到】

: 我花点时间先解释一下为啥我提小日本游戏60bps的问题。
: 首先，我赞同你的够用的理论。不论做什么，不是说最优解一定是最好的，而是刨去成
: 本之后收益最大的那个才是最好的。
: 尽管我同意你的结论，但是不能接受你用错误的例子来支持你的结论。而那个错误的例
: 子就是小日本游戏60bps的问题。你原贴里面说小日本用60bps做游戏，是因为60bps和
: 90bps人眼看起来差别不大，小日本用60bps做游戏也有大市场。我给你指出，小日本最
: 初选择60bps的初衷，不是因为他们考虑到60bps和90bps用户体验差别不大而主动选择
: 的；而是因为当时的硬件性能限制。
: 我们都不是文科生，不能用错误的例子来支持的结论，哪怕我们都认同那个结论。
: "是啊，60fps的确做出了很多好游戏

z*******3
发帖数: 13709

115

未必吧
你看c++程序猿每次讨论语言时候
哪个不是如丧考妣
跳得最高得就是那几个c++程序猿
还有c#得那几个，其实这几个都跟某m公司有很大渊源
有个小心得，下次遇到了，直接用拿钱发帖死全家，问候
其实挺管用，有个id自从遇到这句话之后
再也不敢找事了
你说技术淘汰
这个其实我不认同
某些时候走错路了
并不代表前面做得东西就一定会背淘汰掉
比如os就会剩下来
同样道理，hadoop以后也会剩下来
你在这个基础之上，再做什么发展
那有可能，但是从现在看，热点还在这里
还有利可图，所以应该上

【在 f****4 的大作中提到】

z*******3
发帖数: 13709

116

google本身从某种意义上说就是山寨他人题材的产物
另外就是，我从事这行久了之后的心得就是
其实你拿permanent的工资，经常会做跟contractor一样的事
所以与其如此，还不如直接上contractor

【在 f****4 的大作中提到】

z*******3
发帖数: 13709

117

你的结论有问题
你有没有发现，ff的电影版
恰恰就是非常讲究技术的产物？
ff电影版就技术而言，在当时，算是非常顶尖的
如果你把ff电影版作为例子的话
恰恰说明了一点
用技术强来搞艺术
其实是误入歧途

【在 f****4 的大作中提到】

: "你有没有想过一个问题
: 就是硬件的日新月异，反而使得人们过于关注技术
: 而忽略了这个东西其本质是一个艺术，艺术的表达不是技术能够完全替换的
: 当然也许很远的将来有可能，但是
: 在你我有生之年，很多艺术的表达，并不需要完全借助技术来实现
: 实际上你看vanillaware的游戏
: 大部分都是2d，也就是贴图，也就是20年前就有的技术
: 但是一样大热大卖，实际上好几个热门游戏都是如此
: 其实我要说的就是，够用就行
: 你的例子恰好说明了这个观点

z*******3
发帖数: 13709

118

了解hadoop其实是前一段的重点
现在再了解亡羊补牢了
不过为时未晚就是了

【在 f****4 的大作中提到】

: 另外就是，我认为艺术的东西是不能用产品和管理来做的
: 也就是今天西方世界的商业管理那些
: 其实无法applied to艺术产品上
: 游戏电影什么都是艺术
: 艺术的成就需要有人喜欢，也就是需要有人喜欢这个东西
: 很多东西都无法量化去衡量
: 所以不是什么产品经理能够搞定的事
: =艺术这东西真得很难说。不过我想没有人愿意成为梵高第二——死了之后才大红大紫
: 还有就是，现在hadoop已经遍地开花了
: 时不我待，你想等，那你继续等，等一辈子都行

f****4
发帖数: 1359

119

:D
主要别的帖子，好歹zhaoce还是在和你摆事实讲道理，就算逻辑上有问题，也是可以客
观的理论一下的
唯独这个帖子完全是主观的，那我也只能主观的反驳一下了

【在 l*********s 的大作中提到】

: why i feel you tone is very similar to zhaoce ... >__<

f****4
发帖数: 1359

120

只要你想，你能从任何事实上强推你要的结论——哪怕这推理根本站不住脚。。。
konami做ff CG电影这事
-首先konami它不专注它的主营业务。打个比方，老干妈满世界卖辣酱，这就叫做专注
主营业务；老干妈哪天投了笔钱进房地产，如果结果是赚钱了，那叫多元化经营，如果
赔钱了，那就叫不专注主营业务。konami投钱进CG电影，因为是陪钱了，所以这是它不
专注主营业务。究其原因，是管理层的决策失误。
-没错，ff在当时就技术而言算得上是顶尖的。ff其实在日本，亚太地区的票房其实都
还可以，但是在欧美惨败。konami高层完全没考虑到文化背景的差异，票房惨败也是必
然的。这和你说的用技术搞艺术是误入歧途没一分钱关系。你看阿凡达，全球票房如何
就知道了，技术也可以搞艺术的。
-最后，ff CG电影完全可以支持我说的“没有用户会仅仅因为你用了牛X技术来掏钱的
”所以，你要说某个产品产品好的时候，别只说它用了哪个技术，然后以此来说那个技
术牛X。最最起码，你也要刨掉别的影响因素。不然你的结论完全站不住脚的。
你回头看看我贴的帖子，我没对hadoop下任何结论。我只是在强调你比较产品的时候要
全面。不能把产品和技术混一块比，那样会比较客观。

【在 z*******3 的大作中提到】

: 你的结论有问题
: 你有没有发现，ff的电影版
: 恰恰就是非常讲究技术的产物？
: ff电影版就技术而言，在当时，算是非常顶尖的
: 如果你把ff电影版作为例子的话
: 恰恰说明了一点
: 用技术强来搞艺术
: 其实是误入歧途

相关主题
● 这里有没有多线程算法的专家？	● MapReduce 的思想是怎么发明的？
● 转行做data warehouse的问个学习大数据的问题	● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？
● Flink Sparks Next Wave of Distributed Data Processing	● Re: 劈柴进狗狗是靠刷题么？ (转载)
进入Programming版参与讨论

j********x
发帖数: 2330

121

智障？可行性不考虑工程可行性？登月不就是把人加速到能飞到月球的速度么？有什么
难的？
为你的智商捉急。。。

【在 z*******3 的大作中提到】

: 我在讨论可行性，你出来指手画脚什么？
: 不想说别来捣乱好不好？

z****e
发帖数: 54598

122

我靠，还不允许我自己家里做一个来玩了？
你想干什么？我就山寨一个了，你怎么着吧

【在 j********x 的大作中提到】

: 智障？可行性不考虑工程可行性？登月不就是把人加速到能飞到月球的速度么？有什么
: 难的？
: 为你的智商捉急。。。

z****e
发帖数: 54598

123

这贴也不能说是主观，我只是想山寨一个而已
倒腾倒腾玩玩蛮有趣

【在 f****4 的大作中提到】

: 只要你想，你能从任何事实上强推你要的结论——哪怕这推理根本站不住脚。。。
: konami做ff CG电影这事
: -首先konami它不专注它的主营业务。打个比方，老干妈满世界卖辣酱，这就叫做专注
: 主营业务；老干妈哪天投了笔钱进房地产，如果结果是赚钱了，那叫多元化经营，如果
: 赔钱了，那就叫不专注主营业务。konami投钱进CG电影，因为是陪钱了，所以这是它不
: 专注主营业务。究其原因，是管理层的决策失误。
: -没错，ff在当时就技术而言算得上是顶尖的。ff其实在日本，亚太地区的票房其实都
: 还可以，但是在欧美惨败。konami高层完全没考虑到文化背景的差异，票房惨败也是必
: 然的。这和你说的用技术搞艺术是误入歧途没一分钱关系。你看阿凡达，全球票房如何
: 就知道了，技术也可以搞艺术的。

z****e
发帖数: 54598

124

ff电影版在日本勉强凑合，亚太区就算了，没人买账，最后square整个赔进去了
ff不是KONAMI做的，这个你要不信可以问在膏药国的小菊花
技术是可以用来搞艺术，我没有否认这一点，但是这样做往往是失败的
技术不是艺术的全部，艺术很多时候不需要那么cutting edge的技术
只追求技术反而可能使艺术作品误入歧途

【在 f****4 的大作中提到】

f****4
发帖数: 1359

125

哦，没去google到底是谁做的了，太久了

【在 z****e 的大作中提到】

: ff电影版在日本勉强凑合，亚太区就算了，没人买账，最后square整个赔进去了
: ff不是KONAMI做的，这个你要不信可以问在膏药国的小菊花
: 技术是可以用来搞艺术，我没有否认这一点，但是这样做往往是失败的
: 技术不是艺术的全部，艺术很多时候不需要那么cutting edge的技术
: 只追求技术反而可能使艺术作品误入歧途

g*c
发帖数: 4510

126

不是最好的爬者也只能爬到16%嘛
漏掉一半还富裕两倍

★ 发自iPhone App: ChineseWeb 7.8

【在 o**********t 的大作中提到】

g*c
发帖数: 4510

127

你真无聊。

★ 发自iPhone App: ChineseWeb 7.8

【在 w***g 的大作中提到】

: 版主赶紧过来把这人封了吧.

p*****u
发帖数: 214

128

想想图书馆检索，和你自己的书架之间的区别就知道，为什么要用优化算法去去安排书
架和编码了，怎么检索最快。这就是google做的世界级类似于图书系统的系统。

d********f
发帖数: 43471

129

在你眼里都不如用ｊｓｐ写个网站前端，可能还不如美工

【在 z****e 的大作中提到】

l*****t
发帖数: 2019

130

线程还是进程？

【在 z****e 的大作中提到】

相关主题
● hadoop job 速度提升	● 有同学愿意拿open source项目练手吗？
● 十个包子求助：NodeJS多线程？	● java的内存管理真是气死我了
● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)	● C++多线程和硬件的关系
进入Programming版参与讨论

z***e
发帖数: 5393

131

足球无非是用脚踢圆形皮球＋11个人分开踢最后把结果归并的一个过程而已，如果经常
运动能坚持跑步，其实大同小异。。。

【在 z****e 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● 在Hadoop 2.7上如何实现 MapReduce Job Chaining？	● 关于mapreduce一问
● Re: 劈柴进狗狗是靠刷题么？ (转载)	● big data怎么搞定商业报表？
● hadoop job 速度提升	● 请问为什么现在big data的toolkit都是和java有紧密的关系？
● 十个包子求助：NodeJS多线程？	● mapreduce, hadoop还能火几年？
● 想搭一个搜索引擎，哪种open source的crawler最好？ (转载)	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 有同学愿意拿open source项目练手吗？	● Intro to Hadoop and MapReduce @ ucadicy 有人学过么？ 199块 (转载)
● java的内存管理真是气死我了	● 能不能在hadoop中用open mpi?
● C++多线程和硬件的关系	● 这里有没有多线程算法的专家？

相关话题的讨论汇总
话题: hadoop话题: google话题: 游戏话题: crawler话题: 东西

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天