由买买提看人间百态

topics

全部话题 - 话题: 数据
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)
w******r
发帖数: 139
1
来自主题: Faculty版 - 博士后带着原始数据跑路了
我是楼主,问题是这个pdf文件,有些数据需要重新画(她也答应回头重新画),比如
有的只画了一个(两个数据的)比列值,我需要把原来的两个数据都画出来,所以需要
一些原始数据。
走之前,这个博士后还怕我吞了她的文章,还跟我签了一个Agreement,说哪个工作她
应该做第一作者等,这些要求都是合情合理的,我也没打算做任何不profesional的事
,同时我也担心她走了之后就不管这些文章了,所以就签了。另外,我也长了个心眼,
专门在这个协议的最后一条说明,她必须将样品和相关原始数据转交给我。样品算是转
给我了,但数据没有,我以为她会留一个备份的,但她用软件恶意删除了她的工作电脑
。现在,她人在欧洲。
除此之外,她还将她搭的一个设备拆了(有一些很特别的部件不见了,我怀疑是她拿走
了,但没证据),我觉得这个也相当的不professional,她是拿工资干活的。
我觉得她违约在先,如果她执意不回我的邮件,我只能用她的部分数据,另外再让学生
补充一点实验,将故事讲述完整,如果我不将她的名字放在要发的文章里(包括她是二
作的文章),有什么不妥?主要是对她很火大。 她要是合作,我当然可以她得到她应
当... 阅读全帖
m*****f
发帖数: 1243
2
发信人: phylips (星星||一年磨十剑), 信区: Algorithm
标 题: 大数据量,海量数据 处理方法总结
发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站(bbs.xjtu.edu.cn)
最近有点忙,稍微空闲下来,发篇总结贴。
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一
些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并
不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。
下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好
的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,
查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的
结果是100%正确的。同时也不支持删除一个

发帖数: 1
3
职责:
1. 负责新一代地图数据平台的架构设计,指导研发团队高效实施。
2. 深刻理解GIS以及地图相关数据,设计合理的数据库模型,支持海量的地图数据在线
编辑、质检、融合及发布,并保证平台的高可用性、高效率以及高扩展性。
职位要求;
1. 有多年GIS相关工作经验,熟悉地图的数据格式以及生产方式,有数据作业平台相关
经验更佳。
2. 有多年的数据平台架构实战经验,至少具备1个大型数据库实施项目经验。
3. 深刻理解MySQL/PostgreSQL等数据库原理,能结合地图数据的特殊需求设计合理的
数据方案。
4. 具备强大的自我驱动力与自学能力,乐于迎接挑战、知难而上。
5. 具备较宽的行业视野,能及时吸收和引进行业经验。"
m*********r
发帖数: 1
4
品行精准营销顾问有限公司(PPA)
市场营销数据分析师招聘岗位说明
公司名称:品行精准营销顾问有限公司(PPA) (www.ppamedia.cn)
公司行业:中国领先的基于银行信用卡数据的精准营销公司
公司规模:50-200人
公司所在地区:中国大陆- 北京
截至日期: 2009-9
最低工作年限:2年
招聘人数:3人
最低学历:本科
月薪:优厚
工作地点:北京、上海
岗位描述
1. 分析银行卡及其他各类交易数据,建立与产品相匹配的市场营销反应模型;
2. 不断提高营销产品的响应率与销售成交率,促进单位成本交易额的提升;
任职要求
1. 背景要求:有2年以上的市场营销数据分析和市场营销数据模型构建经验,在银行信
用卡部门从事相关工作者优先。经验包括:
- 针对海量数据的数据分析、数据挖掘、数据建模经验
- 熟练使用SAS、SPSS或其他数据分析和数据建模工具
- 理解银行(特别是信用卡银行)业务模式及其与所使用数据的相关性
- 了解零售银行个生命周期的各个环节,包括市场营销、信用卡申请、账户管理及
信用管理等
f**r
发帖数: 865
5
er, 我来解释一下吧。
我个人感觉,在教育孩子方面,市面上各种各样的说法很多,但是如果
仔细推敲的话,大多数(实际上在我所接触的范围内,是绝大多数)都
是观点和推理比较多,用来支持的数据有的薄弱,有的干脆没有(个案
不能算)。按照某作家以前说过的一句话,就是养吾浩然之气,然后觉
得自己事事都对,甚至里面我觉得有些质量比较高的书也有这个问题。
比如以前读过一本叫做“unconditional parenting"的书,其实里面提
出的育儿方法我很喜欢,但是很遗憾在提供数据支持上也是含糊其辞。
我之所以把Freaknomics这本书里的结论贴给大家看,有一个重要的原
因是因为作者采取的方法和以上做法是相反的。他对如何教育孩子没有
预先的定见,但是想知道市面上的比较流行的说法哪些有数据支持,哪
些没有。这本书是米国的畅销书,实验的出处都列得相当详尽,如果有
兴趣不妨看看,是很有趣的一本书。这本书支持和反对的人都不少,反
对其中结论的人也有不少是对实验的可靠性发出质疑的,后来作者自己
也对其中几处失误的地方(比如3k党)做了订正。这个作者本人是芝加
哥大学的经济学教授,擅长数据分析。我不是说... 阅读全帖
z*m
发帖数: 3227
6
【 以下文字转载自 Military 讨论区 】
发信人: desesperado (Estoy), 信区: Military
标 题: 北京环保局:美使馆PM2.5数据获取不规范 离污染源太近
发信站: BBS 未名空间站 (Tue Jan 31 17:54:58 2012, 美东)
http://news.163.com/12/0201/01/7P52T53700014AED.html
核心提示:北京环保局表示,正构建全市的PM2.5监测网络,未来,将在16个区县建成30多个监测点。环保局还回答了为何与美使馆监测数据不一致,称美使馆监测点设置和空气质量评价标准都不符合规范。
为何美使馆数据与环保局不一致?
有市民提出“美国大使馆的数据为何与市环保局发布的数据不一致”,于建华解释说,首先,要看这个监测数据背后是否有一个实验室在为其服务,“实验室是空气质量数据发布的保障,仪器校准等工作需由专业人员维护,否则将产生很大差距。”其次,按照国际惯例,监测点应离污染源50米以外,但美国大使馆的监测点位设在路边,离污染源较近,设置不规范。此外,即使是在美国当地,也是以24小时的平均数据作为全天... 阅读全帖
m*********r
发帖数: 98
7
多年的经济动荡使美国民众仍感到财政危机,事实上,民众并未走出经济不安。各调研
机构及政府公布的数据可以证明90%的底层民众的生活并没有好转,反而更加糟糕。
全美中小企业受规章制度、官僚作风与各种税收影响,举步难行。国家的大部分财富则
集中在大型企业手中。以下22组数据可以证明大多底层美国民众越来越穷了。
一、据皮尤研究所(Pew Research Center)的数据,7%最富有的美国家庭掌握63%的国
家财富。
二、2009年至2011年间,93%的底层民众所持有的财富缩水4%,而7%最富有的美国家庭
财富增长28%。
三、7%最富有的家庭所持有的财富是93%底层民众的24倍。
四、目前,1%最富有的美国人所持有的净财富比90%的底层美国民众持有的财富多。
五、根据经济政策学会(Economic Policy Institute)的数据,1%最富有的家庭所持
有的财富是中产阶级家庭平均财富的288倍。
六、据《福布斯》公布的数据,400名最富有的美国人所持有的财富比1.5亿底层美国民
众所持有的财富多。
七、沃尔玛超市创始人的6名继承人所获得的财富与处于最底层的1/3民众所持有的财富... 阅读全帖
l****t
发帖数: 1379
8
来自主题: Stock版 - 周五的JOB数据90%是好的.
从周四ADP的数据就看出美国的数据做的多明显了. 几次ADP的数据象做过山车
一样, 感觉就是雇主今天雇了明天裁了...还是那个谁来着, 忘记了, 一个白人
老头说的好, 从来不相信政府数据.
美国政府的工作人员大家应该都清楚,就是一帮没受过啥教育的黑人大妈大嫂们,他们
统计的东西可靠性可想而知.
其次,这些所谓的市场指标都是为政治目的做准备的. 那个数据应该好, 哪个应该差
还不是一两个数的事么.正想原来说的一样,时间最重要.
现在的形势下, 股市必须推高到令人疯狂才行, 所以近期所有重要数据一定不错,况
且前一段的数据很糟糕,所以现在的数据就被配称的很好了. 还要配合快来临的一些
财报和最近要发生的政治问题. 在大跌前必然要让你疯狂, 所以现在如果SHORT被套了, 就抗
着. 同时搞点LONG赚点快钱.
个人感觉.
z*m
发帖数: 3227
9
【 以下文字转载自 Military 讨论区 】
发信人: desesperado (Estoy), 信区: Military
标 题: 北京环保局:美使馆PM2.5数据获取不规范 离污染源太近
发信站: BBS 未名空间站 (Tue Jan 31 17:54:58 2012, 美东)
http://news.163.com/12/0201/01/7P52T53700014AED.html
核心提示:北京环保局表示,正构建全市的PM2.5监测网络,未来,将在16个区县建成30多个监测点。环保局还回答了为何与美使馆监测数据不一致,称美使馆监测点设置和空气质量评价标准都不符合规范。
为何美使馆数据与环保局不一致?
有市民提出“美国大使馆的数据为何与市环保局发布的数据不一致”,于建华解释说,首先,要看这个监测数据背后是否有一个实验室在为其服务,“实验室是空气质量数据发布的保障,仪器校准等工作需由专业人员维护,否则将产生很大差距。”其次,按照国际惯例,监测点应离污染源50米以外,但美国大使馆的监测点位设在路边,离污染源较近,设置不规范。此外,即使是在美国当地,也是以24小时的平均数据作为全天... 阅读全帖
s***d
发帖数: 15421
10
来自主题: Stock版 - 大家要积极布局数据公司
数据数据数据,数据无价! 硬件只是收集数据,处理数据的.拥有数据的公司才值得拥有.
拥有所有数据的公司,可以堪比政府,甚至代替政府,实行AI 政府.
t*c
发帖数: 8291
11
由于政府关门, 一月二月的数据不太可靠
中国进出口二月份数据受春节影响太大,也不可靠。
所以全球市场等待中美三月份数据。
如果美国三月份的就业数据糟糕, 那就是美国凉了。
如果中国三月份进出口数据糟糕, 那就是全世界需求凉了。
不过这些数据要等一个多月之后才会出来。
但是MM应该现在就心里有数。他们获得数据的渠道多。 很多数据跟内线一打听就有了
N****g
发帖数: 2829
12
很简单啊,5月初拿到USCIS的最新数据,发现面临超额,立马倒退了。下面是你4/28跟
他的对话“他说,得到的数据信息非常有限,会要求USCIS提供每个国家和每个类别的
visa数使用情况。”,对话以后,他得到了最新数据,于是立马倒退了。所以我说
USCIS的实批数据才是倒退的关键。
http://www.mitbbs.com/article/EB23/32067661_0.html
发信人: yoyo0220 (yoyo), 信区: EB23
标 题: Re: 向奥本求证了一下跟AILA透露的VB预测
发信站: BBS 未名空间站 (Mon Apr 28 18:31:56 2014, 美东)
首先奥本在今年2月份的时候就透露排期6月不退(这个6月,我的理解是5月出的VB不退
),3月份奥本还坚持认为自己的判断是对的,6月不退,提到有个原因是缺乏USCIS的
数据支持,4月份(也就是今天)他说他跟AILA所透露的信息,和他在2月和3月说的内
容是一回事,没有变化。又追问他USCIS的更新数据是否拿到了,他说,得到的数据信
息非常有限,会要求USCIS提供每个国家和每个类别的visa数... 阅读全帖
N****g
发帖数: 2829
13
"五月上旬奥本在电话里面肯定了EB3C名额已经用超81%了。"
这一点很关键,这也跟我说的奥本5月上旬收到USCIS来的实批数据,发现EB3C面临超额
,于是立马倒退是一致的。
EB3C一年就2500多名额,实批81%就是2000名额已经去了。还有500其中差不多一半要留
给CP。剩下差不多250是给AOS,从4月公布的485 inventory看,当时PD在2009年前的原
生EB3C库存还有200多,加上海量降级的EB3C,如果不立马倒退,这250个AOS可以瞬间
用完。而且内部U以后还有不少漏网之鱼可以被批,这个在版上当时也出现一些,奥本
还要给这些漏网之鱼打些余量。所以奥本一看情况不对,立马内部U,然后再慢慢放也
就不难理解了。

发信人: Helsinki (每天看几个笑话然后蛋腚地桑拿), 信区: EB23
标 题: Re: 多久奥本可以拿到实批数据?
发信站: BBS 未名空间站 (Sun Dec 7 21:02:51 2014, 美东)
大家考虑问题不能相信任何人的一面之词。从我这边的一面之词是这样的。
大家可能不记得时代的背景了,2013年的主流声音是EB3排期是... 阅读全帖
g******4
发帖数: 6339
14

没有数据,容易口耳相传, 口耳相传 容易转错.
"学区房" 是一个很好的例子... 口耳相传20年以上 ... 误导很多中国人.
-----------------------------
发信人: gogo2004 (挑灯看剑), 信区: Chicago
标 题: Re: 房价要跌 ?? alan2009, 有数据,贴数据. 否则,不要误导!
发信站: BBS 未名空间站 (Tue Sep 29 13:31:39 2015, 美东)
挺好。但仍然没有数据.
没有数据,容易口耳相传, 口耳相传 容易转 错.
数据,只有数据可以告诉真相.
-------------------------
b*********r
发帖数: 2532
15
【 以下文字转载自 Returnee 讨论区 】
发信人: benchmarker (maine), 信区: Returnee
标 题: 中国经济数据,举世议论纷纷:增长乏力面临硬着陆
发信站: BBS 未名空间站 (Sat Aug 11 15:35:21 2012, 美东)
中国是世界经济增长的发动机,然而中国经济即将出现好转的希望却变得渺茫起来,因
为9日公布的一组令人失望的经济数据显示,7月份工业产值和零售销售额增幅大大低于
市场人士的预期。
受海外需求疲软和北京去年努力抑制通胀的遗留影响困扰,中国经济蹒跚而行的局面已
持续多月。
当局今年彻底改变了其中的很多措施,市场人士因此认为几个月来中国经济可能已经渡
过了最困难时期。然而,由于7月份的数据非常疲弱,市场人士预计北京会加紧采取刺激
措施,以助推经济复苏。
但中国经济也有积极的一面。通胀已从去年夏天的高水平跌落。9日公布的数据显示,7
月份消费价格指数(CPI)同比上涨1.8%,大大低于6月份的2.2%。
这给当局提供了采取行动的余地,也使市场产生了北京很快会宣布采取其他措施刺激增
长的预期。这些措施很可能包括进一步释放银行... 阅读全帖
o**********e
发帖数: 18403
16
来自主题: SanFrancisco版 - 发现一数据造假的老印 (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: onetiemyshoe (onetiemyshoe), 信区: JobHunting
标 题: 发现一数据造假的老印 (转载)
发信站: BBS 未名空间站 (Thu Aug 13 11:02:56 2015, 美东)
发信人: hopeusw (云子), 信区: Faculty
标 题: 发现一数据造假的老印
发信站: BBS 未名空间站 (Tue Aug 11 19:04:30 2015, 美东)
本来是帮一个杂志审稿,这人开头就说他的计算机模型的准确率是100%,因为他是做动物
数据模拟的,本身实验数据的准确率能有80%就不错了.
我就查了查他的数据,非常简单的造假,就是如果预测的结果不好,这个数据他就不用了,
理由是处理不了,然后有的是预测结果是2.3,然后就把原始数据从2.8给改成2.3,如此种
种.
我又翻翻这位最近的PAPER,光今年就好几篇类似的,都是号称100%的准确率,这么好的结
果,挑的都是3分左右的杂志发,我刚给里面最好的一个杂志的主编写了封信,看看他怎么
说.
另外我不知道好多审稿子的有没有... 阅读全帖
o**********e
发帖数: 18403
17
来自主题: SanFrancisco版 - 发现一数据造假的老印 (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: onetiemyshoe (onetiemyshoe), 信区: JobHunting
标 题: 发现一数据造假的老印 (转载)
发信站: BBS 未名空间站 (Thu Aug 13 11:02:56 2015, 美东)
发信人: hopeusw (云子), 信区: Faculty
标 题: 发现一数据造假的老印
发信站: BBS 未名空间站 (Tue Aug 11 19:04:30 2015, 美东)
本来是帮一个杂志审稿,这人开头就说他的计算机模型的准确率是100%,因为他是做动物
数据模拟的,本身实验数据的准确率能有80%就不错了.
我就查了查他的数据,非常简单的造假,就是如果预测的结果不好,这个数据他就不用了,
理由是处理不了,然后有的是预测结果是2.3,然后就把原始数据从2.8给改成2.3,如此种
种.
我又翻翻这位最近的PAPER,光今年就好几篇类似的,都是号称100%的准确率,这么好的结
果,挑的都是3分左右的杂志发,我刚给里面最好的一个杂志的主编写了封信,看看他怎么
说.
另外我不知道好多审稿子的有没有... 阅读全帖
s*******u
发帖数: 1855
18
http://bbs.hoopchina.com/0909/853891.html
统治性?——数据篇!由 alfredwang 发表在HoopChina·篮球场 http://bbs.hoopchina.com/nba
个人习惯,数据贴前先花一部分内容解释数据来源和处理方法。如果你只是看结论可以
直接进入第二部分以图一乐。但如果你想砸砖或是BS我,请先看完第一部分。
第一部分——解释篇
一、为什么要处理数据?
答:毫无疑问各个年代的数据含金量是不同的。打个比方:A同学00年代考试90分,他
的同学平均80分;B同学90年代考试90分,而他的同学平均只能考60分;虽然分数一样
,谁的含金量高一看可知。为了合理比较不同年代的数据,所以要简单的处理一下数据。
二、处理数据要避免什么?
答:很明显要避免感情色彩。根本的一条就是不陷入到具体篮球战术、篮球规则的争论
中。比如三分线的制定、联防的使用、防守三秒、进攻保护、球员身体素质、还有更丰
富的战术(现在锅巴的战术数可能都轻易超过主教)等等这些同时作用,到底使比赛容
易了还是更难了,谁也无法说清。所以我直接使用相对分数。
什么意思呢?回到前一
o**4
发帖数: 35028
19
来自主题: Basketball版 - 邓肯和奥尼尔数据对比zz
一、对碰数据
邓肯和奥尼尔职业生涯对碰49次,奥尼尔28胜领先。场均数据
奥尼尔 24分/12.5板/2.3助攻/3.0封盖 54%命中率
邓肯 24.2分/12.7板/3.4助攻/1.9封盖 46%命中率
除命中率外,相差无几。
两人不对位,不互相防守,上述数据不反映直接对抗情况,结合场上情况,有以下
几个观点:
1、邓肯场均出手18.8次,比其个人平均数高出2.4次,说明湖人/热火大前锋位置
偏弱,邓肯有更多出手机会。邓肯命中率46%,比其个人平均数低5%,主要是由于邓肯
攻击位置外移造成。
2、奥尼尔场均出手17.2次,比其个人平均数低0.5次,奥尼尔命中率比其个人平均
数低4%,说明马刺中锋位置对奥尼尔的制约是有效的。
奥尼尔VS邓肯 季后赛场均数字比较
98-99 23.8分/13板/49%命中率 29分/10.8板/51%命中率
00-01 27分/13板/54%命中率 23分/12板/48%命中率
01-02 21.6分/12.2板/45%命中率 29分/17.2板/43%命中率
02-03 25.3分/14.3板/56%命中率 28分/11.8板/53%命中率
03-0... 阅读全帖
F***m
发帖数: 2284
20
来自主题: Basketball版 - 浓眉这数据太逆天了,又还赢了
那时看的时候,还有一点点时间,黄蜂领先了。以为黄蜂会赢了,结果打了加时赛。然
后,水鸟竟然赢了。
这是这个赛季水鸟赢的很少的比赛之一,赢的还是已经是劲旅的黄蜂。
浓眉砍下了38+16的数据,几乎一个人打爆了对内的内线。
不知道为什么,发现最近两年,球星的数据都涨的疯狂,不知道是球风和战术的原因,
还是球星能力突然提升厉害。
我个人觉得应该是和战术还有球风有关。
浓眉这种数据,表妹这种数据,都是在巅峰胖子身上才有的。
有一段时间20+10是超级内线的数据,现在看来这样说 数据简直是上不了台面一样。
然而让我们纳闷的是,这种数据虽然很华丽,可是赢不了球,类似的还有之前在森林狼
的乐福。乐福的数据比起奥尼尔都要厉害,可是成绩,唉,无语。
今天不仅水鸟赢了,就连76人都赢了。
120比105赢了太阳,恩比德终于发威,这个修养很久的超级内线,现在开始有了点兑现
潜力的样子了。
不过感觉76人的阵容还是不平衡,当时选秀的时候,76人的经理实在有点不知道脑子是
怎么想的。

发帖数: 1
21
我已经可以肯定了,可以肯定的是韦少已经放弃来晋级季后赛第二轮的机会来刷数据了
。还有人说什么“如果韦少不多投篮的话那他雷霆的球队也投不进”,真的是这样吗?
就韦少这命中率还好意思说,随便拉出来一个雷霆的球员在这场比赛都比韦少的命中率
要高。来看看韦少这场比赛的数据啊,拿到了五十一分,十个篮板和十三个助攻,还被
称之为了NBA历史上得分最高的三双和首个50+三双,还好意思要这两个数据,丢人不丢
人?
韦少在这场比赛拿到的分数确实是不少,可是这些数据是怎么来的呢?是靠韦少那高达
四十多次的投篮和将近二十次的发球得来的。四十三次投篮,仅仅只命中了十七次,高
吗?连百分之五十的命中率都没有,这不是刷数据这是在干什么?哈登仅仅只出手了十
七次还能拿到三十五分,可韦少出手四十多次才拿到五十分,还不够丢人的?
确实是在刷数据,这已经不是嫌疑了,而是确实是在刷数据,如果不是刷数据的话那怎
么可能全队一半的投篮都交给韦少呢?要不得输,这样打比赛不输才怪。
i*****a
发帖数: 7272
22
好了,说说这本书。这本书我早听说过,一直想翻翻,由于灌水太多。。我很开心有人
看了,还费力写了书评,不错。
Big data 完全不是什么futuristic的事,大家每天都贡献和消费很多。就说Amazon,
我浏览的时候时不时蹦出推荐商品,Netflix, 也是,我有时间就瞄一眼,倒也没计算
过准确度,感觉现在不太高,公司里的statistician要加油啊。但是data system 可不
止在几家有名的公司,美国各行各业都有大量的数据储存,数据越多想要用它来解决问
题的企图心就会越大,尤其美国相较于中国,崇尚证据,用数据说话,连一些原来数据
不盛行的行业,比如医学,棒球, the movie Money Ball. 总而言之,越来越多用数
据说话,不是将来式,是现在进行式。至于大数据和现在的数据分析有多大区别,我个
人认为不大,数据分析也讲不同的模型,扔进去不同的变量,以及不同的采样。
我再举一个非商业数据运用的例子吧,美国这十来年吧,教育界开始大规模的测量评估
学生,储存数据,评估老师校长。有一个应用就是用predictive model来预测哪些学生
可能读不完高中,然后老早... 阅读全帖

发帖数: 1
23
来自主题: Joke版 - 马云爸爸的大数据真够恐怖
之前只是知道“大数据”这个新名词,可是不知道“大数据”所包含的数据到底有多恐
怖,今儿我算是彻底见识了。
马云爸爸所缔造的阿里巴巴帝国够牛逼了吧?可以说国内百分之八十的无论件都是来自
于淘宝。阿里巴巴照样有自己的运营部,而他们的作用无非就是保证内容的及时更新,
还有就是各种数据的分析。其实在咱们看来这些数据并没有多大的用处,可是在商人看
来可就完全不一样了,举例说明吧,前段时间马云在一次介绍大数据的时候说了一个关
于大数据的真实情况,他说国内哪里姑娘的胸部最小她都知道,后面就直接说了浙江省
,虽然表面上逗得很多人哈哈大笑,可是有心人能够感受到这里面的数据到底有多恐怖
,连一个地方女性的胸部尺码都能那么准确的掌握,怪不得阿里巴巴那么牛逼。
k********k
发帖数: 5617
24
【 以下文字转载自 Headline 讨论区 】
发信人: Cnews (chinanews), 信区: Headline
标 题: 白领午餐点菜“大数据”:宫保鸡丁最受欢迎(图)
发信站: BBS 未名空间站 (Thu Aug 21 19:59:19 2014, 美东)
“十大菜”有你爱的吗
沪上白领最喜爱的白领午餐是哪几个菜?大数据来告诉你。日前,30多家企业白领食堂共同发起了“白领午餐最爱点的菜”大数据总结。通过对近2年来统计的汇总, “宫保鸡丁”鱼香肉丝”八宝辣酱”最终 “ “ 等排名前十,“荤粗搭配”而“浓油赤酱”下饭”价格实惠”“ “ 则成为工作餐四大关键词。
“荤粗”“实惠”是关键
据了解,此次活动由上海优芙得餐饮管理有限公司发起,该企业负责陆家嘴金融城、外高桥保税区、张江高科技园区、金桥进出口加工区、漕河泾开发区等多个区域30多个白领食堂的运营。服务于博世、华为、联想、展想、恒生银行等著名企业,覆盖近40万白领人群每日用餐。数据则直接取自过去两年中,以上企业30多个白领食堂、数十万白领每天所点菜品的排名数据。
此次揭晓的沪上白领最喜爱十大菜肴为:宫保鸡丁、鱼香肉丝、八... 阅读全帖
g******i
发帖数: 32
25
多谢各位回复。因为我的专业不是数据挖掘,目前只是用到,所以希望能知道和问题相关
的可能使用的具体算法名称,然后我可以做针对性的修改。我感觉根据属性将数据分类应
该是很成熟的,是不是涉及到有交叉组(即一个数据可能被分给多个组)(相应的英文专业
术语是什么?)和层次型属性(hierarchical feature?)的问题就困难了呢?能否请提示一
些有关这方面的概念,算法等等,我好顺藤摸瓜。多谢了。
> 发信人: DamonPeng (达盟), 信区: CS
> 个人意见:
> 你的问题比较泛,我觉得应该做进一步规范化的描述。
> 比如,每个数据的属性个数不一样,需要补充,因为每一次分类可能都是基于某个或某

> 数据的加权;如果某个数据不具备某个属性,需要有相应的处理方法;
> 可能的问题描述,比如:
> 有一组数据,每个数据具有k个属性,每个属性有一定的取值范围;现在需要依据这些

> 性将数据分类: 具体的分类准则为....;
> 然后分析可行的算法,复杂度,效果等等;
你说的是对的。目前主要的问题是可使用的具体分类算法有哪些?然后我才可以考虑属性
的处理,复杂度等。
> 发信人

发帖数: 1
26
大数据技术广泛应用,我们身处大数据时代。但数据及应用的安全成了我们最大的挑战
。大家都知道没有安全的数据应用一事无成!但大数据技术领域之博大,我们又如何保
证其安全呢?大数据的安全包括那些领域和技术呢?为你全面解析企业大数据的安全体
系和架构。
https://www.youtube.com/watch?v=YKUa5xrkQGQ
S*A
发帖数: 7142
27
来自主题: Linux版 - 数据出力怎么version control?
你的程序用什么语言写的?
你的程序是如何判断数据出错的?
程序显然要进入 git/svn 之类的版本控制系统。
数据那么大放到 git/svn 不是很合适。如果就是 read only 的不 check in
也可以,或者 checkin SHA1 hash 而不是数据本身。
你的程序需要使用前面版本运算的结果吗?还是每次都从原始数据
开始计算?
你给你的程序自己加个内部版本,或者就用 git commit hash
作为版本也可以。然后结果记录是那个版本的程序产生的,应该
就可以了。结果用 time stamp 或者数字序列排号码就行了。
如果很大的话 checkin 意义不是很大,因为都是可以重复出来的。
吧结果堆到一个目录里,容易按次序找到就可以了。
如果你的算法中间可以输出调试信息也帮助你快速复制错误的话
也可以。就是在关键地方 printf。
还是很模糊你到底要如何算和程序如何出错,输出结果多么?

行一行的数据。所以我现在就是把数据的一部分随机区出来,作为测试。数据本身不动
。但是有时候,程序需要跑过整个数据才能知道是否有错。
a****k
发帖数: 3457
28
一个文本数据文件A.txt,如下格式:
12,34
24,45
21,33
05,44
。,。
每行两个数据,用逗号分开。有N行(N不大于100).
现在要求将A.txt中第一行的两个数据写入文本文件1.txt的第二行和第三行指定位置,
取代原来的数据;将A.txt中第二行两个数据写入文本文件2.txt的第二行和第三行指定
位置,取代原来的数据;以此类推,将A.txt的第N行数据写入n.txt文件的第二行和第
三行指定位置,有N多个文本文件。
被修改的文本文件有相同的格式。如原来的1.txt格式如下:
DataSet=1
low=01
high=05
。。。。。
修改后的1.txt为:
DataSet=1
low=12
high=34
。。。。。
要求写一个VB小程序实现
m********5
发帖数: 17667
29
显然不是
这个计划说白了,就是让生物学家和医院积累大量原始数据
看普通人和病人蛋白表达上有哪些差异,哪些没有差异
但数据出来了是不会有任何结论的,数据量太大,误差也很多
得有人来组织数据,评估数据,挖掘数据,解释数据
说白了,千老就是造数据的,后面真的活儿还得码工和数学家干
g*****g
发帖数: 34805
30
来自主题: Programming版 - 大数据在工业界流行的黑暗真相
你这贴怎么闻着都是学术界对大数据在工业界做出来这事的酸味呢?
1.大只是个方法论的概念。通过MR一类的框架,原来处理不了的现在处理得了,或者要
处理一周的现在处理一天就够,哪怕数据量只有T级,也是显然的获益。大只不过是个
相对概念,原来处理不了这样的数据了,为了在可以接受的时间内处理了,就只能采集
的时候做sampling,相对数据量就小。
2.这显然不是提高barrier of entry,而是显著降低了barrier of entry。以前那些做
网格计算的大机器,机器非常贵,能写并行算法的人很少,要有人维护机器,一个开发
周期很长。现在Amazon EMR,起一千个机器跑一跑就是分分钟的事情,你还可以半夜便
宜的时候去跑,好多小公司就这么干。写ETL算法的人往往不是CS出身的,也完全不需
要有能力写并行算法。凡事一旦做到PaaS,SaaS,基本上就是barrier of entry降低到
了极致。
3.互联网业往往营业额高,纯利低。典型的如马鬃,以及初创公司。1%的优化带来的可
能是数以亿计的纯利。这就是互联网公司愿意雇一堆Data Scientist不停地改进算法A/
B te... 阅读全帖
n******s
发帖数: 36
31
理论上讲,你所得的数据与实验记录都属于这个实验室而不属于你,在你走之前你有义
务将这些数据与实验记录交出,如果你没有交出数据与实验记录,前老板是可以追究你
的责任,当然他会说你伪造数据、挑数据等学术不端的问题,我见到过这样的老板(非
中国人,美国老板)。正常的老板应该在你走之前给你一定的时间整理数据,理论上讲
离开后你们的工作关系就结束了。我以前的一个老板非常不好,但还算正常,知道我走
以后不会理他,所以走之前将所有数据看了一下,从此在没有骚扰我。
不回信是不对的,应该积极告诉前老板数据与实验记录在什么地方,至于具体内容,没
人能够记住,让他自己去看,如果有问题,你可以回实验室一趟,当然得你现在的老板
同意,而且前老板支付一切费用,现任老板没有义务支付你的工资来完成你以前的工作
,一般变态吝啬的老板看要出钱也就没下文了。
x*****i
发帖数: 1901
32
来自主题: Computation版 - c++ 提取数据 求助
初学c++,求助
有几组十六进制数据存在.txt文件中,像这样:12345FFFFFFFF123FFFFFFFF45FFFFFFFF,每个
FFFFF前的数字是一组数据,每组数据的个数还不一样,FFFFFFFF是用来分隔每组数据用的
,要求每次读一组数据,需要把读取的数据存入到一个vector中,例如定义了一个
vector input; 将第一次读取的数据存入到input中,进行计算以后读取第二组数
据,再存入input中进行运算,我现在的问题是不知道怎样做这样的一个循环,能够读
取FFFFFFFF前面的数据,做完运算在读取下一组,希望高手帮忙
谢啦
h***d
发帖数: 2188
33
通篇文章只有这个实验有具体实验数据
“美国南加州大学的研究人员与美国宇航局的喷气推进实验室和特拉维夫大学合作,进行
类似实验。这支研究小组使用的是2组光束,一组4条,每条旋转角度不同。8条光束缠
绕在一起,传输给一个接收器而后分解。借助于这种方式,每秒可传输2.5TB数据。”
这个跟wifi有个毛关系?单光束传300Gbps,显然是edge emitted laser+DWDM+sm
fiber
wifi上传“螺旋形无线电波”??呵呵,我想起以前实验室某位“导师”曾经很认真的
跟我说:“地球自转会影响到网络中的数据传播速度”

关键字:螺旋无线电波
瑞典空间物理研究所的科学家研发出一项新的数据传输技术,能够让WiFi网络每秒传输
相当于66张DVD存储量的数据。他们采取的方式是利用螺旋形无线电波,能够在同一带
宽内传输多个信号。
两组研究人员正在研发新的数据传输技术,利用扭曲缠绕的光束和无线电波,能够大幅
提高数据传输量
天线传输的无线电波呈螺丝锥形,好似一个旋涡,每一个的旋转角度不同,允许携带独
立的信号
据国外媒体报道,瑞典空间物理研究所的科学家研发出一项新的数据传输技术,能够让
... 阅读全帖
kx
发帖数: 16384
34
【 以下文字转载自 Stock 讨论区 】
发信人: HKStar (Tiger), 信区: Stock
标 题: 求救--论文数据,怎么下载option数据?
发信站: BBS 未名空间站 (Wed Mar 26 23:32:43 2008)
在上Corporate Finance, 写的term paper和option有关, 需要个股的option历史数据
,主要是每个月OE周的数据:oe周每天的closed bid and ask price 和implied
volatility。
平时俺们作股票的论文都是用这个网站的数据http://wrds.wharton.upenn.edu/, 但我们学校没订option的数据服务。现在我到处都找不到historical option数据。 我有IB帐户,但俺的编程太差,不懂C++,不知道怎么下载。
请教各位高人,你们平时是怎么下载的option数据,IB, yahoo, 还是其他网站?用
啥程序下? 请大家指点指点,不甚感激
h*******d
发帖数: 272
35
大家好 生手急求
我用SPSS 的IMPUTATION 功能填补我原始数据中的MISSING VALUE (SAS 也有这个功能
,但PROJECT 马上要交 没功夫折腾SAS 就偷懒用SPSS)
我学了半天还没明白 比如 SPSS中 iteration=5,那就会出来5组新数据 就是原始数据
+系统填补上的数据 (重复5次 每次不一样的填补数据)
然后我分析怎么办呢? 到底拿哪组数据呢 我试着5组都分析 发现结果还是有不同的
和原始数据的结果差的更大。 到底怎么把这5组数据 最后总结为我最终的模型呢?
肯请大家指点
i*******D
发帖数: 993
36
来自主题: Statistics版 - 如何算多个数据的总的标准偏差
有n列数据 每列中每个数据带有一个 标准偏差(因为每个数据是一系列测量的平均值
)。现在我将这n列数据平均。那么如何求平均后每个点的标准偏差呢?不能用简单的
算术平均值吧? 难道用几何平均值(类似实验中不确定度的叠加)?
还有人说应该比较其中最大的标准偏差与被平均的数据之间的距离。如果被平均的数据
与平均值的距离比任何一个单独的数据的标准偏差都大,那么应该选择这个距离来作为
该数据平均之后的标准偏差。
谢谢
p********6
发帖数: 1339
37
MJ这篇报道说的很好,说出了很多统计学家担心的问题。
如果用挖金矿作比喻,传统数据分析就好像黄金开采,已经有了一套较成熟的产业链—
—勘探,开采,冶炼等等。现在突然有人发现,矿石中有除了金子还有一些有用的东西
,而这些东西我们以前没有收集起来。于是有人振臂一呼,说这些我们曾经丢弃的东西
价值不比金子低,我们要对矿石中所有的物质进行挖掘、分析和精炼,那我们能得到的
财富将是金子的千百倍。于是乎这个领域涌入和大量的梦想家,妄想家,投机者,骗子
,白痴。但是显然现实不会这么美好,这多出来的大数据,绝大部分是我们难以理解、
无法利用的,其最终结果往往是只能炼出一堆废渣。
现在的“大数据”,并不能算是一个统计概念,而更多的是一个计算机概念。计算机科
学对数据的定义很纯粹,数据多就代表数据大。但在统计里,数据往往是指“可分析的
数据”,“大”往往意味着信息丰富且可被认知。现在的大数据概念显然不是这样。
s*****s
发帖数: 128
38
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,... 阅读全帖
l******0
发帖数: 244
39
来自主题: DataSciences版 - 所谓的大数据
big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下
m***r
发帖数: 359
40
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-11
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-11/short.html
1) 【解析NoSQL数据库的分布式算法】 by @英特尔商用频道
关键词:数据库, NoSQL
【解析NoSQL数据库的分布式算法】系统的可扩展性是推动NoSQL运动发展的的主要理由
,包含了分布式系统协调,故障转移,资源管理和许多其他特性。本篇将讨论数据一致
性、数据分布式存储、以及全局状态三个关键问题。 [1]
[1] http://weibo.com/p/1001603808720076333550
2) 【Dokku和Docker的完美配合】 by @LUPA开源社区
关键词:虚拟化, 云服务, Docker, PaaS, 容器
【Dokku和Docker的完美配合,一起来辩】本文作者介绍了如何在单机上将Dokku和
Docker结合。Dokku... 阅读全帖
m***r
发帖数: 359
41
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-15
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-15/short.html
1) 【百度迁徙 携手央视创新大数据新闻】 by @百度
关键词:应用, 交通, 新闻
【#百度迁徙#携手央视创新大数据新闻】反映春运迁徙状况的“百度迁徙”今日第二次
上线提供服务啦!新版“百度迁徙”增加了实时航班、机场热度和火车站热度等创新功
能,并已在央视《晚间新闻》“据说过年”栏目以及昨日《新闻联播》中露面。想知道
大家过年都从哪到哪?速戳→_→ [1]
[1] http://qianxi.baidu.com
2) 【Bayesian Networks with R and Hadoop】 by @爱可可-爱生活
关键词:计算框架, Hadoop, 视频
[视频]《Bayesian Networks with R and Hadoop》 [1] 用R... 阅读全帖
m***r
发帖数: 359
42
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-06
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-06/short.html
1) 【MySQL和MongoDB设计实例对比】 by @IT技术博客大学习
关键词:数据库, MongoDB, MySQL
【MySQL和MongoDB设计实例对比】 MySQL是关系型数据库中的明星,MongoDB是文档型
数据库中的翘楚。下面通过一个设计实例对比一下二者:假设我们正在维护一个手机产
品库,里面除了包含手机的名称,品牌等基本信息,还包含了... 详见: [1]
[1] http://blogread.cn/it/article/3772?f=wb
2) 【Docker实战:更轻松、更愉快、更高效】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Docker实战:更轻松、更愉快、更高效】本文作者通过实例展示了Doc... 阅读全帖
m***r
发帖数: 359
43
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-16
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-16/short.html
1) 【Kitematic官方文档汇总】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Kitematic官方文档汇总】周末DockerOne组织翻译了Kitematic的官方文档,
Kitematic是一个 Docker GUI 工具,它可以在 Mac 上更快速、更简单的运行Docker。
接下来也将支持Windows,从Twitter了解到Kitematic的重点也会在Windows上。 [1]
[1] http://dockerone.com/article/254
2) 【有哪些优秀的 Scala 开源项目?】 by @hongjiang_wang
关键词:计算框架, Kafka, Spark, 流计算
我在 @知乎 回答了... 阅读全帖
m***r
发帖数: 359
44
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-18
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-18/short.html
1) 【数据分析和数据科学的免费在线教程列表】 by @爱可可-爱生活
关键词:分析, 课程, 资源
[教程]数据分析和数据科学的免费在线教程列表,分类精选了26个、共计310多小时的
优秀在线视频教学资源,整理的很有条理,推荐看看 [1]
[1] https://www.mysliderule.com/learning-paths/data-analysis/learn?#88-
capstone-projects
长微博图:http://ww3.sinaimg.cn/large/5396ee05gw1eqa2m8vu5bj20l9789npd.jpg
2) 【Docker最新安全性能调整分析】 by @DockerOne
关键词:虚拟化, Docker... 阅读全帖
h****3
发帖数: 339
45
来自主题: DataSciences版 - oracle数据导入/导出(转载)
Oracle数据导入导出imp/exp
功能:Oracle数据导入导出imp/exp就相当与oracle数据还原与备份。
大多情况都可以用Oracle数据导入导出完成数据的备份和还原(不会造成数据的丢失)。
Oracle有个好处,虽然你的电脑不是服务器,但是你装了oracle客户端,并建立了连接
(通过Net Configuration Assistant添加正确的服务命名,其实你可以想成是客户端
与服务器端 修了条路,然后数据就可以被拉过来了)
这样你可以把数据导出到本地,虽然可能服务器离你很远。
你同样可以把dmp文件从本地导入到远处的数据库服务器中。
利用这个功能你可以构建俩个相同的数据库,一个用来测试,一个用来正式使用。
执行环境:可以在SQLPLUS.EXE或者DOS(命令行)中执行,
DOS中可以执行时由于 在oracle 8i 中 安装目录$ora10gBIN被设置为全局路径,
该目录下有EXP.EXE与IMP.EXE文件被用来执行导入导出。
oracle用java编写,我想SQLPLUS.EXE、EXP.EXE、IMP.EXE这俩个文件是被包装后的类
文件。
SQLP... 阅读全帖
K******a
发帖数: 8
46
来自主题: DataSciences版 - 2016应用数学与数据科学国际会议
会议网址: www.icamds.com
类别:数学,计算机科学
会议时间:2016年4月26-27日
会议地点:中国,杭州
2016应用数学与数据科学国际会议面向全球热衷于数学和数据科学研究的学者、专家、
科学家征集会议稿件:
征稿范围包括但不限于以下主题:
1. 应用数学:统计、精算学、计算科学、数理逻辑、科学计算、数学物理、数理经
济学、运筹与管理科学等。
2. 数据科学:大数据、数据挖掘、预测分析、临床数据的科学、知识发现、描述性
分析、安全数据科学、基因组数据科学、知识管、数据驱动的科学研究等。
投稿指南:
1. 投稿截止日期:2016年2月25日
2. 录用通知:投稿后15-30天
3. 会议接受优秀中文和英文稿件。
4. 具体论文格式可参看会议网站(www.icamds.com)的中英文模板。
5. 投稿系统:http://www.tougao123.net/
如有任何问题,可以通过以下方式直接跟会议主办单位联系:
邮箱:[email protected]
/* */ QQ: 2934920393
电话:0... 阅读全帖
d******i
发帖数: 3957
47
【 以下文字转载自 Military 讨论区 】
发信人: urbanhunter (纵横四海), 信区: Military
标 题: 美国GDP换算法一夜多出个比利时 数据造假弱爆了
发信站: BBS 未名空间站 (Fri Aug 2 01:56:15 2013, 美东)
数据造假什么的都弱爆了 换个方法算算账美国经济一夜多出个比利时
用什么方法可以最快提升经济?答案是——做“真”账!
周三,美国商务部下属统计机构美国经济分析局(BEA)宣布了每五年一次的统计修
订。通过重新定义和计算文娱、研发以及养老金等项目,美国去年的GDP总量一夜增加
了3.6%,相当于比利时一国的GDP。
新方法给美国带来的“福音”还不限于此。根据新的统计,美国过去十年的储蓄率
显著上升;与此同时,随着GDP总量提高,联邦债务占比相应下降。
更值得一提的是,新统计方法得出的经济结论,可能令美联储的决策发生些许变化。
⊙记者 朱周良
美国GDP一夜增加3.6%
通常,美国经济分析局每五年对经济统计方法进行一次修正,并一直追溯到1929年。
根据最新发布的修正结果,美国经济在这轮金融危机中遭遇的罕见衰退并不像... 阅读全帖
B*Z
发帖数: 7062
48
来自主题: _Auto_Fans版 - IIHS Death Rate的数据来源
【 以下文字转载自 Automobile 讨论区 】
发信人: BRZ (*86), 信区: Automobile
标 题: IIHS Death Rate的数据来源
发信站: BBS 未名空间站 (Tue Nov 25 00:01:19 2014, 美东)
看到本田少报车辆死亡人数的报告,非常失望。但是总是要搞清楚到底是什么情况。因
为IIHS用的是NHTSA的Fatality Analysis Reporting System,所以我去这个政府机构网
站找出来了数据的manual。是这个链接里面第三个文件:
http://www-nrd.nhtsa.dot.gov/CMSWeb/listpublications.aspx?Id=J&
e
FARS Analytical User's Manual 1975-2012
关于数据来源是这样写的:
The Fatality Analysis Reporting System (FARS), which became operational in 1
975, contains data on a census of fatal traf... 阅读全帖
i******a
发帖数: 357
49
在此间国新办举行的发布会上,国家统计局新闻发言人盛来运对提前泄露经济数据的行
为表示严厉谴责。
彭博新闻社记者提问到,昨天凤凰卫视就已经报道了相关数据,而且这些数据在今天的
发布会上也得到了印证,同样的事情在1月份和去年6月份也出现过,这些消息在发布会
之前就被泄露出去了,有没有相关的程序来调查这种提前泄露的情况,会不会在未来防
止这种情况发生,谁来负责相关的调查?
国家统计局新闻发言人、国民经济综合统计司副司长盛来运。(资料图)
对此,盛来运表示,国家统计局严厉谴责任何泄露还在保密期数据的行为,相信任何违
法的行为都必将会受到法律的制裁。“国家统计局也一直高度重视发布前数据的保密工
作,为此制定了相关的管理制度和程序,进一步缩小了涉密数据的人员和范围。”
盛来运说,特别是近两年,国家统计局根据公平、公正、公开、透明的原则,建立和进
一步规范了统计信息的发布制度,国家统计局也正在听取各方面的意见,研究进一步完
善发布制度问题,改进的方向是进一步缩短数据生产到发布的时间,尽可能减少数据被
泄露的风险。
“最后我还想提醒一点,《中华人民共和国保密法》也有规定,一切国家机关、党政团
体、企事... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)