第3页 - 关于向量的讨论汇总 - 话题女王

R*******c
发帖数: 249

一共有100个向量，每个向量的长度不一，但已知，如果希望将第一个向量写进A列，第
二个向量写进B列...这样的话，怎么写xlswrite呢？

s*****n
发帖数: 2174

这个就是典型的回归问题啊. 设前5各点为V1,..,V5. 后面的两个点叫V6, V7.
分别用V6和V7对V1和V5的组合做回归, 得到两个residual向量, 就是S2空间的两个基.
回归(y=ax+e)的本质, 就是找y在X的列向量生成的空间中的投影, 其剩余部分e就是y里
面垂直于x空间的的部分.
如果用代数, 就把5各点列向量合并成矩阵X, 两个点的列向量合并成矩阵Y. S2空间其实
就是
Y - X(X^TX)^{-1}X^TY = (I - X(X^TX)^{-1}X^T)Y
那个X(X^TX)^{-1}X^T也叫hat矩阵, 是高维空间向子空间的投影矩阵. 而 I-hat 就是子
空间对高维空间的补空间的投影矩阵.

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-09
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-09/short.html
1) 【The Spark Big Data Analytics Platform】 by @爱可可-爱生活
关键词：分析, 计算框架, 资源, PDF, Spark, 幻灯片
[幻灯]《The Spark Big Data Analytics Platform》 [1] 200+页的Spark大数据分析
讲义，内容覆盖Scala介绍、Spark数据探索、 Spark Streaming流处理、GraphX图分析
等，相当不错云: [2]
[1] https://www.sics.se/~amir/files/download/slides/csl_workshop.pdf
[2] http://pan.baidu.com/s/1rqczG
2) 【Me... 阅读全帖

f***a
发帖数: 11477

来自主题: _AudioBook版 - 前几天挺火的

本来我想把每个颜色的RGB三元色坐标分出来做向量
然后每种颜色就是向量的线性组合，组合处一个新的三元向量，然后就可以直接读出
RGB的颜色来
不过代数太差，不会分解向量！！！！

b******3
发帖数: 4385

来自主题: Military版 - 从线性代数看人和社会

尽管人很高级，但是本质上讲人和蜜蜂一样是群居动物，需要依赖族群中其它成员才能
更好存活，蜜蜂有蜂群，人类有社会，蜂王负责产卵，雄蜂负责交配，工蜂负责采
蜜，而在人类社会，有人负责讲ppt,有人专门负责写代码，一个稳定的社会，需要分工
清晰，各司其职，各就其位。这样基于个人特长的分类越清晰，重叠性越少，社会的稳
定性越高，群体间冲突就越小。在蜂群中这样的分类基于生理特征，可以几乎没有任何
冲突的分类开来，而人类就要复杂很多，每个人有各种各样的禀性，智商，情商，语言
能力，逻辑能力，音乐能力。。，所有人的这些禀性的总和就是一个多维的向量空间，
每一个人的所有禀性看成一个向量空间中一个sample. 这个空间杂乱无杂，有会写code
的也能讲点ppt,有会ppt的也能写点code,这样的情况下，冲突就再所难免，封建社会靠
出生论来进行筛选，现代文明社会通过严格的专业选拔教育、工作环境下激烈冲突来分
类，让写code
和讲ppt的尽量分开来，减少社会运行成本。这样的一个分类过程其实就是计算机中
machine learning 的分类问题，也就是怎么将一个多维的向量空间中的element分
... 阅读全帖

发帖数: 1

来自主题: Military版 - 中日竞赛: 日本新超算性能将10倍于神威太湖之光

PPT真的很好看。
日本富士通发布PPT，要建设1000P超算。
几个月前，ARM还发布了矢量扩展架构（SVE）——矢量扩展架构可以提升向量，这意味
着可以提升并行度。而向量既有定点也有浮点，面向的是大型数据处理的需要。虽然对
于服务器和超算而言，光靠向量还是不行的，但却比没有矢量扩展架构要强。而这次富
士通联合ARM，显然是为了解决超算处理器的问题，而且和申威26010和Intel的KNL一样
，富士通联合ARM开发的处理器很可能也会是一款众核处理器。
现在知道日本人买ARM不是盲目的了吧。

D**s
发帖数: 6361

来自主题: Military版 - 中日竞赛: 日本新超算性能将10倍于神威太湖之光

日本造出来有什么用？需求越来越少…
[在 hanmen (漢男) 的大作中提到：]
:PPT真的很好看。
:日本富士通发布PPT，要建设1000P超算。
:几个月前，ARM还发布了矢量扩展架构（SVE）——矢量扩展架构可以提升向量，这意
味着可以提升并行度。而向量既有定点也有浮点，面向的是大型数据处理的需要。虽然
对于服务器和超算而言，光靠向量还是不行的，但却比没有矢量扩展架构要强。而这次
富士通联合ARM，显然是为了解决超算处理器的问题，而且和申威26010和Intel的KNL一
样，富士通联合ARM开发的处理器很可能也会是一款众核处理器。
:http://www.mitbbs.com/cacheIMG/238ba20052943356256b02df0e9eb028_1480948796_2_nail.jpg
:http://www.mitbbs.com/cacheIMG/30de11d5638caf2850d1cb5d29028077_1480948796_2_nail.jpg
:现在知道日本人买ARM不是盲目的了吧。
:君子固穷。。。

d*****u
发帖数: 17243

来自主题: Military版 - 拉斯维加斯是检验高端统计学的唯一标准

现在机器学习都是用高维度特征去训练一个分类器。
比如自然语言处理，现在最流行的方法之一是把每个词用300维向量表示
然后把文档里的词（向量）逐个输入一个有记忆功能的神经网络
再输出一个几十到几百维的向量来表征这个文档的语义
进而进行分类或其他处理

based

d*****u
发帖数: 17243

来自主题: Military版 - 等赶上10岁小朋友的智商再吹也不迟

句子的意思也可以用向量表示，现在一般用RNN特别是LSTM来逐个处理词向量，最后得
到句子的向量。
当然这些目前有局限性。
人的语言机能里还是大致有个词的概念，虽然词没有确切定义。你要从字符或者音素出
发也是可以的。有的模型不用词而是搞character embedding

l********o
发帖数: 5629

来自主题: Military版 - 这个语言缺乏逻辑

这个语言缺乏逻辑，词汇太少，无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm，居然是这样的，“软的硬的，松弛，核”，跟黄色小说
一样，而且根本不知道在说什么：
“SVM的原理是什么？
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。（间隔最大是它有别于感知机）
（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分
支持向量机；
（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性
分类器，即线性支持向量机；
（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向
量机。
注：以上各SVM的数学推导应该熟悉：硬间隔最大化（几何间隔）---学习的对偶问题--
-软间隔最大化（引入松弛变量）---非线性支持向量机（核技巧）。”
中文还是用来娱乐和扯淡比较好，还有就是适合共产党进行愚民统治，国内的骗子们也
喜欢用中文进行欺骗。

b***y
发帖数: 14281

来自主题: Military版 - 赤道上相距一公里的两点A

你首先要明白"平行线"的定义。平面上平行线可以定义为保持距离不变的直线。曲面上
无法推广。如果一定要保持距离不变，至少其中一条线不能保持为“直线”。当然这又
要问“直线”的定义了。
要明白这些，你得学里曼几何，这不是三两句话能解释清楚的。
但是粗略来说，曲面上直线的定义是如果把一点的切向量沿曲线平移到另一点，刚好能
和另一点沿相同曲线的切向量重合，那么就说这条曲线是直线。
所以从赤道上，如果你已开始往北走，那么就必须一直保持正北方向（但是过了北极点
就得翻成正南了），这样走的叫直线，一旦往东往西偏了，那就不是直线了。
严格说曲面上并没有“平行线的”概念。你的例子只是一个比较接近于“平行线”定义
的一个推广已。AC和BC首先都是“直线”（其实叫侧地线”），其次它们有个特点就是
如果把A点沿AC的切线量沿着AB平移到B点，刚好和在B点沿BC的切向量重合，这就是曲
面上最接近于平面上所谓“平行线”的定义了。

p******y
发帖数: 3742

来自主题: Military2版 - 野鼬鼠---美军电子攻击战机一览

1965年，針對數量增加的北越防空陣地（特別是SAM與AAA）威脅，起初由志願參加的雙座型 F-100F「超級軍刀」戰鬥轟炸機進行野鼬鼠任务。美國的應用技術公司(Applied Technology INC，簡稱ATI），一直在研究電子作戰的設備。ATI的工作一般是保密的「黑色」計劃和為一些小型項目製造特種設備。他們的一個計劃是「第十二號系統」，是一種輕量化的雷達警告接收機，首次用於西方公司所委託的中華民國操作之 U-2 偵察機。第十二號系統遙遙領先於同時代其它已經存在的雷達告警接收機，同時針對美國空軍的反饋，ATI 開始開發一種派生型，計劃用於B-52轟炸機，代號「向量」（AN/APR-25）。「向量」可以接收相當寬的雷達信號，然後在一個7.5公分（3英吋）的圓形螢幕上顯示威脅信號，一個從中心發出的脈衝波形可以顯示威脅雷達的方向，而脈衝波形的長短則顯示雷達信號的強弱，並用點、虛線、實線表示雷達的波段。
當SAM飛彈的威脅在東南亞抬頭的時候，美國空軍與ATI公司打算為高層官員做一次關於「向量」的示範活動，期望給他們留下深刻的印象。 ATI公司也開始推動自己的「IR-133」全向式雷達定

a***e
发帖数: 27968

来自主题: Military2版 - 龙芯3B流片成功[zz]

intel也有向量单元，不就是SSE么？现在还多了AVX
但是算Gflops没人这么估算的
LS3B的向量单元一周期能执行多少双精度？
按照给的数据，好像是12个/每核，这个向量单元还挺牛

N****w
发帖数: 21578

来自主题: Military2版 - 龙芯3B流片成功[zz]

向量单元是 GPU 里经常用到的
就是算法允许的条件下向量里的各个分量同时被计算
比如向量相加

N****w
发帖数: 21578

来自主题: Military2版 - 龙芯3B流片成功[zz]

就是向量
矩阵是由多个向量组成的
并行计算里没人把矩阵叫 array
array 是恶俗恶俗的计算机程序员术语
向量多高级，是科学的专用名词

y*d
发帖数: 2226

来自主题: Military2版 - 菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢

一、申威CPU Architecture分析
现在的新闻没有公布细节，但可以毛算一下这个CPU是啥样子的：
峰值速度1070万亿次，8704片cpu，16core
平均每core大约77亿FLOPS
目前cpu频率大约在1G 2G 3G这种水平，考虑到神威的低功耗（后面详细讲）
主频应小于2G
按2G算就是每指令周期做39次单精浮点计算
我估计最有可能的是，主频1.2G，每个周期64个浮点运算（算下来大约是76.8亿FLOPS）
和天河一号用的nVidia Tesla M2050 GPU对比一下
2050有16个SM，每个SM每周期也是可以做64个浮点运算，主频1.15G
申威CPU 16个Core，每core 64个浮点运算，主频1.2G
可以看出在计算单元配置和主频选择上，申威和Fermi Tesla基本一样
但是GPU有一个取巧的地方是GPU有一个Fused MUL ADD运算。这样一个运算顶两个，所
以实际只有32个计算单元，却号称64个浮点运算。而实际上，很少有哪个程序可以全是
用这个特殊运算的。所以GPU的实测速度会低很多。使用GPU的中国的天河1，倭国的つ
ばめ（燕）都... 阅读全帖

k***t
发帖数: 276

来自主题: JobHunting版 - programming pears上的maximum subarray算法是不是有小bug?

8.1提到所有输入是负数时，定义和为零的空向量为最大向量。
练习8.7.9 让读者自己计算最大向量定义为最大负元素的情况。

z**********u
发帖数: 201

来自主题: JobHunting版 - 来一道DP了好像也无法多项式的题目

这个感觉是个两个向量的内积啊，matrix A1的每一列是向量A的a1...an的全排列，所
以矩阵A 共有n！列，列向量b= [b1,..,bn]'，A'*b取其中最大元素应该就是所求的了
所以应该不是多项式时间的不知道对不对。。。

l********o
发帖数: 5629

来自主题: Returnee版 - 中文不适用用于工作交流 (转载)

【以下文字转载自 Military 讨论区】
发信人: liyuanchao (李源潮), 信区: Military
标题: 中文不适用用于工作交流
发信站: BBS 未名空间站 (Tue Jan 23 16:31:11 2018, 美东)
这个语言缺乏逻辑，词汇太少，无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm，居然是这样的，“软的硬的，松弛，核”，跟黄色小说
一样，而且根本不知道在说什么：
“SVM的原理是什么？
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。（间隔最大是它有别于感知机）
（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分
支持向量机；
（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性
分类器，即线性支持向量机；
（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向
量机。
注：以上各SVM的数学推导应该熟悉：硬间隔最大化（几何间隔）---学习的对偶问题--
-软间隔最大化（引入松弛变量）---非线性支持向量机（核技巧）... 阅读全帖

z**c
发帖数: 7595

来自主题: Joke版 - （ZT）匪夷所思。胡师傅是靠什么把这个玩下去的？

[转贴]第六代龙芯闪亮登场
112230 次点击
774 个回复
0 次转到微评
掘墓鞭尸于 2010-8-28 0:36:06 发布在凯迪社区 > 猫眼看人
据龙芯处理器的首席架构设计师，中科院计算技术研究所(ICT)的胡伟武教授透露，
2011年龙芯将推出数款基于65nm制程的产品，同时下一代龙芯处理器则将采用28nm制程
进行制作。胡伟武同时透露他们将推出一系列龙芯新产品，其型号包括一款服务器用，
内部设置有向量处理器单元的龙芯产品。
龙芯3B处理器：
自从2001年推出龙芯第一代架构之后，龙芯目前已经发展到了第六代产品。胡伟武
并在最近举办的HotChips会展上就龙芯系列最新产品：龙芯3B做了演示。这款处理器采
用8核设计，工作频率高至1GHz，采用意法半导体公司的65nm制程技术制作，耗电量为
40W。这款处理器于今年五月份完成流片设计，将于今年9月份开始量产，处理器核心的
面积为300平方毫米，浮点运算能力为128GFLOPS。
龙芯3B的核心部分是采用64bit设计的464V核心，核心兼容MIPS指令集，该核心的
乱序执行管线每时钟周期可执行完成4条指令，另外还可以... 阅读全帖

y**c
发帖数: 6307

来自主题: Joke版 - 面向服务器的龙芯性能不到iPhone A8芯片的十分之一

coppermatrix [网易广东省深圳市网友] 2015-04-07 21:48:20
测试结果如上选择测试项目是SPEC_INT
也就是整数通用计算性能龙芯2b频率 1.2ghz
龙芯2b的设计是一款256bit浮点全速64位FPU并行设计的矢量计算CPU 主要面向科学
计算和浮点计算的超算CPU
而整数执行管线部分继承的是2008年设计的龙芯3A的部分
拿向量计算型的CPU的整数性能去和通用计算CPU去比？为什么跑SPEC 只选整数部分故
意不提SPEC_fp浮点计算部分的成绩？因为它列举的这些芯片SPEC_fp测试成绩连龙芯
3B边都摸不到的原因吗？
龙芯3B 1Ghz下实测122Gflops
它选区的对比芯片跑浮点什么成绩？就是i7 4770k 3.9ghz也就86.36Gflops
也就是说浮点性能
i7 4770k 同频率也只有龙芯3B-1500的 18% 接近1/5
用浮点向量处理器去比通用处理器不合理确实
那么用通用计算处理器去和一个设计就是跑浮点运算的向量处理器而且是使用8年前设
计的整数执行管线的处理器去比通用处理性能这就是编辑所想要的... 阅读全帖

H********g
发帖数: 43926

来自主题: Joke版 - 再问一个题

这个答案想错了。情况没这么简单。整数坐标间的距离可以是无理数，我忽略了这个。
但是--
3不能写成任何两个整数的平方和，因此两个整数坐标的点间的距离一定不带根号三的
奇数倍因子（高斯整数，高斯质数似乎跟这个相关）。显然它们的中点的坐标也不包含
奇数个根号三因子（但是可以有根号二根号五因子）。
而等三如果已知两点 A B，都是整数坐标，
设AB中点为O，那O到第三点C的向量等于向量OB 乘以正负sqrt（3）i。
由于OB的长度不可能含奇数个sqrt（3）的因子，它乘以sqrt（3）以后肯定是个含有
sqrt（3）的无理数。而O的坐标也是不含sqrt（3）的，所以C的坐标加向量OB之后肯定
是没法消掉sqrt（3）的。所以C的坐标必然是带sqrt（3）的无理数，不可能是整数。
换句话说，要在消去乘的sqrt3，只能：1）在被乘数里已经含有sqrt3，或者 2）之后
正好加减sqrt3的同样倍数。如果被乘数不含sqrt3，被加减的数同样不含sqrt3，那结
果里肯定要继承sqrt3，所以结果肯定是含sqrt3的无理数。

d*********2
发帖数: 48111

来自主题: paladin版 - 三维人进入四维会发生什么？[zz]

呵呵，　老爱最大的贡献就是现代物理的时空观．
对于人所处的世界来说，　第四维空间未必就是＂空间＂了．　从时空一体来说．　人
类的世界是个四维时空，　往上升维就是５维了．
前面有位同学的比喻挺形象的　，　人类的世界就象个皮球，　你想拉扯它，　就要有
足够的力量扯破才能突破既有的时空．　力量不够，　那就还是只能局限在这个时空．
当然现在人类已经算比较有力气了，　拉不破，　但是拉变形还是可以做到的，　于
是就可以观测到广义相对论效应，　量子效应等等．
这个现代物理的哲学解释，　其实还是挺玄而又玄的．　以前钻这个师兄很多都去信了
教．　可见这个东西是不能深钻的．　不过以前上基础课的时候还是会作为卧谈会资料
瞎扯一些的．　霍金的时空之箭曾经也是畅销书．
相对于多维空间，　也可以把高维时空理解为增加的时间轴．　现代物理的平行宇宙解
释还是比较玄乎的．　为了满足哥本哈根解释，　简单的只要构置一个时间平面就是了
．　上帝不掷色子，　量子物理的统计表征只是在时间平面的一个random walk. 所谓
的无限平行宇宙，　只是在任意一个时间点，　在时间平面上的下一个演绎．　人类的
这个世界，　是一个被强大... 阅读全帖

p*l
发帖数: 270

来自主题: CS版 - 数据的游戏：冰与火 (zz) (转载)

【以下文字转载自 Programming 讨论区】
发信人: phl (--), 信区: Programming
标题: 数据的游戏：冰与火 (zz)
发信站: BBS 未名空间站 (Wed Jul 31 11:06:08 2013, 美东)
数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
D... 阅读全帖

l***e
发帖数: 480

来自主题: Programming版 - STL/vector引用成员变量。

想删向量里后面的元素.
元素是一个结构sn,由一个字符串name和一个整数count构成。
向量vsn已排好序。因为remove删不掉。就想用pop_back删。
while( vsn.end().count < 2 ) vsn.pop_back();
//将向量里元素中count值小于2的元素，删除。
编译时，总抱错。
error: âclass __gnu_cxx::__normal_iterator allocator > >â has no member named âcountâ
while( (vsn.end()).count < 2 ) vsn.pop_back();
while( *(vsn.end()).count < 2 ) vsn.pop_back();
while( (*(vsn.end())).count < 2 ) vsn.pop_back();
都不行。
vsn.pop_back();没错，单句执行没问题。
如何引用最后一个元素的成员变量。
或者还有

Z****e
发帖数: 2999

来自主题: Programming版 - 关于matlab一问

很久没用matlab了，想了想大概思路：
matlab自动载入数据都要求矩形数据，所以你这个文件不能直接载入
可以用fopen打开，while里面fgetl按行读，最后fclose关闭，具体可以看fgetl的帮助
对于每一行，可以用sscanf转换成数组，因为默认结果是列向量，所以要转置一下，去
掉第一个可以用slicing: A=A(:,2:N)，其中N要靠size函数得到；然后直接用A(125)=0
可以得到自动补0的1x125行向量
然后用M(i,:)=A可以把行向量填进矩阵中
最后会得到一个方的下三角矩阵，再A=A+tril(A,-1)'就行了

w***g
发帖数: 5958

来自主题: Programming版 - java的内存管理真是气死我了

我用了4000! int[]不能动态长的！等下把16G内存全都用上试试。
我的问题其实很简单。最多500，000个128维浮点数特征向量，两两比较距离，算每个
特征向量的100个最近点。我估算了一下实际用到的内存也就1G都不到:
特征向量： 500,000 * 128 * 4 = 256M
100个最近点： 500,000 * 100 * (4 + 8) = 600M (每个点保存8位id和4位距离）。
我就不知道怎么用java编出来overhead能那么大。

n******t
发帖数: 4406

来自主题: Programming版 - 一个搞统计的对C#的第一印象

其实K很好读。比大部分程序都好读。
这东西有点像现代汉语，语法其实简单。但是刚开始学比较难。背的多一点。
所有的K都是自右向左读
!N就是生成0.....N-1的向量。
然后{&/x!/:2_!x} 是一个函数，'是adverb,就是把函数apply到向量的每一个element
上面。
2_!x 就是0..N-1去掉前面两个元素，就是2....N-1
/: 又是adverb叫做each right,然后!作为binary operator就是取余。这样
x!/:2_!x 就是用x 对于每一个2...N-1的数做取余。
然后 &作为binary operator是min(x,y)的意思,/是另外一一个adverb就是迭代
所以&/apply到一个vector上就是取最小值。所以如果x是质数这个最小值是1，
否则是0.
&的意思是take,就是返回为1的的index.a@i是取向量a里下标为i那些元素构成的
向量。

譬如

p*l
发帖数: 270

来自主题: Programming版 - 数据的游戏：冰与火 (zz)

数据的游戏：冰与火
2013年7月31日陈皓

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工
作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了
淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅
薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些
心得，也许对你有用，也许很傻，不管怎么样，欢迎指教和讨论。
另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数
据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座
一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。
Data Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则
，并且为了数据模型的找不同场景的Training Data。另外，这些人也是把一些脏数据
洗干净的的人。
Research Scientist：研究科学家。这种角色... 阅读全帖

w***g
发帖数: 5958

来自主题: Programming版 - 大家了解Google的Search by Image的工作原理吗？

图片搜索应该还么有发展到识别“场景”的水平。但是确实需要用到多个local
feature在空间坐标上的agreement。
我的做法是先按local feature进行搜索，得到一个candidate set后再用feature的空
间坐标进行ranking。
用local feature做搜索开销是非常大的，一个query image直接就能变成100+个
feature query，但是从结果看Google
确实用到了local feature。具体不知道他们是怎么做的。
k-nn graph只是一个索引，大致就是你提供一个算similarity的函数，接受两个对象
指针返回一个相似性值。然后k-nn graph可以迅速帮你找到相似性大于一定threshold
的对象。
具体对象怎么表达，相似性怎么计算按应用而定。以前有一个方法叫做earth mover's
distance，
一个对象表达为一个特征向量的集合，然后相似性则是用线性规划做两个集合之间的匹
配。
这个是比较奇葩的方法了，传统索引只能处理高位向量，不能处理这种高维向量的集合
，但是
我试过k-nn graph可以处理... 阅读全帖

y**b
发帖数: 10166

来自主题: Programming版 - C++含有指针成员的类

研究了一下智能指针，在这里唯一的好处就是不需要完整类型了。
如果有完整类型，没看出一般情况下智能指针有什么好处，直接管理内置指针很健壮。
实际上智能指针因为引用计数的缘故，大大增加了复杂程度：
shared_ptr如果作为局部变量，在超出作用域时被销毁；如果是唯一引用，则其所指向
的对象也被销毁，所占用的内存会被释放；如果不是唯一引用，则内存不会释放。你看
这有多复杂。
举个例子，一个类有这样一个成员变量：含有智能指针shared_ptr的向量。那么不同成
员函数按一定顺序使用、拷贝或赋值这(整)个向量，会导致引用计数反反复复变化，指
针什么时候存在，什么时候销毁，简直是个灾难了。比如在一个成员函数里面生成一个
新的智能指针，那么在该成员函数之外该智能指针被释放；若将该智能指针加入到向量
，则在该成员函数之外该智能指针不被释放。这种情况，还不如管理内置指针清晰健壮
啊。而且还要保证shared_ptr在无用之后进行手动释放，否则浪费内存。
感觉智能指针只有保证销毁自己一个好处，带来的底层状态变化实在够繁复，没见比直
接管理内置指针更容易。

W******r
发帖数: 789

来自主题: ChineseMed版 - 统计的学问

在微观层次上，一种化学药品进入人体后会发生什么化学反应和带来什么生理变化，没
有人能彻底研究清楚。因此，检验药品的安全性和有效性基本上是用统计的方法。中医
之所以不被主流承认，其中很重要的一个原因也是因为中医缺乏统计分析。那么用统计
方法得出的结论有多可靠呢？我们一起来探讨一下。
(1) H0 VS. H1
在假设检验中，零假设H0是处于被保护的位置的，需要很强的证据才能把它推翻。药品
的安全性通常就是对应于两个组没有显著差别的零假设，处于受保护的位置。有一点经
常被人忽略，那就是如果p-value大于阈值，这个时候的结论应该是没有结论，也就是
既不能得出H0不成立的结论，也不能得出H0成立的结论。事实上，如果p-value是0.1左
右，common sense还是应该倾向于认为H0是不成立的，只是没有明显到可以推翻H0的程
度。
举个例子。一个赌场的庄家邀请你和他玩一个游戏。规则很简单：抛硬币。如果硬币正
面朝上，他给你10块钱；如果硬币反面朝上，你给他10块钱。庄家claim说硬币是均匀
的，正面朝上和反面朝上的概率都是0.5。你是一个精明的人。你决定先在旁边观察一
下别人玩的情... 阅读全帖

j**u
发帖数: 6059

来自主题: Computation版 - [合集] 简单问题简单问,matlab

☆─────────────────────────────────────☆
herobeauty (高大个) 于 (Thu Feb 8 16:14:33 2007) 提到:
主要为了增加人气，其次为自己涨知识
已知一个行/列向量/矩阵
有没有现成的命令可以输出某行（列/矩阵）中最大/最小元素的坐标。
☆─────────────────────────────────────☆
TrueCabbage (@圆白菜@) 于 (Thu Feb 8 16:31:10 2007) 提到:
max, min就可以
比如说x是一个向量，你要找到最大值的坐标，那么用
[a b]=max(x)
a是最大值
b是所在向量中的位置
同理可以推广到矩阵

☆─────────────────────────────────────☆
herobeauty (高大个) 于 (Thu Feb 8 16:36:07 2007) 提到:
白菜好！
☆─────────────────────────────────────☆
herobeauty (高大个) 于 (

y*******s
发帖数: 267

来自主题: Computation版 - 请教问题

【以下文字转载自 Statistics 讨论区】
发信人: yunatidus (为了美好生活), 信区: Statistics
标题: 请教问题
发信站: BBS 未名空间站 (Fri Jul 10 18:22:26 2015, 美东)
1、请问multiple variable regression的具体方法？
是不是用generalized inverse比较可靠？
即：Y=Z*b+e
Y(n,1)是输出数据向量(已知)；b=[1,b1,b2,b3,...br]是待定系数向量(未知)；Z(n,r+1)是输入数据矩阵(已知)；e是误差向量(未知)。
怎么求解b比较可靠？
2、请问如果待定系数的个数特别大，例如r=5000，怎么求解比较容易？
3、用R的话，用哪个函数可以求解？
可否推荐一些网站，有现成的code及example，关于multiple variable regression的模型的？
另外，linear programming的模型及code，哪里可以下载？谢谢

m*********d
发帖数: 58

来自主题: Economics版 - 求教一个矩阵特征值的问题

A矩阵是n乘n的对称实数矩阵，其中元素已知，则可以求出它的特征值和特征向量。
现有B也是n乘n已知的正实数对角矩阵，那么B*A的特征值和特征向量应该和 A与B的特
征值和特征向量之间有什么关系。
郁闷啊，这个问题弄了好几天了也没弄明白
xdjms 谁能帮忙看一眼？无限感激

h***s
发帖数: 1716

来自主题: EE版 - 神经网络到底是真的有用的技术还是伪科学?

很早的一个基于hebbian规则的学习算法，是Kohonen的自组织网络，self-organizing
map（SOM）。算法思路和你描述的动力过程很相似，而且公式非常简单。基本思路就是
，预先给出一个，比如二维的，单元网络连接结构，然后自动学习各个单元的“特征”
向量（任意高维的），最后得到一个二维的网络连接结构，表达了高维“特征”向量的
几何（距离）关系。实现这个的原理就是基于『cells that fire together， wire
together』的思想，邻近单元的“特征”向量同步地学习和更新。当然，其他还有很多
类似的学习算法。

m*********d
发帖数: 58

来自主题: Mathematics版 - 求教一个矩阵特征值的问题

g******s
发帖数: 410

来自主题: Mathematics版 - 请教Hermitian矩阵分解

令矩阵A=x*x^H，其中x为列向量，那么A^H=A。反过来，任一semipositive definite的
Hermitian矩阵，能分解为某一列向量的外积吗？是否有什么附加条件要满足？给定了A
，如何构造向量x呢？谢谢

g******s
发帖数: 410

来自主题: Mathematics版 - 请教Hermitian矩阵分解

那不就回到特征值分解了吗？这个半正定矩阵表示为一组（可能是N个）特征向量外积的
加权和，而不是某一个（随机）向量的外积。不知道我的理解有没有不对？我原来的问
题是想把A分解成一个列向量的外积的期望。

s******d
发帖数: 1

来自主题: Mathematics版 - 请教一个一直困扰我的矩阵问题

假定A是一个LxL 阶的实对称Toeplitz 矩阵,它的第一行元素是一个等差数列[L L-1 ..
. 1]。A的最大特征值lamda1对应的特征向量记为v1，归一化使v'v=1.根据perron定理
，v1是正向量。
我的问题是，不通过特征分解估计x=sum(v1)/sqrt(L)的下界。从仿真上看，x可能>0.
993，非常接近1.
但是，我如果只利用v1为正向量这一事实，则由x>=sqrt(L)*min(sum(A))/lamda然后估
计最大特征值便得到一个下界，但这个下界好像太松了，比如在L=5时大约为0.4。有没
有更紧的下界呢？
想不到其他任何的解题思路，希望能得到大家的指点，多谢！

s*******1
发帖数: 40

来自主题: Mathematics版 - 问个解析几何问题

三个3D向量a，b，c，其中a是已知，b，c是未知向量。约束条件是b允许绕着a以固定
交角旋转（b和a的交角已知），然后c允许绕着b以固定交角旋转（c和b的交角已知）。
想问一下向量c端点最后形成的方程是什么？
谢谢！

v****k
发帖数: 229

来自主题: Mathematics版 - 有这样的函数么？

下面这个问题可能有点不太专业，anyway：
我们知道正交矩阵 Q 的概念:各个列向量相互正交，各个列向量模为 1；行向量有同样
的性质。那么有没有这样的函数 f(x,y), =0 for y1 != y2, and
|f(x,y)| = 1 for any y. Similar property for the other variable.
牛人能给一个例子么？

b*****n
发帖数: 78

来自主题: Mathematics版 - 正交矩阵一问

已知向量 P 个 N 维向量 v_1, v_2, ..v_P 彼此互相正交。当 P << N 时，请问什么
快速方法可以构建其余 N-P 个正交向量？ Gram–Schmidt 的计算量很大，好像是 O(
N*N*N)。谢谢！

j****s
发帖数: 156

来自主题: Mathematics版 - 问个概念性问题，5个包子求答案

请问有没有paper或者书讨论这样的问题。
算是nonlinear estimation的一个特例
z=f(x)g(y)+n
其中，x和y是要估计的向量。 n是干扰噪声，z是observation向量。f()是线性矩阵方
程，g()是线性向量方程,f(),g()的表达式都已知且维数匹配。
最简单就是ML直接搜，但是x，y维数高了就太复杂了。有没有稍微简单的方法可以保证
找到全局最优解的？谢谢

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天