由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 怎样能才能快速的找到KNN
相关主题
python sklearn nearest neighbor user defined metric刚入行新人的两个问题
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?有人考虑过kaggle上这个预测CTR的题目么?
Data Scientist的编程能力请问哪些算法是可以用python写的,然后输入PMML
求Google 的 Data Science 有关的位置内推 (转载)我想写个survey报告 关于KNN classification algorithms
求教! how to run python programs on a hadoop clusterspark 问题
现在的大数据技术的价值和功用有些被夸大了有关归类
Data scientist / Machine Learning Engineer 相关面试题 (转载)回馈本版~ 最近面的面经和收集来的面经~
求handle missing data的好方法问个R的问题
相关话题的讨论汇总
话题: knn话题: norminal话题: 变量话题: distance话题: 每个
进入DataSciences版参与讨论
1 (共1页)
E**********e
发帖数: 1736
1
一个sampling的code, 自己写的KNN的R code,因为是continuous 和norminal 混合,
连续变量用euclidean 距离, norminal变量需要另外算distance。 基本问题是这样:
总共是500个记录, 60个norminal变量。 需要找到每个记录的KNN。 每条距离搜寻需
要5seconds, 所以这个KNN需要20分钟。 因为要做bootstrap, 所以一个main
function, 运行100需要两天时间。 现在想加快这个KNN搜寻。 问题是就在norminal
距离的KNN计算,需要5秒时间。
我看了下问题。 60个norminal变量的distance 矩阵单独完成,很快。
现在的主要任务就是算每条记录的KNN,用的是两个loop, 需要从所有变量的distance
矩阵里,一对一的需要找到每个记录里每个变量所对应的具体距离,这样就很慢了。我
是通过每个distance矩阵的的row 和col names同每个记录里的变量值对应才找到需要
的distance,然后sum所有每个记录里60个变量的distance值,最后找到每个记录的KNN

现在问题就简化成,假设现在有60个变量各自的distanc矩阵, 怎样快速的找到每个记
录的KNN。 用double loop很慢。 能用是么sql表查询码?
谢谢。
c********h
发帖数: 330
2
Kd tree?
G***n
发帖数: 877
3
sql也是需要一个个loop啊,而且连sql估计更慢。knn算法就是很慢,有很多改进版的
论文,也没有实质提高多少。试试用spark跑?

样:
norminal
distance

【在 E**********e 的大作中提到】
: 一个sampling的code, 自己写的KNN的R code,因为是continuous 和norminal 混合,
: 连续变量用euclidean 距离, norminal变量需要另外算distance。 基本问题是这样:
: 总共是500个记录, 60个norminal变量。 需要找到每个记录的KNN。 每条距离搜寻需
: 要5seconds, 所以这个KNN需要20分钟。 因为要做bootstrap, 所以一个main
: function, 运行100需要两天时间。 现在想加快这个KNN搜寻。 问题是就在norminal
: 距离的KNN计算,需要5秒时间。
: 我看了下问题。 60个norminal变量的distance 矩阵单独完成,很快。
: 现在的主要任务就是算每条记录的KNN,用的是两个loop, 需要从所有变量的distance
: 矩阵里,一对一的需要找到每个记录里每个变量所对应的具体距离,这样就很慢了。我
: 是通过每个distance矩阵的的row 和col names同每个记录里的变量值对应才找到需要

l*******m
发帖数: 1096
4
用轮子吧

样:
norminal
distance

【在 E**********e 的大作中提到】
: 一个sampling的code, 自己写的KNN的R code,因为是continuous 和norminal 混合,
: 连续变量用euclidean 距离, norminal变量需要另外算distance。 基本问题是这样:
: 总共是500个记录, 60个norminal变量。 需要找到每个记录的KNN。 每条距离搜寻需
: 要5seconds, 所以这个KNN需要20分钟。 因为要做bootstrap, 所以一个main
: function, 运行100需要两天时间。 现在想加快这个KNN搜寻。 问题是就在norminal
: 距离的KNN计算,需要5秒时间。
: 我看了下问题。 60个norminal变量的distance 矩阵单独完成,很快。
: 现在的主要任务就是算每条记录的KNN,用的是两个loop, 需要从所有变量的distance
: 矩阵里,一对一的需要找到每个记录里每个变量所对应的具体距离,这样就很慢了。我
: 是通过每个distance矩阵的的row 和col names同每个记录里的变量值对应才找到需要

r*******y
发帖数: 270
5
小的愚钝 norminal是啥
E**********e
发帖数: 1736
6
Norminal 就是名义变量, 可以包括ordinal 和 nonordinal变量。 一般可以code成 1
,2,3,...

【在 r*******y 的大作中提到】
: 小的愚钝 norminal是啥
E**********e
发帖数: 1736
7
轮子是是么? 谢谢。

【在 l*******m 的大作中提到】
: 用轮子吧
:
: 样:
: norminal
: distance

w***g
发帖数: 5958
8
https://github.com/erikbern/ann-benchmarks
其中的kgraph和LSHKIT是我写的。你这个数据量非常小,速度慢不是算法问题,
而是因为用R手写了代码。你随便找个用C/C++实现的R的轮子就能解决问题了。
可惜我不会R帮不了你。

样:
norminal
distance

【在 E**********e 的大作中提到】
: 一个sampling的code, 自己写的KNN的R code,因为是continuous 和norminal 混合,
: 连续变量用euclidean 距离, norminal变量需要另外算distance。 基本问题是这样:
: 总共是500个记录, 60个norminal变量。 需要找到每个记录的KNN。 每条距离搜寻需
: 要5seconds, 所以这个KNN需要20分钟。 因为要做bootstrap, 所以一个main
: function, 运行100需要两天时间。 现在想加快这个KNN搜寻。 问题是就在norminal
: 距离的KNN计算,需要5秒时间。
: 我看了下问题。 60个norminal变量的distance 矩阵单独完成,很快。
: 现在的主要任务就是算每条记录的KNN,用的是两个loop, 需要从所有变量的distance
: 矩阵里,一对一的需要找到每个记录里每个变量所对应的具体距离,这样就很慢了。我
: 是通过每个distance矩阵的的row 和col names同每个记录里的变量值对应才找到需要

b**********l
发帖数: 116
9
膜拜大牛。。。原来您毕业论文就是搞这个的。。。太厉害了。。。

【在 w***g 的大作中提到】
: https://github.com/erikbern/ann-benchmarks
: 其中的kgraph和LSHKIT是我写的。你这个数据量非常小,速度慢不是算法问题,
: 而是因为用R手写了代码。你随便找个用C/C++实现的R的轮子就能解决问题了。
: 可惜我不会R帮不了你。
:
: 样:
: norminal
: distance

1 (共1页)
进入DataSciences版参与讨论
相关主题
问个R的问题求教! how to run python programs on a hadoop cluster
如何理解 curse of dimensionality现在的大数据技术的价值和功用有些被夸大了
怎么计算距离比较好?Data scientist / Machine Learning Engineer 相关面试题 (转载)
[Road map] From ClickStream to ConsumerInsight求handle missing data的好方法
python sklearn nearest neighbor user defined metric刚入行新人的两个问题
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?有人考虑过kaggle上这个预测CTR的题目么?
Data Scientist的编程能力请问哪些算法是可以用python写的,然后输入PMML
求Google 的 Data Science 有关的位置内推 (转载)我想写个survey报告 关于KNN classification algorithms
相关话题的讨论汇总
话题: knn话题: norminal话题: 变量话题: distance话题: 每个