第2页 - 关于读入的讨论汇总 - 话题女王

s******r
发帖数: 1524

format best19. informat best19.
format $18. informat $18.
都试了，不work. 很怀疑SAS当float读入，最后几位给截掉了。

e******e
发帖数: 410

数据原格式是：
Start Stop Length Format
1044 1055 12 S9(9)V99
下面是一些具体的数据例子：
+00000000000
+00000000000
+00000271750
+00000000000
+00000541500
+00000000000
那么我应该用什么informat来读入这些数值？麻烦的地方主要是那个leading sign。
多谢多谢

s******a
发帖数: 184

来自主题: Statistics版 - 如何读入包含有中文header的文件

我有一个data set, 包含有中文字符,比如
项目,地区,价格
电视,北京,5000
我现在用以下的code读入数据
amatrix<-read.table("价格.txt",sep=",",header=T,encoding="UTF-8",row.names=
NULL)
当想看看amatrix的attribute的名字时,出现的确是乱码, 请问应该怎么解决
> names(amatrix)
[1] "row.names" "X.U.FEFF.项目.地区" "价格"

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把
整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash
_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最
大的IP中，找出那个频率最大的IP，即为所求。
或者如下阐述（雪... 阅读全帖

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

s**********o
发帖数: 14359

来自主题: Database版 - 如何秒杀99%的海量数据处理面试题 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: rongxuer (蓉儿), 信区: JobHunting
标题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的... 阅读全帖

j**u
发帖数: 6059

来自主题: Computation版 - [合集] 请教一个C++程序结构的问题

☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Wed Nov 23 23:01:21 2011, 美东) 提到:
程序里现在需要一个很大的Matrix, 以前写的时候是放在一个文件里，每次程序执行的
时候现读入，这样很浪费时间，现在把整个Matrix写成一个array存在程序里作global
variable，但是编译的时候很慢，要十几分钟的样子，而且编译出来的程序很大，请问
各位一般处理大的矩阵时候是如何处理的，谢谢哈.
☆─────────────────────────────────────☆
Augu (奥古) 于 (Thu Nov 24 16:35:31 2011, 美东) 提到:
要不空间换时间
要不时间换空间

global
☆─────────────────────────────────────☆
eagletiger (eagletiger) 于 (Fri Nov 25 02:14:55 2011, 美东) 提到:
俺现在就是空间换时间，矩阵大概... 阅读全帖

m*****f
发帖数: 1243

来自主题: JobHunting版 - 这么热闹, 我也报Google offer

今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorithm (貌似博主已经关闭匿名浏览)
版面总结
http://www.mitbbs.com/article/JobHunting/31505215_4.html
Bitwise题目
http://graphics.stanford.edu/~seander/bithacks.htm... 阅读全帖

i***k
发帖数: 45

来自主题: JobHunting版 - 问个计算化学问题：怎么读GRID？

【以下文字转载自 Chemistry 讨论区】
发信人: icook (icook), 信区: Chemistry
标题: 问个计算化学问题：怎么读GRID？
发信站: BBS 未名空间站 (Tue May 3 12:55:17 2011, 美东)
初入计算化学行当，现在有一个势能FUNCTION, f(a,b,c,d,e)，
我们从别的组拿到了f的ab initio数据，是17万行的数据，分别是变换ABCD得来的
我老板的意思是，做个GRIDDING，就相当于做个LIBRARY，
然后从里面内插，或者外插（interpolation, extrapolation）得到我们要的f值。
可是俺比较笨，不知道该怎么做。能请各位前辈指导一下么？我们用fortran，c
也可以。
1，我是先把17万行数据都读入程序先么？这样会不会内存废掉？俺是在ibm系列
的super computer上做，不知道会不会导致内存太大
2，假设我不先读入，而是每个f(a,b,c,d,e)，我都到外部文件里面去查找，
这个怎么实现呢？非常感谢关于这个的建议！俺编程半白痴，实在不知道怎么实现。
如果一... 阅读全帖

f********t
发帖数: 6999

来自主题: SanFrancisco版 - 这么热闹, 我也报Google offer (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: mudhoof (正在长牙的羊), 信区: JobHunting
标题: 这么热闹, 我也报Google offer
发信站: BBS 未名空间站 (Tue Feb 23 12:32:47 2010, 美东)
今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorith... 阅读全帖

t*******r
发帖数: 22634

来自主题: WaterWorld版 - 关于使用反证法证明 "素数有无穷多个"

973 楼是写成 yacc 的文法分析器的概念的。所以不能用通常的计算概念，
计算出素数集合。而是这样计算的（理论上的虚拟 yacc 机）。
虚拟 Yacc 机器首先读入你定义的文法。
然后虚拟 Yacc 机器读入你的输入（在这个实例中就是读入一个任意的 set）。
虚拟 Yacc 机器读入输入的 set 以后，按照前面读入的你定义的文法进行
shift-reduce。
如果 shift-reduce 成功，说明你的输入符合你定义的文法，该虚拟 yacc
机返回 true。如果不能 reduce 成功，返回 false。
在这个例子里，true 就是输入的 set 是 set_of_smallest_n_primes。
false 就不是。
这样，该虚拟 Yacc 机能做到你扔 it 任意一个 set，虚拟 yacc 机返回
该 set 是不是 set_of_smallest_n_primes。
即该虚拟 yacc 机能产生 set_of_primes（你扔给 it 所有自然数集合
的排列组合。。。），当然，慢的要死。。。但理论虚拟机哪个不是慢的要死
的。。。
是不是被我蒙晕了？

t******n
发帖数: 2939

来自主题: WaterWorld版 - [合集] 关于使用反证法证明 "素数有无穷多个"

☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:34:22 2013, 美东) 提到:
假设素数只有有限个, 记为 p_1,p_2,...,p_k
考察 N = p_1*p_2*...*p_k + 1
可知: 对于任意i = 1,2,3,...,k, p_i 不能整除 N
由素数的定义:
a是素数 <=> a是大于1的自然数, 且a不被任何小于a的素数整除
可知: N是素数
这与素数只有p_1,p_2,...,p_k矛盾.
故假设不成立.
所以素数有无穷多个.
☆─────────────────────────────────────☆
l63 (l63) 于 (Thu May 23 00:37:03 2013, 美东) 提到:
在承认素数的这个等价定义 (即 a是素数 <=> a是大于1的自然数, 且a不被任何小于a
的素数整除) 的前提下, 居然有人会认为这个证明是错的, 或者是不完备的.
我实在不能理解.
求问一下大家, 是不是有的人的脑子天生有缺陷, 根本怎么教都不会明白... 阅读全帖

y**b
发帖数: 10166

来自主题: Programming版 - 请教用c++读取large file怎么可以快一些？

简单测试了一下，读一千万个记录(每个记录是一个int)、80MB大小的文件，
无论是用vector还是priority_queue,
无论是读一行push一次，还是给出一个区间构造容器，
无论是采用int直接放入容器还是用该int构造某个简单class(重载>>,<<,<)放入容器，
都在10秒以内。
比较有趣的，用区间构造容器比读一行push一次慢20%左右, why?
再就是priority_queue对数据顺序比较敏感，
递增序列用8秒(同样情况vector为1.22秒)，
递减序列用2秒(同样情况vector为1.22秒)，这个好理解，优先队列要比呀比。
还有就是比较了一下读入并放入vector(1.22秒)和读入但不放入vector(1.17秒),
可见放入vector容器只用了0.05秒，很快，而放入优先队列要花费更多时间。
我把源码和makefile放这里，大家有空玩玩：
https://sites.google.com/site/forconvenience/Home/reader.tar，
1. 1write生成数据文件，可以改动记录数，生成常数系列、递增系列、递减系... 阅读全帖

i***k
发帖数: 45

来自主题: Chemistry版 - 问个计算化学问题：怎么读GRID？

初入计算化学行当，现在有一个势能FUNCTION, f(a,b,c,d,e)，
我们从别的组拿到了f的ab initio数据，是17万行的数据，分别是变换ABCD得来的
我老板的意思是，做个GRIDDING，就相当于做个LIBRARY，
然后从里面内插，或者外插（interpolation, extrapolation）得到我们要的f值。
可是俺比较笨，不知道该怎么做。能请各位前辈指导一下么？我们用fortran，c
也可以。
1，我是先把17万行数据都读入程序先么？这样会不会内存废掉？俺是在ibm系列
的super computer上做，不知道会不会导致内存太大
2，假设我不先读入，而是每个f(a,b,c,d,e)，我都到外部文件里面去查找，
这个怎么实现呢？非常感谢关于这个的建议！俺编程半白痴，实在不知道怎么实现。
如果一开始都读入，俺可以想办法实现。如果外部每次都读，就不知道了。：）
谁能帮忙一下？多谢！
要是有人有类似的gridding的，外部读入的或者内部读入的程序可以介绍看一下，
就更好了！多谢多谢！！

b********o
发帖数: 60

来自主题: Statistics版 - SAS读数据问题，在线急等，多谢了！！！

遇到个读数据的问题：
这是数据：
SMITH ,BOB 01/03/668845333883
JACKSON ,ANDREW 03/09/779917736612
ALICE ,KIM 02/24/542243226673
要求按 LastName FirstName Birthday Phone读入。
发现Name整个是22位的定长字段，很好办,定长读入就好：
INPUT NAME $ 1-22 BIRTH $ 23-30 PHONE $31-39;
可是，问题是，如果要分出 LastName FirstName 两个variables,怎样才能读入呢？
因为Name中的那个逗号不是在固定位置出现的，所以就不能定位读。
请问版上高手：
1.能否直接读入LastName 与 FirstName两个变量？
2.能否先读入全名到 Name 变量，再把 Name变量分成 LastName和FirstName?
恳请大牛帮忙！

s********h
发帖数: 286

来自主题: Programming版 - C++ 初学者请教一个 iostream 的问题

一个很简单的 stream input 小程序，目的是读入名字，ID号码，及其它信息。
我的问题是，如果先读入名字，再读入 ID，就一切正常，可是如果先读入 ID，在读名
字的时候，就会自动跳过，不让我输入名字了。我的程序如下：
#include
using namespace std;
int main()
{
unsigned idNumber;
char firstName[30];
int hoursWorked;
char ch = '\0';
int i = 0;
cout << "Please enter your first name: ";
while (1) {
cin.get(ch);
if (ch == '\n') break;
firstName[i++] = ch;
}
firstName[i] = '\0';
cout << "Please enter your ID Number: ";
cin >> idNumber;
cout

b***i
发帖数: 3043

来自主题: Programming版 - 一种新型的推测编程

最近写了一个小程序，要把每个目录下的文件按数字的顺序读入（1.txt, 2.txt，等表
示日期），而目录表示月，比如2015/2/1.txt等，每个文件大约100-200M左右。是每秒十
几行的记录数据，每行记录一个设备，所以24x3600x12行。（一开始是14行，多了几天
变成12行，因为拿走了几个设备）
那么，我费尽九牛二虎的智力在几十分钟内完成了一个小程序，从每个文件中读取最前
的几行输出到唯一一个文件2015.csv，这样，把几个月所有文件按时间（目录排序，文
件名排序）把最开始的记录总结了一下，变成几百行。
我的目的是做一个excel的图，把设备的数据按时间画起来。
那么，目前最好的最简答的编程是什么？能不能让编译器猜测我要做什么。比如
[One approach]
string txt = Files......读入所有内容。
string[] lines = txt.split();
// now save first few lines
[Must be done]
for(int i=0;i<12;i++)
Files.AppendAllText(...);... 阅读全帖

D*****e
发帖数: 761

来自主题: Computation版 - MATLAB 如何调入超大型图像数据？

一个巨大图像test.tif有20GB吧，我想不可能一次读入,有没有办法能分批读入，比如
每次读入一个小区域，处理完后再读入下一个小区域？
Matlab能处理吗？谢谢

s*******i
发帖数: 712

来自主题: JobHunting版 - Adobe面试题，怎么能把很多文件读到Memory ?

说说Q3
我觉得关键是频繁从磁盘里读取小文件不仅I/O慢，而且浪费了磁盘的带宽。改进这个
瓶颈可以通过
增强磁盘上数据的locality和充分利用磁盘带宽。
1. 利用磁盘带宽：把磁盘划分为某个合适大小的区域(如128KB)，称为cluster。
cluster的大
小决定于磁盘带宽，能充分利用一次读入的吞吐量。
2. 提供一个locality算法把相关性高的小文件尽量归到一个cluster里。
这样从磁盘读取文件时以cluster为单位，这样既充分利用了磁盘带宽，还由于
locality，在内存
里处理该文件后，接下来要处理的文件很有可能就在你读入的cluster里了。减少I/O次
数。
Q1。可能也是类似的情况，具体怎么弄我也不知道。但你说一次性读入所有文件未必
合适。这些文
件加起来有好几百M了吧。
Q2. 是不是和文件和目录在磁盘上的分布有关系？谁来说说文件和目录在磁盘中怎么放
的？有啥规律
吗？

big,
of
that we
how do

r**u
发帖数: 1567

来自主题: JobHunting版 - 一道google题

Sorted arrays M and N with len m and n, find intersection of them. Then ask
if m >> n, how to do it.
(1) merge sort的思想，需要顺序读入大文件, O(m+n)。
(2) 对小文件里每一个element，到大文件里binary search. 理论上是O(nlogm).
当 m >> n, （2）更好。但是binary search时还是要读入大文件的很多block，
所以有（3）
（3）B-tree，这样只要读入大文件的一个block if B-tree在内存的话。
我有个疑问，文件在disk上是如何存储的？如果从文件的一个block到下一个block，
还是需要很大的寻道时间？

B*******1
发帖数: 2454

来自主题: JobHunting版 - 回文数的问题

不好意思，没有解释清楚
因为现在回文数肯定是偶数，那么就假设每次读进2个字符
假设数字到prime的mapping为
1->2
2->3
3->5
4->7
5->9
...
用你的例子123123,
1.读入12, slow pointer指向1，fast pointer 指向2， slow pointer指向的数包括之
前的数对应的primes number乘积为2, fast pointer的为6
2. 读入31, slow pointer指向2，fast pointer 指向1， slow pointer指向的数包括
之前的数对应的乘积为6, fast pointer的为60
3。读入23, slow pointer指向3，fast pointer 指向3， slow pointer指向的数包括
之前的数对应的乘积为30, fast pointer的为90 = 30*30，调用如下function check
到目前为止的stream是不是回文
private boolean test(int[] a, int i) {
for (int j=0; j<... 阅读全帖

p**r
发帖数: 5853

来自主题: JobHunting版 - 请教: 想用java实现解析parse一个log文件,多谢指点

俺说下思路及考官意图，个人看法。
#1 绝对不一次性读入整个文件！！！！
这个是考你处理大文件的方法，
一次性读入，3行还行，如果3百万行，那就是坑爹
所以类似readline的方式，分行读入，但是不是只读1行！
【注意点】
读单项（不是单行！！！）的时候做一个判断，是否读到结尾了，因为不一定一行包括
了所有信息。
是否结尾标志，用regular expression判断，一旦读到第2个时间，结束，进入数据拆
分！
【可能会加分的，但是有点showoff，遇到考官装X的会起反效果。】
你可以在读文件前再做一个判断，文件小于类似10k，直接读文件，不然就分行读。
也就是说你知道如何处理大文件，但是对小文件也不扯淡。。
#2 必须用regular expression<正则>，要求#4里说得很清楚！！！！
正则表达式分离数据，必须学会，以后会用很多。
判断日期格式，有很多种表达式。
如果不懂，就先去研究一把，这个题目只是分离日期以及后面数据，算简单的。
#3 把数据分离成2部分就不说了，这个你肯定会。
#4 第5条要求的意思其实是为了cross platform等后期需要，
所以建议用xm... 阅读全帖

w****x
发帖数: 2483

来自主题: JobHunting版 - 周末上道题

其实我也不是很清楚，
是不是可以一开始当读入数据个数小于k时候是保持k个sorted number, 然后每读入一
个，
把array当作deque, k个以后每读入一个x，如果x小于当前deque最大的（last），
removeLast, 然后一个个removeFirst直到first >= x，然后addFirst, 保持deque递增
？

y*****e
发帖数: 712

来自主题: JobHunting版 - count and say的输入输出可能一样吗？F考过的？

看到这个帖子，有一个面试官问count and say
http://krics.appspot.com/thread/JobHunting/32883371/1/
"做了一题 count and say 估计这轮negative 问什么时候输出输入字符是一样的然后
死活和我纠
结这个test case 气场不和"
我感觉她的意思是，读入1的话，读出11，
再读11，读出21
问什么时候读入读出是相同的？
这可能吗？如果读入读出相同，那么不陷入死循环了？没法往下读了啊

h****a
发帖数: 39

来自主题: Stock版 - Adobe 的问题

PDF文件的结构是开放的，你可以看着规范自己写一个PDF生成器，没什么难的。
再多说点PDF的好处 :)
除了字体内嵌之外，PDF是最早支持多媒体数据嵌入的，同时也支持矢量图型的嵌入。
另外，它的数据文件结构也非常有意义，是由头-内容-附加段落构成的，而这些最大的
意义大于流式操作，也就是你不用读入全部文件就可以即时渲染出已经读入内存的内容
来。
比如黑体 14号 A 宋体 12号 B
在文件里存着时是
A(黑体 14号 )
黑体14号 A的字库数据
B( 宋体 12号 )
宋体 12号 B的字库数据
以上所说，你会发现没读入B这个字符及后面的信息时已经可以渲染出A来了，所以生成
PDF及渲染PDF所需要的内存都很小，我家的扫描仪都支持扫描为PDF :)
但是Adobe是这个标准的制定者，哪么出版行业里就可以他来定规则了。其实这样就有
意思了，因为他家的软件总会在第一时间支持新的标准和规范，自然就有竞争力了。

p******1
发帖数: 79

来自主题: Texas版 - Python 可不可以一次读数据给一个 web service 后，然后一直用

做了一个web service, 主要是算一些数。用的是webpy 的get:
urls = ('/calculate','calculate')
app = web.application(urls,globals())
class calculate :
def __init__(self):
self.hello = "hello world"
def GET(self):
getInput=web.input

b=[]
with open("file.txt","rb") as k:
for row in k:
row=row.split("t")
if len(row)==8:
b.append(row)

就是先用getinput 得到一个值，然后再读入一个数据， file.txt, 用 file.txt 的数
据和 getinput 的值做计算。... 阅读全帖

l******l
发帖数: 1

来自主题: EmergingNetworking版 - 请教：关于OPNET

无线模块。
目的是为了模拟信道特性随时间的变化。
信道特性以矩阵形式由.txt文件给出。例如行和列各自代表不同节点，每一项是从一个节
点到另外一个节点的信道衰减（以db为单位）
随着时间的变化，信道特性发生变化，此时接收端的指标例如received power, SNR等也
会发生变化，我查了一下，path loss是由OPC_TDA_RA_RCVD_POWER给出，但是怎样把OPC_
TDA_RA_RCVD_POWER这个量和.txt中的量联系起来？也就是读入一个txt文件之后，怎样把
信道衰减添入到所有receiver的OPC_TDA_RA_RCVD_POWER?
现在手头有一个topology_control的process module,我把读入的数据存储在那里，但是
怎样把process module和node model的pipeline stage联系起来，是一个问题。
读入txt文件之后，怎样自动配置？

b***i
发帖数: 3043

来自主题: Java版 - 这段实例化的代码可以优化提速吗？

某个类的文件本地读入和处理需要0.5秒，我就想能不能串行化，然后我直接读入。结
果发现，直接本地读入object需要1秒。下面就是代码，请问有没有办法加速？obj文件
一共几百k bytes.
public static Object load(String filename){
try {
FileInputStream fin = new FileInputStream(filename);
ObjectInputStream ois = new ObjectInputStream(fin);
Object obj = ois.readObject();
ois.close();
System.out.println("unserialized theQueue");
return obj;
} catch (Exception e) { e.printStackTrace(); }
return null;
}

p**r
发帖数: 5853

来自主题: Java版 - 急请教:用java实现解析parse一个log文件,多谢指点

俺说下思路及考官意图，个人看法。
#1 绝对不一次性读入整个文件！！！！
这个是考你处理大文件的方法，
一次性读入，3行还行，如果3百万行，那就是坑爹
所以类似readline的方式，分行读入，但是不是只读1行！
【注意点】
读单项（不是单行！！！）的时候做一个判断，是否读到结尾了，因为不一定一行包括
了所有信息。
是否结尾标志，用regular expression判断，一旦读到第2个时间，结束，进入数据拆
分！
【可能会加分的，但是有点showoff，遇到考官装X的会起反效果。】
你可以在读文件前再做一个判断，文件小于类似10k，直接读文件，不然就分行读。
也就是说你知道如何处理大文件，但是对小文件也不扯淡。。
#2 必须用regular expression<正则>，要求#4里说得很清楚！！！！
正则表达式分离数据，必须学会，以后会用很多。
判断日期格式，有很多种表达式。
如果不懂，就先去研究一把，这个题目只是分离日期以及后面数据，算简单的。
#3 把数据分离成2部分就不说了，这个你肯定会。
#4 第5项要求的意思其实是为了cross platform等后期需要，
所以建议用xm... 阅读全帖

S*A
发帖数: 7142

来自主题: Linux版 - ipython 使用总结

长期用来代替 shell 用也勉强可以。
有个问题是如果跑很多 python 程序的话，
这个 ipython 霸占内存越来越多。最后要
退出从新进来一下。就是这个不能缺省成为
我的 default shell.
macro, alias 之类的还是很强的。
ipcluster 那一套用来管理很多机器还挺好的，
可以同时给很多机器发命令同时看返回结果。
用来显示 python 变量和看数据还行。
做 pipe 处理的话和 shell 里面那套不一样，python
可能灵活些。
有一个情况还是挺适合的就是写 machine learning.
有很多数据要读进来，进行不同的处理。
这时候可以让数据一直保存在 ipython 里面，处理程
序就不需要整天花很多时间读入数据。例如几个 G 的数据
每次读入都要几分钟。用 ipython 把数据传给程序可以
省掉反复读入数据的时间。

j******e
发帖数: 64

来自主题: Programming版 - 问一个很弱的c++ cin的问题

我现在是一行一行读入的
a1 b1 c1
a2 b2 c2
是从std in读入的，最后回车
表示读入结束，请问这种情况
如何判断，
我是
while(cin.getline(a,256)){
....
}
但是无论如何跳不出这个循环，谢谢。

d****n
发帖数: 1637

来自主题: Programming版 - c++读写多个大文件的问题

同时打开1000个文件，程序肯定会卡死。
你要用amortize 法则。buffer IO.
譬如，你不能同时装入全部文件。
但是你可以把每个文件得1000行顺序读入。
充其量也就是1000＊1000个array大小再内存里面。
然后纪录每个文件得lseek，用一个独立得 array。
处理前1000个文件得1000行。
输出这些到文件。
读入lseek 得 array，读入下1000个文件得各1000行，继续重复处理。
一般这个buffer理想应该在10million。这样做，你能实现计算。
又不至于让内存用干。

b***i
发帖数: 3043

来自主题: Programming版 - C的fscanf的问题

不就是读入直到|，然后读入|到一个char里面，然后读入一个浮点数吗
int main(){
char line[]={"GOODG|256.5"};
char name[10];
float x;
char c;
sscanf(line, "%[^|]%c%f", name, &c, &x);
printf("%s\n", name);
printf("%f", x);
return 0;
}

b***i
发帖数: 3043

来自主题: Programming版 - FMP tutorial

比如，按下一个按钮要打开文件，能用你这个多线程读入文件吗？给个具体例子吧。
程序就叫FMPTest，extends JFrame,里面有一个JLabel,一个JButton, 要求点击
JButton打开FileDialog，选好文本文件后，用FMP线程读入，然后在JLabel里面显示
Good出现的次数。要求不能在UI线程里面读入文件。

FMP

p******1
发帖数: 79

来自主题: Programming版 - Python 可不可以一次读数据给一个 web service 后，然后一直用这个数据

b***i
发帖数: 3043

来自主题: Programming版 - JSONCPP和ASIO能否联合使用(C++11)？

我其实不用数，JSONCPP可以自己数。
但是，我自己数的有个问题，我得告诉ASIO等待包的时候什么时候回叫我的handle_
read，如果规定了特殊字符，那么就是每个包最后放一个特殊字符。read_until可以告
诉ASIO在这个特殊字符出现的时候回叫我的函数handle_read。我试过如果不告诉ASIO
等待这个字符，那么它会无限等下去，等到超时。
现在我的办法是，ASIO独立读入一个包（根据特殊字符来分隔），然后读入的包是一个
streambuffer，然后交给JSONCPP处理。恰好，JSONCPP需要stream来读入。但是我这样
需要一个特殊字符。而软件组的C#不需要这个特殊字符。所以很奇怪，C#内部如何实现
的。
那么如果不用特殊字符，而且要自己数，是不是就告诉read_until('}')?这样可以自己
数。难道要这样做吗？

s******t
发帖数: 15

来自主题: Unix版 - [转载] 谁能帮我解决这个程序设计问题?

【以下文字转载自 Linux 讨论区,原文如下】
发信人: surmount (我是一片云), 信区: Linux
标题: 谁能帮我解决这个程序设计问题?
发信站: The unknown SPACE (Sun Oct 13 08:06:20 2002) WWW-POST
我现在有两个程序, 一个是网络的client, 负责接收从网络过来的数据,(可以是任何格式
的数据)并在硬盘上形成一个文件
一个是video的解码器(decoder),负责从硬盘上读入一个压缩好的视频文件,并解压存为另
一个文件
现在我想把这两个程序拼到一起, 也就是编译为一个程序, 使得我在server端发出的视频
压缩文件能实时的在client端得到解码
我现在的想法是:
1. 原来的client和decoder程序都是从硬盘读取或者是存入硬盘的,为了使两个程序连起
来,我想使用pipe, 就是说,client把接收到的东西写入pipe(而不是写成文件存到硬盘),
而decoder从这个pipe读入数据(而不是原先的从硬盘读入)
2. 为了使client收到的数据得到即时解码, 必须使client和dec

x*********l
发帖数: 594

来自主题: Computation版 - 请教一个C语言读目录的问题

编写C程序，需要遍历一个目录下面的所有文件，名字str1_int1_str2_int2.dat的
文件每次读入一个文件内容，包括文件名字中的int1和int2两个数也要使用，然后
进行操作，完毕后再读入一个文件，如此循环。请问这个东东怎么搞法？
我在matlab下面，就用filelist=dir('dir/str1_*_str2_*.dat')读入所有符合条
件的文件名字放在filelist中，然后一一处理。请问C里面如何解决这个问题？我用
的操作系统是Linux，谢谢各位大侠。

s*****a
发帖数: 2735

来自主题: Computation版 - matlab 做不规则数据输入，求教

谢了个小程序，用来读入不规则的data，能够读入，但是会报错。
应该是loop上太菜了（原谅我是新手，真不好意思）
我把文件贴出来，请认识的帮看看，run run。
这个问题困扰很久了，还有自己的方法可能真的有点笨，请指点，万分感谢。
data file：
https://www.dropbox.com/s/83nd46ny7gunyhv/data.csv
test code：
https://www.dropbox.com/s/vvzfw6uhhgkekbd/test.m
————————————————————————————————————-
test code copy：（下边两个方法都出错了，虽然能够正常读入）
%% input 1
fid_t = fopen(...
'C:\**\data.csv', ... % <------------- address
'r');
while ~feof(fid_t)
temp1 = fgetl(fid_t);
temp2 = regexprep(temp1, '"', '');
line = c... 阅读全帖

A*******s
发帖数: 3942

来自主题: Statistics版 - 请教一个SAS数据input的问题

comment：
1. dlm="/" SAS默认两个或以上的delimiter为一个
2. :$12. informat 之前加colon，sas会在遇到space和delimiter时停止读入
3. id 4. 这个我不是很确定。如果将id的informat改成$，似乎sas会将后面的空格
和refid一起读入，然后保留前八位再把后面的空格去掉。我不知道怎么解决，只能把
id当做numeric读入就行了。
改了一下，运行好像没错，sample code如下
data new;
infile "**********" missover dlm="/" ;
input id 4. refid :$12. @;
num=0;
do while (refid ne ' ');
num+1;
output;
input refid :$12. @;
end;
run;
proc print;
run

s****y
发帖数: 297

来自主题: Statistics版 - 一个关于R的小问题

请问，我需要读入一个txt文件，里面是有m行，n列（A，B，y1,y2,y3...）。
我的问题是：有没有办法在读入数据的时候将文件读成（A,B,C）三列，其中C列是将
原数据同一行中（y1,y2,y3...）合并成一个character？
或者先读入数据，然后将每行（y1,y2,y3...）合并成一个charater？
我只会用paste合并，paste需要列出全部的y值，但是当一行中y 很多的情况下，就不
是很方便了。
恳请牛人指点！
谢谢！！！！

p******r
发帖数: 1279

来自主题: Statistics版 - SAS base 70 题第29 和 31题

当读入raw data到sas dataset里时，如果定义的变量多于raw data里某record里的实
际变量个数的时候，读入的时候会转到下一个record继续读。（不然要missover这个
option干嘛。。。）
注意此时，如果下一个record恰好是最后一个record的话，那程序把一行变量填满后就
此打住，不再继续读入了（即使当前record还有数据没被读）

N***0
发帖数: 303

来自主题: Statistics版 - base 123题第109题新的疑惑

The contents of the raw data file EMPLOYEE are listed below:
----|----10---|----20---|----30
Ruth 39 11
Jose 32 22
Sue 30 33
John 40 44
The following SAS program is submitted:
data test;
in file' employee';
input employee_ name $ 1-4;
if employee_ name = 'Sue' then input age 7-8;
else input idnum 10-11;
run;
Which one of the following values does the variable AGE contain when the
name of
the employee is "Sue"?
A. 30
B. 33
C. 40
D. . (missing numeric value)
答案 C
指针如何跳转的，这里没有问题，我的问题是关于column input... 阅读全帖

v*******e
发帖数: 11604

来自主题: Statistics版 - 如何合并两个数据文件 (转载)

这个R搞不定，因为R读入几万列的文件非常困难。
perl肯定搞得定，我不会。
python可以，用python读入第二个文件，用人ID做索引建立个dict。
然后再逐行读入第一个文件，用每一行的人ID查找刚才做好的dict，把行合并写出来就
行了。找个会python的人帮你做吧，一会儿的事。

N******G
发帖数: 33

来自主题: DataSciences版 - 请教一个面试题（已跪）

首先，需要一个缓存存最近10分钟的访问，即（user id， timestamp）pair，这是一
个滑动窗口，时间复杂度和读入一样，空间复杂度取决于最繁忙10分钟有多少访问
然后，建一个map，key是user id，value是这个user id最近10分钟的访问次数。读入
新访问，则对应value +1，然后处理已经过期的访问（>10分钟），将对应value -1。
每次读入均摊时间复杂度O(1)。空间复杂度=不同user个数。当然如果删除value=0的
map，空间复杂度=max(所有连续10分钟里出现不同user id的个数)

T*******x
发帖数: 8565

来自主题: History版 - 讨论一下汉语和汉语改革

以下转贴：
汉语的同音字词较多，也不是固有的现象，而是历史的产物。
根据一部分学者对汉语的研究，我们得知汉语在上古时期音节中的辅音较多，因而可能
构成较多的不同的音节。而那时的词汇总数又较现代为少，这样，同音字并不是很多的
。高本汉认为古代汉字读音是有辅音群的。【3】王力说：“上古汉语的语音是很复杂
的：声母、韵腹、韵尾，都比现代普通话丰富得多，和中古相比，也显得复杂些。”【
4】
古代汉字的读音，塞音声母有四套t，t‘，d，d‘，即既有清浊之分，又有送气不送气
之分。还有一些复辅音声母。如gl－，kl－，bl－，pl－。辅音韵尾有：－m，－n，－
ng，－p，－t，－k，－b，－d，－g，但是声调并没有形成。《诗经》和《楚辞》中有
韵脚，但并无可以构成平仄对仗的痕迹。
到了中古时期，复辅者声母分化为单辅音声母，浊辅音塞音声母开始消失，－b，－d，
－g，这些浊辅音韵尾也逐渐失落，而声调却发展起来了。有了平上去入四声。入声字
均以－p，－t，－k，这些清输音为韵尾。
在现代北京话中，除了m－，n－，l－，r－，这几个声母外，浊辅音声母都消失了。辅
音韵尾徐了－n，－ng之外，全部失去了... 阅读全帖

t******t
发帖数: 15246

来自主题: Military2版 - 说说数控机床（转载）

http://www.9ifly.cn/forum.php?mod=viewthread&tid=5941&extra=pag
现在再聊一下数控技术，这也是大家所关心的。我们都知道，世界上第一台数控机床
是美国人发明。1948年，美国帕森斯公司接受美国空军委托，研制飞机螺旋桨叶片轮廓
样板的加工设备。由于样板形状复杂多样，精度要求高，一般加工设备难以适应，于是
提出计算机控制机床的设想。1949年，该公司在美国麻省理工学院（MIT）伺服机构研
究室的协助下，开始数控机床研究，并于1952年试制成功第一台由大型立式仿形铣床改
装而成的三坐标数控铣床，不久即开始正式生产，于1957年正式投入使用。
但是你可能想不到的是，中国1958年就由清华大学和北京第一机床研制成功了
第一台电子管控制三坐标数控铣床，这个记录领先于日本。但是地球人都知道，最后是
日本在数控技术领域脱颖而出，这是个眼光的问题。
因为数控机床发展的早期，大部分公司认为任何设计优良的传统机床只要装备了
数控装置就能成为一台完善的数控机床，当时采取的主要方法是在传统的机床上进行改
装，或者以通用机床... 阅读全帖

d*********r
发帖数: 11979

来自主题: ebiz版 - 【原创】跟大家谈谈我是怎样抢到 Deal 的心得 (转载)

【以下文字转载自 shopping 讨论区】
发信人: coolwulf (coolwulf), 信区: shopping
标题: 【原创】跟大家谈谈我是怎样抢到 Deal 的心得
发信站: BBS 未名空间站 (Tue Dec 7 12:19:25 2010, 美东)
一直以来很多朋友向我询问我是如何在最快的时间里赶上deal的。这里就向大家简单的
介绍一下吧，以享读者：
第一, Deal 的信息从何处而来。再使用过网上无数的deal论坛，数个Firefox/Google
Chrome的extension（如Amazon,DealAlert, woot之流）之后，我的体会是: "兵贵精，
不再多"。最好的Deal 网站/论坛只有一个 Slickdeals.net 的 Hot Deals 论坛。这个
论坛有着网上流量最大的用户群，Deal的Update通过数以万计的用户的努力，远远超过
了其他的网站。我的经验是很多真正的deal在其他网站（如dealsea）上刊登出来的时
候，已经被slickdeals上面的用户强得差不多了。即使还没有out of stock的话，查看
D... 阅读全帖

z*********8
发帖数: 2070

来自主题: JobHunting版 - 昨天的google面试题

google面试，郁闷到了，简要记叙一下
1：关于我的recent project，没什么好说的
2：技术问题
a. binary tree 和 hash table各操作的时间。如何设计它们的iterator
b. 读入文件有4M的数， 2M的 memory, 如何排序？
c. 读入文件有1M的7位电话号码， 2M的memory，只许读一次文件，不得将中间排序
结果写回再读，如何排序？
3：给google的问题，略
这些题目就没在网上看过，真他妈的郁闷！！！

m*****n
发帖数: 5245

来自主题: JobHunting版 - [合集] 昨天的google面试题

☆─────────────────────────────────────☆
zhaichun108 (onlylonely) 于 (Fri Dec 15 14:09:24 2006) 提到:
google面试，郁闷到了，简要记叙一下
1：关于我的recent project，没什么好说的
2：技术问题
a. binary tree 和 hash table各操作的时间。如何设计它们的iterator
b. 读入文件有4M的数， 2M的 memory, 如何排序？
c. 读入文件有1M的7位电话号码， 2M的memory，只许读一次文件，不得将中间排序
结果写回再读，如何排序？
3：给google的问题，略
这些题目就没在网上看过，真他妈的郁闷！！！
☆─────────────────────────────────────☆
Doves (新的开始) 于 (Fri Dec 15 14:43:03 2006) 提到:
换题库了，赫赫

☆─────────────────────────────────────☆
iamjc (J.

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天