由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
相关主题
[合集] 多obs算出一个值怎么弄呢?99个宋词常用语 密码在手三秒作诗赋词 (转载)
请问如何验证已知的logistic regression models是不是能很好predict 自己的dataset网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
可以把算出的quantiles(比如Q1,median,Q3)用dataset保存吗?99个宋词常用语 密码在手三秒作诗赋词 (转载)
【★特供★】欧姆社学习漫画统计学网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
请问SAS proc中哪些可以算出CI99宋词常用语 东风何处在人间
怎么处理贝叶斯公式算出的条件概率大于1?文科生终于可以被消灭了[zz]
一般的统计仿真实验和monte carlo simulation是一回事吗?【转载】文科生终于可以被消灭了
网友算出99个宋词常用语 密码在手三秒作诗赋词文科生泡妞利器被码工摧毁了
相关话题的讨论汇总
话题: 宋词话题: 网友话题: 东风话题: 芳草话题: 高频词
进入Statistics版参与讨论
1 (共1页)
d*******o
发帖数: 493
1
【 以下文字转载自 Headline 讨论区 】
发信人: inews (inews), 信区: Headline
标 题: 网友算出99个宋词常用语 密码在手三秒作诗赋词
发信站: BBS 未名空间站 (Thu Dec 1 19:38:01 2011, 美东)
据《扬子晚报》报道,你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
频率分析算出宋词高频词
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。
随后,“yixuan”贴出了他算出来的高频词,排在前面的分别是:1.14852.东风(1382)3.何处(1230)4.人间(1202)5、风流(857)6、归去(812)7.春风(802)8.西风(779)9.归来(771)10.江南(765)……至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”这个结果一出来,一位网友就一语道破了“玄机”,“原来,最流行的宋词就是‘东风何处在人间’啊!”
生日数字也能改编成诗词
还有更绝的呢!署名为“达芬奇的鸡蛋”的果壳网友不知怎么地,就想到了拿大家都会背一点的圆周率进行创作,两个数字一断,对照高频词表,一首“华丽丽”的词就出来了!还附上了说明,特别像模像样。
看完这首诗,网友们一边膜拜,一边自己的创作灵感也被打开了。“丘寒”留言道:“试着用某个号码创作了一首:天上相思,芳草年年,昨夜江南,回首一笑多情。”“零Ronnie”很有创作激情:“我的生日:年年江上,江南春风;我的手机号:明月芳草去年,江南阑干归去……还真挺上口的!我也能做诗人了哈哈!”
理科宅男欢呼消灭文科生
可是这么一来,文科生又不淡定了,一群文科生跳起来反击。“雯名霞迩”大叫:“统统拖出去,斩了!这让学中文的人情何以堪啊!”“Rockfish”代表理科生还击:“理科宅男们消灭文科生的日子到来了!拿起你的计算器,消灭文艺青年吧!”“可可”童鞋呼唤:“就让科技小清新来得更猛烈些吧!”
还有一群网友七嘴八舌讨论着。“沌世界”淡定地说:“不知宋词的粉丝看了是不是有一种偶像破灭的感觉。”“家杰仕”童鞋也总结道:“文艺男女已经阻止不了技术宅作诗了!”
网友制作的宋词高频词汇和数字代码
1 空 21 一笑 41 深处 61 一片 81 不是
2 东风 22 黄昏 42 时节 62 桃李 82 时候
3 何处 23 当年 43 平生 63 人生 83 肠断
4 人间 24 天涯 44 凄凉 64 十分 84 富贵
5 风流 25 相逢 45 春色 65 心事 85 蓬莱
6 归去 26 芳草 46 匆匆 66 黄花 86 昨夜
7 春风 27 尊前 47 功名 67 一声 87 行人
8 西风 28 一枝 48 一点 68 佳人 88 今夜
9 归来 29 风雨 49 无限 69 长安 89 谁知
10 江南 30 流水 50 今日 70 东君 90 不似
11 相思 31 依旧 51 天上 71 断肠 91 江上
12 梅花 32 风吹 52 杨柳 72 而今 92 悠悠
13 千里 33 风月 53 西湖 73 鸳鸯 93 几度
14 回首 34 多情 54 桃花 74 为谁 94 青山
15 明月 35 故人 55 扁舟 75 十年 95 何时
16 多少 36 当时 56 消息 76 去年 96 天气
17 如今 37 无人 57 憔悴 77 少年 97 惟有
18 阑干 38 斜阳 58 何事 78 海棠 98 一曲
19 年年 39 不知 59 芙蓉 79 寂寞 99 月明
20 万里 40 不见 60 神仙 80 无情 100 往事
网友习作
《清平乐·圆周率》π=3.1415926……
(1415)回首明月,(一看就是抒情诗)
(9265)悠悠心事空,(果然,貌似失恋了)
(358979)故人谁知寂寞。(触景生情)
(323846)风吹斜阳匆匆,(回忆那天下午的艳遇)
(264338)芳草平生斜阳,(平生见过最美的太阳和芳草,都是因为那里有你的身影)
(327950)风吹寂寞今日。(到现在就剩我自己)
(288419)一枝富贵年年,(好花美丽年年开,好景宜人不常在)
(716939)断肠长安不知。(我的思念远方的你可知道)
(注:诗词后为网友配的说明)
《如梦令·根号二》=1.41421356……
(414213)深处时节千里,
(562373)消息当年鸳鸯。
(0950)归来今日,
(488016)一点无情多少。
(8888)今夜,今夜
(724209)而今时节归来。
d*******o
发帖数: 493
2
人大的哥们用R还是很强的
l*********s
发帖数: 5409
3
瓦卡卡
a*****3
发帖数: 601
4
我拿本版名媛嫁人的日子试一试哈:
万里相思空明月
和夜里发呆真是绝配啊!
b*****n
发帖数: 685
5
简单的text mining而已,外行才觉得惊诧
B****n
发帖数: 11290
6
其實統計很多時候用的方法很簡單直觀 重要的是得到了什麼結論 以及回答了什麼樣的
問題

【在 b*****n 的大作中提到】
: 简单的text mining而已,外行才觉得惊诧
z**********i
发帖数: 12276
7
恩,不错.

【在 a*****3 的大作中提到】
: 我拿本版名媛嫁人的日子试一试哈:
: 万里相思空明月
: 和夜里发呆真是绝配啊!

v*********0
发帖数: 941
8
Interesting
z******n
发帖数: 397
9
能想到并且做出来才NX,马后炮大家都懂得啦,况且这就是玩儿

【在 b*****n 的大作中提到】
: 简单的text mining而已,外行才觉得惊诧
d******e
发帖数: 7844
10
那个bullren就是个棒槌。连个半正定都不明白的人。

★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 v*********0 的大作中提到】
: Interesting
d******e
发帖数: 7844
11
你来做一个好了,你给个唐诗的生成算法,何如?

★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 b*****n 的大作中提到】
: 简单的text mining而已,外行才觉得惊诧
1 (共1页)
进入Statistics版参与讨论
相关主题
文科生泡妞利器被码工摧毁了请问SAS proc中哪些可以算出CI
文科生泡妞利器被码工摧毁了怎么处理贝叶斯公式算出的条件概率大于1?
【转载】传说的作诗机就是这个原理 (转载)一般的统计仿真实验和monte carlo simulation是一回事吗?
文科生泡妞利器被码工摧毁了 (转载)网友算出99个宋词常用语 密码在手三秒作诗赋词
[合集] 多obs算出一个值怎么弄呢?99个宋词常用语 密码在手三秒作诗赋词 (转载)
请问如何验证已知的logistic regression models是不是能很好predict 自己的dataset网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
可以把算出的quantiles(比如Q1,median,Q3)用dataset保存吗?99个宋词常用语 密码在手三秒作诗赋词 (转载)
【★特供★】欧姆社学习漫画统计学网友算出99个宋词常用语 密码在手三秒作诗赋词 (转载)
相关话题的讨论汇总
话题: 宋词话题: 网友话题: 东风话题: 芳草话题: 高频词