转：【大数据舆情挖掘：希拉里川普看图说话】 - USANews版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

USANews版 - 转：【大数据舆情挖掘：希拉里川普看图说话】

相关主题
● 希拉里的口号是什么来着？	● 2016 大选沙盘推演
● 法律的尊严是公正	● 甜甜，希拉里对trump, 你选谁？
● 有空来聊聊这个版的历史	● 希拉里是下届总统最好的人选。
● 希拉里攻击ATM fee	● 川普如果最后对上希拉里，赢面很大
● 川普实际上是在帮共和党，为啥有人说他在帮希拉里？	● 床铺至少有一点远远不如希拉里
● 最新民调显示希拉里轻松击败川普但是输给卢比奥	● 我为什么反川普
● 川普最牛逼的地方确实是不需要任何捐款	● 希拉里和床铺辩论肯定精彩
● 希拉里·克林顿应当立刻向唐纳·川普诚挚道歉	● 希拉里应该是美国第45任总统

相关话题的讨论汇总
话题: 川普话题: 舆情话题: 希拉里话题: 数据话题: 喜妈

进入USANews版参与讨论

1

(共1页)

P****R 发帖数: 22479	1
P****R 发帖数: 22479	2 大数据舆情挖掘，看图说话。先看近一个月来在社会媒体上的希拉里和川普的品牌形象对比图：
P****R 发帖数: 22479	3 看点三： 1 川普的 buzz 大过希拉里一倍多，川普是话题中心（圈的大小表明热议度） 2. 普罗对川普比对希拉里，情绪更趋激烈：表现在 Y 轴的 passion intensity 上 3. 两人总体都不讨人喜欢，川普更加让人厌恶，表现在 x 轴上的 Net Sentiment（也就是褒贬对比的度量）。两人都在冰点之下，社会媒体的形象不佳。
P****R 发帖数: 22479	4 如果我们要自动调查过去一个月时间的趋向和形象消长，可以考虑把数据分割为两段或三段来看此消彼长，先一分为二来看图：
P****R 发帖数: 22479	5 看到了吧，过去一个月，随着总统大选辩论和丑闻的揭示和宣传，川普的媒体形象显著恶化，表现在舆情圈圈从右（x轴上的右是评价度高 love like，左边是评价度低 hate dislike）向左的位移。本来评价度clearly比希拉里要好，终于比希拉里差了。同时，希拉里的社会媒体形象有所改善，圈圈在从左向右位移。两个人始终都是冰点以下，吐槽多于赞美，但是就在一个月前，还是喜妈更不受待见：不是民众更喜欢老川，而是普罗更厌恶喜妈。这个品牌对比图示表达了四维信息： 1. net sentiment 评价度 x 轴 2. passion intensity 舆情烈度 y 轴 3. buzz 圈圈的大小，是热议度 4. 一分为二的两个圈是时间的粗线条切割的维度在二维的图纸上，要表达四维的信息，的确不是很容易。
P****R 发帖数: 22479	6 要是嫌第四维时间太粗线条，咱们一分为三看看：
P****R 发帖数: 22479	7 三个圈，浓度的深浅表达的是时间的远近。当短短的一个月的时间，被一分为三的时候，我们看到了什么趋向呢？请注意颜色的深浅，对应的是时间的远近。我们看到，喜妈的三个圈圈是左下角到右上（还是visualization设计不到家，不同品牌应该用不同的颜色区分才好）。原来喜妈的评价是先好，后坏，最后回到中间。而老川在同一个时间点，是先中，后略好，最后跌入深渊。以上是利用我们自创的品牌对比图（有美国专利的）来看候选人的形象消长。
P****R 发帖数: 22479	8 社会媒体数据的来源呢？Twitter 为主：
P****R 发帖数: 22479	9 这是一个月来的舆情总结：
P****R 发帖数: 22479	10 的确是大数据了，一个月的随机的社会媒体数据样本里面，两人的 mentions 就有近两亿，眼球数共计高达3万6千亿。川普占7成，喜妈才三成。川普跟冰冰类似，都是话题之王。总体社会评价，川普零下20%，喜妈零下18%。
l********7 发帖数: 2974	11 这种分析负面情绪的结论大致是合理的，但是有两个关键的问题： 1、对比Trump和Hillary的负面情绪，Trump的确跌入过深渊（几乎整个10月份），而10 月底以来两者的差距急剧缩小，现在基本接近 - 这是我的文本语意模型分析结果（基于“整个”internet搜索大数据） 2、更关键的问题是，你给出的这个分析是仅仅基于单一面的模型分析，忽略了最重要的大图景，具体是什么，等大选结果出来再解释（如果我还有兴趣的话，呵呵）【在 P****R 的大作中提到】 : 的确是大数据了，一个月的随机的社会媒体数据样本里面，两人的 mentions 就有近两 : 亿，眼球数共计高达3万6千亿。川普占7成，喜妈才三成。川普跟冰冰类似，都是话题 : 之王。 : 总体社会评价，川普零下20%，喜妈零下18%。
P****R 发帖数: 22479	12 我还是相信常规的小样本（1000人）的统计。大数据是时髦，借了互联网的大规模使用者的优势。结果同小样本的数据结果相差无几。 10 【在 l********7 的大作中提到】 : 这种分析负面情绪的结论大致是合理的，但是有两个关键的问题： : 1、对比Trump和Hillary的负面情绪，Trump的确跌入过深渊（几乎整个10月份），而10 : 月底以来两者的差距急剧缩小，现在基本接近 - 这是我的文本语意模型分析结果（基 : 于“整个”internet搜索大数据） : 2、更关键的问题是，你给出的这个分析是仅仅基于单一面的模型分析，忽略了最重要 : 的大图景，具体是什么，等大选结果出来再解释（如果我还有兴趣的话，呵呵）
l********7 发帖数: 2974	13 不是大小样本的问题，是建模的问题。【在 P****R 的大作中提到】 : 我还是相信常规的小样本（1000人）的统计。 : 大数据是时髦，借了互联网的大规模使用者的优势。 : 结果同小样本的数据结果相差无几。 : : 10
q***0 发帖数: 225	14 你可以注意一下survey monkey 的 online poll，4万多的样本。可能没有电话民调随机，但这家在不断改进，样本大还是优势很大的。这个poll准确的预测了 Brexit 【在 P****R 的大作中提到】 : 我还是相信常规的小样本（1000人）的统计。 : 大数据是时髦，借了互联网的大规模使用者的优势。 : 结果同小样本的数据结果相差无几。 : : 10

1

(共1页)

进入USANews版参与讨论

相关主题
● 希拉里应该是美国第45任总统	● 川普实际上是在帮共和党，为啥有人说他在帮希拉里？
● 川普vs希拉里的民调怎么样？	● 最新民调显示希拉里轻松击败川普但是输给卢比奥
● 今年和党没什么牌好打	● 川普最牛逼的地方确实是不需要任何捐款
● 说个真事	● 希拉里·克林顿应当立刻向唐纳·川普诚挚道歉
● 希拉里的口号是什么来着？	● 2016 大选沙盘推演
● 法律的尊严是公正	● 甜甜，希拉里对trump, 你选谁？
● 有空来聊聊这个版的历史	● 希拉里是下届总统最好的人选。
● 希拉里攻击ATM fee	● 川普如果最后对上希拉里，赢面很大

相关话题的讨论汇总
话题: 川普话题: 舆情话题: 希拉里话题: 数据话题: 喜妈

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)