特朗普遭弹劾的背后我们用自然语言处理分析

来源：语言识别时间：2022/10/25

白癜风爱心传递分享会 http://m.39.net/pf/a_7995043.html

美国时间10月31日上午，美国众议院投票，通过对特朗普的弹劾调查程序。在投票中，共有票赞成，票反对。美国众议长佩洛西宣布决议通过。

特朗普在投票后在社交网站上称，“这是美国史上最大的‘猎巫行动’（WitchHunt）”并在投票前表示，“弹劾骗局只会伤害美国股市”。

而最后这句“弹劾骗局只会伤害美国股市”说的很到位，特朗普的言行和股市的关联关系几乎可以算是人尽皆知了。

一顿分析猛如虎，涨落全看特朗普

作为一个变化莫测的奇男子，特朗普早已把推特当作他公共关系宣传的主要阵地。他日常推特的可谓叫画风清奇，包罗万象。

一会打假：

（翻译：假新闻！）

（来源：Twitter）

一会表彰狗：

（翻译：美国的大英雄！）

（来源；Twitter）

甚至有的时候只有标点符号：

评论纷纷表示：这是特朗普最有意义的一条推特了

（来源：Twitter）

每天快30条的数量，冷不丁就会有大幅搅动市场的重要信息出现，心累的不只是二级市场研究员和交易员，还有我们投资者。

连远在大洋彼岸的A股都深受影响：最开始特朗普宣布加征关税市场暴跌；不加征关税市场暴涨；继续加征关税市场下跌；延迟加征关税市场上涨；又翻脸准备加征关税市场小跌；最后第一阶段完成协议不加征关税市场小幅上涨......

9月份的时候，摩根大通甚至开发出了特朗普推特指数（Volfefe），专门从技术层面上分析特朗普推特到底是怎么影响美债收益率波动的。

特朗普推特指数（来源：摩根大通）

Volfefe的命名也很有意思，用波动（volatility）和特朗普不知含义的神秘推特“covfefe”组合在一起命名，足足显示出了金融机构对这一现象的无奈和被迫顺从到抓取机会。而美银美林也发表了研究报告：特朗普发推特频繁程度不同，会引起市场平均回报率的大约14个点的差别。

于是，我们抓取了特朗普所有的推特

年1月20日，特朗普任职美国。截止年11月10日，在任职美国总统的天里，他总共发条推特，平均一天11.6条。

我们统计了一些高频词的频度

我们统计了一些高频词：发现战争出现次，工作和工作岗位（job）出现了次，中国出现了次，通俄出现了次...

除此之外，我们还做了一些别的事情

在抓取（webscrapting）了所有特朗普的推特之后，我们对所有的原始数据做了预处理（pre-pocessing），达到了数据标记化（tokenization）和词形化（lemmatization）。之后，我们把语料库（corpus）以及词袋模型（bag-of-wordsmodel）引入到LDA模型里进行话题分组。我们只保留了与“贸易”相关的部分。之后我们使用VADER进行了细分分析（sentimentanalsis）。在每条推特都被赋值细分分数之后，我们使用了非常简单的一种交易策略在标普（SP）上进行了验证。

灰色线是标普红色线是交易策略

结局很有趣：

验证到年7月，2年多利润率约%。

如果当时敢这么交易，我已经不用在这写文章了。

什么意思呢？

《叶问2》告诉我们：还是要多说人话

（来源：YouTube）

相当于我们使用了爬虫（python）写了一个程序，来导出特朗普发过的所有的“微博”以及发送时间等。但是“微博”里的话杂乱无章，什么内容都有，我们就会先过滤掉太短的垃圾信息。然后再用另一段程序来把其他微博内容分成小段，比如“我非常非常爱大搜股，哈哈”，这句就会被分为：“我”、“非常”、“非常”、“爱”、“大搜股”、“，”、“哈哈”。

其中的“、”和“哈哈”属于无效信息，会被过滤掉。最后这句话就变成了好多关于“大搜股”的小元素。我们往一个词语分类模型里放了一个字典，模型就会自动根据这个字典把这些小元素归入不同的话题。比如刚刚的小元素都会被归入“大搜股”这个话题里面。

但是呢，有一些话题，比如特朗普发的电视节目评论，对我们无效，所以我们过滤掉它。我们这次只

转载请注明：http://www.0431gb208.com/sjszjzl/2089.html

上一篇文章：假奥巴马视频引发的思考新闻造假该如何应对

下一篇文章：投资导师推荐理财平台银行员工被骗39