当前位置:首页 » 分析预测 » lstm股票市场情感分析
扩展阅读
碳素企业股票行情 2025-09-02 10:44:50
买错股票人气死了 2025-09-02 08:52:18

lstm股票市场情感分析

发布时间: 2021-07-07 08:35:22

A. 基于机器学习的情感分析是什么意思

以下以语义特征为例:


机器学习基于语义特征的情感分析


基于语义特征的情感分析先人已有研究,可以通过情感词典匹配来做,但是应用机器学习在这方面会使精确度更高些。
以本人参与的一个项目为主,总结下相关技术点。
背景是:分析用户评论感情色彩是积极还是消极,即是褒还是贬。

具体步骤为:
1.有监督的人工给文本标注类标签。如有5000条评论数据,我们给其中的1000条标为积极的,再选1000条标为消极的,积极和消极就是所谓的类标签。
2.选择特征。从积极的评论数据中按词来选择积极的所有特征。同理,从消极的评论数据中按词来选择消极的所有特征。如“这款游戏非常好玩”->”这款”->“游戏”->”非常”->”好玩”,分为四个特征词,也可以采用双词搭配,“这个游戏”和“非常好玩”作为特征。
3.特征降维,减少特征的数量。如上“这个游戏非常好玩”中的“这个游戏”没有必要作为特征,因为“好玩”或“非常好玩”已经决定了评论是积极的。
4.将语料文本变成使用特征表示。
5.统计所有特征出现的次数,并按倒序排序。
6.从以上结果中选出排序最靠前的一些特征作为最终的评判特征。
7.使用训练数据根据特征训练分类算法,得到分类器。
8.用测试数据检测分类器的准确度。
我们将数据分为两部分:开发集、测试集。用开发集的数据训练分类算法得到分类器;再用分类器对测试集里的数据进行分类,给出分类预测得到的标签;对比分类标签和人工标注得到的标签的差异,计算出准确度。

B. 自然语言处理和文本挖掘的关系

自然语言处理(NLP)关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一,它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似,它关注的是识别文本数据中有趣并且重要的模式。

但是,这二者仍有不同。首先,这两个概念并没有明确的界定(就像“数据挖掘”和“数据科学”一样),并且在不同程度上二者相互交叉,具体要看与你交谈的对象是谁。我认为通过洞见级别来区分是最容易的。如果原始文本是数据,那么文本挖掘就是信息,NLP就是知识,也就是语法和语义的关系。

虽然NLP和文本挖掘不是一回事儿,但它们仍是紧密相关的:它们处理同样的原始数据类型、在使用时还有很多交叉。

我们的目的并不是二者绝对或相对的定义,重要的是要认识到,这两种任务下对数据的预处理是相同的。

努力消除歧义是文本预处理很重要的一个方面,我们希望保留原本的含义,同时消除噪音。

以下就是处理文本任务的几大主要步骤:

1.数据收集

获取或创建语料库,来源可以是邮箱、英文维基网络文章或者公司财报,甚至是莎士比亚的作品等等任何资料。

2.数据预处理

在原始文本语料上进行预处理,为文本挖掘或NLP任务做准备

数据预处理分为好几步,其中有些步骤可能适用于给定的任务,也可能不适用。但通常都是标记化、归一化和替代的其中一种。

3.数据挖掘和可视化

无论我们的数据类型是什么,挖掘和可视化是探寻规律的重要步骤

常见任务可能包括可视化字数和分布,生成wordclouds并进行距离测量

4.模型搭建

这是文本挖掘和NLP任务进行的主要部分,包括训练和测试

在适当的时候还会进行特征选择和工程设计

语言模型:有限状态机、马尔可夫模型、词义的向量空间建模

机器学习分类器:朴素贝叶斯、逻辑回归、决策树、支持向量机、神经网络

序列模型:隐藏马尔可夫模型、循环神经网络(RNN)、长短期记忆神经网络(LSTMs)

5.模型评估

模型是否达到预期?

度量标准将随文本挖掘或NLP任务的类型而变化

以上观点仅供参考,而在自然语言文本预处理方面的技术在国内效果比较好的并不多,具有代表性的如:北理工张华平博士的NLPIR大数据语义智能分析技术。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。如果感兴

C. lstm 情感分析model.add+1,256 参数是什么意思

neg=pd.read_excel('neg.xls',header=None,index=None)
pos=pd.read_excel('pos.xls',header=None,index=None) #读取训练语料完毕
pos['mark']=1
neg['mark']=0 #给训练语料贴上标签
pn=pd.concat([pos,neg],ignore_index=True) #合并语料
neglen=len(neg)
poslen=len(pos) #计算语料数目

cw = lambda x: list(jieba.cut(x)) #定义分词函数
pn['words'] = pn[0].apply(cw)

comment = pd.read_excel('sum.xls') #读入评论内容
#comment = pd.read_csv('a.csv', encoding='utf-8')
comment = comment[comment['rateContent'].notnull()] #仅读取非空评论
comment['words'] = comment['rateContent'].apply(cw) #评论分词

d2v_train = pd.concat([pn['words'], comment['words']], ignore_index = True)

w = [] #将所有词语整合在一起
for i in d2v_train:
w.extend(i)

dict = pd.DataFrame(pd.Series(w).value_counts()) #统计词的出现次数
del w,d2v_train
dict['id']=list(range(1,len(dict)+1))

get_sent = lambda x: list(dict['id'][x])
pn['sent'] = pn['words'].apply(get_sent)

maxlen = 50

print "Pad sequences (samples x time)"
pn['sent'] = list(sequence.pad_sequences(pn['sent'], maxlen=maxlen))

x = np.array(list(pn['sent']))[::2] #训练集
y = np.array(list(pn['mark']))[::2]
xt = np.array(list(pn['sent']))[1::2] #测试集
yt = np.array(list(pn['mark']))[1::2]
xa = np.array(list(pn['sent'])) #全集
ya = np.array(list(pn['mark']))

print 'Build model...'
model = Sequential()
model.add(Embedding(len(dict)+1, 256))
model.add(LSTM(256, 128)) # try using a GRU instead, for fun
model.add(Dropout(0.5))
model.add(Dense(128, 1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', class_mode="binary")
print 'Fit model...'
model.fit(xa, ya, batch_size=32, nb_epoch=4) #训练时间为若干个小时

classes = model.predict_classes(xa)
acc = np_utils.accuracy(classes, ya)
print 'Test accuracy:', acc
可以试一试
w = [] #将所有词语整合在一起
for i in d2v_train:
w.extend(i)

newList = list(set(w))
print "newlist len is"
print len(newList)

dict = pd.DataFrame(pd.Series(w).value_counts()) #统计词的出现次数
print type(dict)
print len(dict)

D. 如何理解LSTM后接CRF

有一个答案给的是一篇acl2016的论文,采用的神经网络结构是 cnn + lstm +crf的经典架构,是一个很成熟的系统
目前来说,实体识别的应用领域,lstm+crf是一种标配了,短期内我认为只要在attention方面没有很大的突破,这一框架都不会变化
要理解为什么lstm后面要接crf层,首先应该理解的是crf的功能
题主问这个问题,想必是明白lstm的output,我们姑且不讨论原理,lstm在序列标注的问题,落实到题主说的ner,也就是一个seq2seq,在英文中,可以是对每一个input的单词,对例如bieo的四个标签进行预测,假设当前输出的事100个words,那个输出的就是100*4的一个概率预测,这应该就是答主的疑惑,我们直接用一个分类器,四个里面选一个就好了,为什么要再接crf呢?
那么,我们首先考虑我们使用lstm的初衷,就是为了考虑上下文来分析当前的tag标注,其实crf也是接近的原理,crf意会一点的描述其实有点像一张概率图,在single crf中,你需要做的是尽可能的对每个对象挖掘多的特征,然后学习他们之间的一种“衔接”关系,在lstm后面加上crf,相当于对lstm抽象过的一种语言关系来进行crf训练,可以使用那篇论文上的likehood函数,当然使用labelwise的也可以,这也属于调参的一部分
总之我个人的理解,crf相当于对lstm信息的再利用,利用效率高于一个简单的分类器,实际情况也适合这一点,题主不妨找个实例测测玩玩,也就明白了

E. 在csv文件中如何如何LSTM标签

基本判断:明确地告诉你:想法是好的,但不可以。 原因分析:手机同时打开数据网络(手机SIM卡上网)和WIFI连接,所有的手机系统都是默认数据网络上网,也就是手机卡上网,WIFI打开没有用,只能二选一,要么关闭数据网络上WIFI,要么关闭WIFI上数据网络,同时打开只能默认用数据网络;这不是技术不可能,是产品定位的问题。 建议说明:第三方工具可以可以改变手机默认,不光是系统ROOT的问题, 这是通讯主板底层系统是不是可以改变的问题,所以说,放弃这种想法吧。

F. 用LSTM做情感分析只能二分类吗能够得到短文本的情感值吗

mysql比较好用点吧,而且比较专业点,这个数据库你可以用一个可视化软件管理的,就跟Oracle数据库管理软件plsql或者QQ那样的页面差不多,可以操作:查询,修改,删除,更新。mysql数据库很校管理软件名字:Navicat_for_MySQL_10.0.5.0_XiaZaiBa....

G. 人工智能技术能够解决商业问题的例子有哪些

人工智能技术可以解决的商业问题其实有很多的,比如有:
1、智能客服,智能客服主要的工作就是在人工换班或者是等待人太多的时候为客户解决问题的。
2、智能机器人,因为这种机器人是拥有简单的智力并且可以自己移动,所以这种机器人可以做的工作非常多,比如可以提醒我们做一些事情,可以帮助做一些家务等等。
3、智能机械,现在工厂中为了避免出现疲劳工作,进而发生事故的情况,会使用一些智能的机械来代替人工工作,不但可以长期的工作,不知疲劳,还可以保证合格率。
实际上,人工智能技术可以做的事情有很多,不过由于现在还有一些没有实现,所以在这里就不多介绍了,不过随着人工智能的慢慢发展,不断的研究,相信在以后会有更多的智能产品,来给人们的生活带来更多的体验。那下面就分享一些人工智能的知识,希望可以让大家更了解人工智能。
首先从自然语言处理原理到进阶实战的词向量与词嵌入方面来看TFIDF、Word2Vec算法、 Gensim模块、Skip-gram、TF代码实现Word2Vec算法项目、FastText、Word Embedding、深度学习用户画像项目。
然后从自然语言处理原理到进阶实战的循环神经网络原理与优化方面来看有Vanilla RNN、Basic RNN实现MNIST手写数字图片识别、LSTM长短时记忆、GRU与双向LSTM、电影评论情感分析案例、Seq2Seq、机器写唐诗案例、CNN+LSTM+CRF、POS tagging词性标注案例、 NER命名实体识别案例、 孪生网络、语义相似度分析案例。
最后从自然语言处理原理到进阶实战的Transformer和Bert方面来看有Attention注意力机制、Attention算法流程、Transformer、Self-Attention机制、Multi-Head Attention、Bert、Bert as service开源项目。
还有概率图模型算法的贝叶斯分类有朴素贝叶斯分类器、拉普拉斯估计代码实战垃圾邮件分类;HMM算法有马尔可夫过程、初始概率、转移概率、发射概率、 隐含马尔可夫模型原理、维特比算法;最大熵模型有熵、条件熵、相对熵、互信息、最大熵模型算法原理、有约束条件的函数最优化问题、最大熵和最大似然估计关系、IIS算法;CRF算法有条件随机场的性质条件随机场的判别函数条件随机场的学习条件随机场的推断CRF与HMM关系。

H. lstm做交通预测的输入输出是什么样的

间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。
举个栗子:根据过去两年某股票的每天的股价数据推测之后一周的股价变化;根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等
RNN 和 LSTM 模型
时间序列模型最常用最强大的的工具就是递归神经网络(recurrent neural network, RNN)。相比与普通神经网络的各计算结果之间相互独立的特点,RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法,RNN的计算结果便具备了记忆之前几次结果的特点。
典型的RNN网路结构如下:

I. 用LSTM做情感分析只能二分类吗能够得到短文本的情感值吗

好像应该是的吧。

J. 机器学习 lstm模型存储的是什么内容

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。