當前位置:首頁 » 分析預測 » lstm股票市場情感分析
擴展閱讀
碳素企業股票行情 2025-09-02 10:44:50
買錯股票人氣死了 2025-09-02 08:52:18

lstm股票市場情感分析

發布時間: 2021-07-07 08:35:22

A. 基於機器學習的情感分析是什麼意思

以下以語義特徵為例:


機器學習基於語義特徵的情感分析


基於語義特徵的情感分析先人已有研究,可以通過情感詞典匹配來做,但是應用機器學習在這方面會使精確度更高些。
以本人參與的一個項目為主,總結下相關技術點。
背景是:分析用戶評論感情色彩是積極還是消極,即是褒還是貶。

具體步驟為:
1.有監督的人工給文本標注類標簽。如有5000條評論數據,我們給其中的1000條標為積極的,再選1000條標為消極的,積極和消極就是所謂的類標簽。
2.選擇特徵。從積極的評論數據中按詞來選擇積極的所有特徵。同理,從消極的評論數據中按詞來選擇消極的所有特徵。如「這款游戲非常好玩」->」這款」->「游戲」->」非常」->」好玩」,分為四個特徵詞,也可以採用雙詞搭配,「這個游戲」和「非常好玩」作為特徵。
3.特徵降維,減少特徵的數量。如上「這個游戲非常好玩」中的「這個游戲」沒有必要作為特徵,因為「好玩」或「非常好玩」已經決定了評論是積極的。
4.將語料文本變成使用特徵表示。
5.統計所有特徵出現的次數,並按倒序排序。
6.從以上結果中選出排序最靠前的一些特徵作為最終的評判特徵。
7.使用訓練數據根據特徵訓練分類演算法,得到分類器。
8.用測試數據檢測分類器的准確度。
我們將數據分為兩部分:開發集、測試集。用開發集的數據訓練分類演算法得到分類器;再用分類器對測試集里的數據進行分類,給出分類預測得到的標簽;對比分類標簽和人工標注得到的標簽的差異,計算出准確度。

B. 自然語言處理和文本挖掘的關系

自然語言處理(NLP)關注的是人類的自然語言與計算機設備之間的相互關系。NLP是計算機語言學的重要方面之一,它同樣也屬於計算機科學和人工智慧領域。而文本挖掘和NLP的存在領域類似,它關注的是識別文本數據中有趣並且重要的模式。

但是,這二者仍有不同。首先,這兩個概念並沒有明確的界定(就像「數據挖掘」和「數據科學」一樣),並且在不同程度上二者相互交叉,具體要看與你交談的對象是誰。我認為通過洞見級別來區分是最容易的。如果原始文本是數據,那麼文本挖掘就是信息,NLP就是知識,也就是語法和語義的關系。

雖然NLP和文本挖掘不是一回事兒,但它們仍是緊密相關的:它們處理同樣的原始數據類型、在使用時還有很多交叉。

我們的目的並不是二者絕對或相對的定義,重要的是要認識到,這兩種任務下對數據的預處理是相同的。

努力消除歧義是文本預處理很重要的一個方面,我們希望保留原本的含義,同時消除噪音。

以下就是處理文本任務的幾大主要步驟:

1.數據收集

獲取或創建語料庫,來源可以是郵箱、英文維基網路文章或者公司財報,甚至是莎士比亞的作品等等任何資料。

2.數據預處理

在原始文本語料上進行預處理,為文本挖掘或NLP任務做准備

數據預處理分為好幾步,其中有些步驟可能適用於給定的任務,也可能不適用。但通常都是標記化、歸一化和替代的其中一種。

3.數據挖掘和可視化

無論我們的數據類型是什麼,挖掘和可視化是探尋規律的重要步驟

常見任務可能包括可視化字數和分布,生成wordclouds並進行距離測量

4.模型搭建

這是文本挖掘和NLP任務進行的主要部分,包括訓練和測試

在適當的時候還會進行特徵選擇和工程設計

語言模型:有限狀態機、馬爾可夫模型、詞義的向量空間建模

機器學習分類器:樸素貝葉斯、邏輯回歸、決策樹、支持向量機、神經網路

序列模型:隱藏馬爾可夫模型、循環神經網路(RNN)、長短期記憶神經網路(LSTMs)

5.模型評估

模型是否達到預期?

度量標准將隨文本挖掘或NLP任務的類型而變化

以上觀點僅供參考,而在自然語言文本預處理方面的技術在國內效果比較好的並不多,具有代表性的如:北理工張華平博士的NLPIR大數據語義智能分析技術。NLPIR大數據語義智能分析平台是根據中文數據挖掘的綜合需求,融合了網路精準採集、自然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平台。如果感興

C. lstm 情感分析model.add+1,256 參數是什麼意思

neg=pd.read_excel('neg.xls',header=None,index=None)
pos=pd.read_excel('pos.xls',header=None,index=None) #讀取訓練語料完畢
pos['mark']=1
neg['mark']=0 #給訓練語料貼上標簽
pn=pd.concat([pos,neg],ignore_index=True) #合並語料
neglen=len(neg)
poslen=len(pos) #計算語料數目

cw = lambda x: list(jieba.cut(x)) #定義分詞函數
pn['words'] = pn[0].apply(cw)

comment = pd.read_excel('sum.xls') #讀入評論內容
#comment = pd.read_csv('a.csv', encoding='utf-8')
comment = comment[comment['rateContent'].notnull()] #僅讀取非空評論
comment['words'] = comment['rateContent'].apply(cw) #評論分詞

d2v_train = pd.concat([pn['words'], comment['words']], ignore_index = True)

w = [] #將所有詞語整合在一起
for i in d2v_train:
w.extend(i)

dict = pd.DataFrame(pd.Series(w).value_counts()) #統計詞的出現次數
del w,d2v_train
dict['id']=list(range(1,len(dict)+1))

get_sent = lambda x: list(dict['id'][x])
pn['sent'] = pn['words'].apply(get_sent)

maxlen = 50

print "Pad sequences (samples x time)"
pn['sent'] = list(sequence.pad_sequences(pn['sent'], maxlen=maxlen))

x = np.array(list(pn['sent']))[::2] #訓練集
y = np.array(list(pn['mark']))[::2]
xt = np.array(list(pn['sent']))[1::2] #測試集
yt = np.array(list(pn['mark']))[1::2]
xa = np.array(list(pn['sent'])) #全集
ya = np.array(list(pn['mark']))

print 'Build model...'
model = Sequential()
model.add(Embedding(len(dict)+1, 256))
model.add(LSTM(256, 128)) # try using a GRU instead, for fun
model.add(Dropout(0.5))
model.add(Dense(128, 1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', class_mode="binary")
print 'Fit model...'
model.fit(xa, ya, batch_size=32, nb_epoch=4) #訓練時間為若干個小時

classes = model.predict_classes(xa)
acc = np_utils.accuracy(classes, ya)
print 'Test accuracy:', acc
可以試一試
w = [] #將所有詞語整合在一起
for i in d2v_train:
w.extend(i)

newList = list(set(w))
print "newlist len is"
print len(newList)

dict = pd.DataFrame(pd.Series(w).value_counts()) #統計詞的出現次數
print type(dict)
print len(dict)

D. 如何理解LSTM後接CRF

有一個答案給的是一篇acl2016的論文,採用的神經網路結構是 cnn + lstm +crf的經典架構,是一個很成熟的系統
目前來說,實體識別的應用領域,lstm+crf是一種標配了,短期內我認為只要在attention方面沒有很大的突破,這一框架都不會變化
要理解為什麼lstm後面要接crf層,首先應該理解的是crf的功能
題主問這個問題,想必是明白lstm的output,我們姑且不討論原理,lstm在序列標注的問題,落實到題主說的ner,也就是一個seq2seq,在英文中,可以是對每一個input的單詞,對例如bieo的四個標簽進行預測,假設當前輸出的事100個words,那個輸出的就是100*4的一個概率預測,這應該就是答主的疑惑,我們直接用一個分類器,四個裡面選一個就好了,為什麼要再接crf呢?
那麼,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來分析當前的tag標注,其實crf也是接近的原理,crf意會一點的描述其實有點像一張概率圖,在single crf中,你需要做的是盡可能的對每個對象挖掘多的特徵,然後學習他們之間的一種「銜接」關系,在lstm後面加上crf,相當於對lstm抽象過的一種語言關系來進行crf訓練,可以使用那篇論文上的likehood函數,當然使用labelwise的也可以,這也屬於調參的一部分
總之我個人的理解,crf相當於對lstm信息的再利用,利用效率高於一個簡單的分類器,實際情況也適合這一點,題主不妨找個實例測測玩玩,也就明白了

E. 在csv文件中如何如何LSTM標簽

基本判斷:明確地告訴你:想法是好的,但不可以。 原因分析:手機同時打開數據網路(手機SIM卡上網)和WIFI連接,所有的手機系統都是默認數據網路上網,也就是手機卡上網,WIFI打開沒有用,只能二選一,要麼關閉數據網路上WIFI,要麼關閉WIFI上數據網路,同時打開只能默認用數據網路;這不是技術不可能,是產品定位的問題。 建議說明:第三方工具可以可以改變手機默認,不光是系統ROOT的問題, 這是通訊主板底層系統是不是可以改變的問題,所以說,放棄這種想法吧。

F. 用LSTM做情感分析只能二分類嗎能夠得到短文本的情感值嗎

mysql比較好用點吧,而且比較專業點,這個資料庫你可以用一個可視化軟體管理的,就跟Oracle資料庫管理軟體plsql或者QQ那樣的頁面差不多,可以操作:查詢,修改,刪除,更新。mysql資料庫很校管理軟體名字:Navicat_for_MySQL_10.0.5.0_XiaZaiBa....

G. 人工智慧技術能夠解決商業問題的例子有哪些

人工智慧技術可以解決的商業問題其實有很多的,比如有:
1、智能客服,智能客服主要的工作就是在人工換班或者是等待人太多的時候為客戶解決問題的。
2、智能機器人,因為這種機器人是擁有簡單的智力並且可以自己移動,所以這種機器人可以做的工作非常多,比如可以提醒我們做一些事情,可以幫助做一些家務等等。
3、智能機械,現在工廠中為了避免出現疲勞工作,進而發生事故的情況,會使用一些智能的機械來代替人工工作,不但可以長期的工作,不知疲勞,還可以保證合格率。
實際上,人工智慧技術可以做的事情有很多,不過由於現在還有一些沒有實現,所以在這里就不多介紹了,不過隨著人工智慧的慢慢發展,不斷的研究,相信在以後會有更多的智能產品,來給人們的生活帶來更多的體驗。那下面就分享一些人工智慧的知識,希望可以讓大家更了解人工智慧。
首先從自然語言處理原理到進階實戰的詞向量與詞嵌入方面來看TFIDF、Word2Vec演算法、 Gensim模塊、Skip-gram、TF代碼實現Word2Vec演算法項目、FastText、Word Embedding、深度學慣用戶畫像項目。
然後從自然語言處理原理到進階實戰的循環神經網路原理與優化方面來看有Vanilla RNN、Basic RNN實現MNIST手寫數字圖片識別、LSTM長短時記憶、GRU與雙向LSTM、電影評論情感分析案例、Seq2Seq、機器寫唐詩案例、CNN+LSTM+CRF、POS tagging詞性標注案例、 NER命名實體識別案例、 孿生網路、語義相似度分析案例。
最後從自然語言處理原理到進階實戰的Transformer和Bert方面來看有Attention注意力機制、Attention演算法流程、Transformer、Self-Attention機制、Multi-Head Attention、Bert、Bert as service開源項目。
還有概率圖模型演算法的貝葉斯分類有樸素貝葉斯分類器、拉普拉斯估計代碼實戰垃圾郵件分類;HMM演算法有馬爾可夫過程、初始概率、轉移概率、發射概率、 隱含馬爾可夫模型原理、維特比演算法;最大熵模型有熵、條件熵、相對熵、互信息、最大熵模型演算法原理、有約束條件的函數最優化問題、最大熵和最大似然估計關系、IIS演算法;CRF演算法有條件隨機場的性質條件隨機場的判別函數條件隨機場的學習條件隨機場的推斷CRF與HMM關系。

H. lstm做交通預測的輸入輸出是什麼樣的

間序列預測分析就是利用過去一段時間內某事件時間的特徵來預測未來一段時間內該事件的特徵。這是一類相對比較復雜的預測建模問題,和回歸分析模型的預測不同,時間序列模型是依賴於事件發生的先後順序的,同樣大小的值改變順序後輸入模型產生的結果是不同的。
舉個栗子:根據過去兩年某股票的每天的股價數據推測之後一周的股價變化;根據過去2年某店鋪每周想消費人數預測下周來店消費的人數等等
RNN 和 LSTM 模型
時間序列模型最常用最強大的的工具就是遞歸神經網路(recurrent neural network, RNN)。相比與普通神經網路的各計算結果之間相互獨立的特點,RNN的每一次隱含層的計算結果都與當前輸入以及上一次的隱含層結果相關。通過這種方法,RNN的計算結果便具備了記憶之前幾次結果的特點。
典型的RNN網路結構如下:

I. 用LSTM做情感分析只能二分類嗎能夠得到短文本的情感值嗎

好像應該是的吧。

J. 機器學習 lstm模型存儲的是什麼內容

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是人工智慧的核心,是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。