rnn預測股票價格_什麼是波動率指數

㈠實際波動率的概念

要明確實際波動率，首先要從波動率的概念入手。波動率（Volatility）：是指關於資產未來價格不確定性的度量。它通常用資產回報率的標准差來衡量。也可以指某一證券的一年最高價減去最低價的值再除以最低價所得到的比率。業內將波動率定義為價格比率自然對數的標准差。波動率的種類有：實際波動率，隱含波動率，歷史波動率等等，實際波動率便是波動率的一種。

㈡波浪理論

㈢ Python課程內容都學習什麼啊

賀聖軍Python輕松入門到項目實戰（經典完整版）（超清視頻）網路網盤

鏈接: https://pan..com/s/1C9k1o65FuQKNe68L3xEx3w

提取碼: ja8v 復制這段內容後打開網路網盤手機App，操作更方便哦

若資源有問題歡迎追問~

㈣ lstm具有什麼特點

LSTM結構的文章，實在是太多了，小Dream哥本來是不想再講的。出於文章完整性和系統性的考慮，這里還是將LSTM的模型結構和前向傳播過程列一下。

可以看到LSTM的結構要比RNN的復雜的多，其主要是增加了細胞狀態和3個門結構。看上去比較復雜，同學們先不要著急，下面我們一步一步來講一講LSTM的結構。

如上圖，細胞狀態C_t橫向穿過，看起來像一條傳送帶，只是經過了少量的線性變化，因此狀態容易保持下來。

上圖是LSTM的第一個門，遺忘門。這個門根據輸入信息(h_t-1和x_t)決定要忘記細胞狀態C_t-1的哪些部分。

接下來是信息更新門，決定了細胞狀態C_t，它分為兩個部分。

第一步，根據輸入信息，用tanh產生該時刻需要更新到細胞狀態中的內容；用sigmoid函數產生更新的比例。

LSTM是一個應用廣泛的模型，但隨著Attention機制的提出，transfomer開始作為一種更為強大的特徵抽取模型，開始橫掃各大NLP任務的榜單。不出意外，transformer將會取代RNN及其衍生(LSTM GRU)模型，成為NLP中，最受歡迎、最為強大的特徵抽取模型。

㈤什麼是波動率指數

1987的全球股災後，為穩定股市與保護投資者，紐約證券交易所(NYSE)於1990年引進了斷路器機制(Circuit-breakers)，當股價發生異常變動時，暫時停止交易，試圖降低市場的波動性來恢復投資者的信心。但斷路器機制引進不久，對於如何衡量市場波動性市場產生了許多新的認識，漸漸產生了動態顯示市場波動性的需求。因此，在NYSE採用斷路器來解決市場過度波動問題不久，芝加哥期權交易所從1993年開始編制市場波動率指數(Market Volatility Index，VIX)，以衡量市場的波動率。
CBOE 在1973年4月開始股票期權交易後，就一直有通過期權價格來構造波動率指數的設想，以反映市場對於的未來波動程度的預期。其間有學者陸續提出各種計算方法，Whaley(1993)[1] 提出了編制市場波動率指數作為衡量未來股票市場價格波動程度的方法。同年，CBOE開始編制VIX 指數，選擇S&P100 指數期權的隱含波動率為編制基礎，同時計算買權與賣權的隱含波動率，以考慮交易者使用買權或賣權的偏好。
VIX表達了期權投資者對未來股票市場波動性的預期，當指數越高時，顯示投資者預期未來股價指數的波動性越劇烈；當VIX指數越低時，代表投資者認為未來的股價波動將趨於緩和。由於該指數可反應投資者對未來股價波動的預期，並且可以觀察期權參與者的心理表現，也被稱為「投資者情緒指標」(The investor fear gauge )。經過十多年的發展和完善，VIX指數逐漸得到市場認同，CBOE於2001年推出以NASDAQ 100指數為標的的波動性指標 (NASDAQ Volatility Index ,VXN)； CBOE2003年以S&P500指數為標的計算VIX指數，使指數更貼近市場實際。2004年推出了第一個波動性期貨（Volatility Index Futures）VIX Futures， 2004年推出第二個將波動性商品化的期貨，即方差期貨 (Variance Futures)，標的為三個月期的S&P500指數的現實方差(Realized Variance)。2006年，VIX指數的期權開始在芝加哥期權交易所開始交易
計算波動率指數（VIX）需要的核心數據是隱含波動率，隱含波動率由期權市場上最新的交易價格算出，可以反映市場投資者對於未來行情的預期。其概念類似於債券的到期收益率(Yield To Maturity)：隨著市場價格變動，利用適當的利率將債券的本金和票息貼現，當債券現值等於市場價格時的貼現率即為債券的到期收益率，也就是債券的隱含報酬率。在計算過程中利用債券評價模型，通過使用市場價格可反推出到期收益率，這一收益率即為隱含的到期收益率。

㈥如何在Python中用LSTM網路進行時間序列預測

時間序列模型

時間序列預測分析就是利用過去一段時間內某事件時間的特徵來預測未來一段時間內該事件的特徵。這是一類相對比較復雜的預測建模問題，和回歸分析模型的預測不同，時間序列模型是依賴於事件發生的先後順序的，同樣大小的值改變順序後輸入模型產生的結果是不同的。
舉個栗子：根據過去兩年某股票的每天的股價數據推測之後一周的股價變化；根據過去2年某店鋪每周想消費人數預測下周來店消費的人數等等

RNN 和 LSTM 模型

時間序列模型最常用最強大的的工具就是遞歸神經網路（recurrent neural network, RNN）。相比與普通神經網路的各計算結果之間相互獨立的特點，RNN的每一次隱含層的計算結果都與當前輸入以及上一次的隱含層結果相關。通過這種方法，RNN的計算結果便具備了記憶之前幾次結果的特點。

典型的RNN網路結構如下：

4. 模型訓練和結果預測
將上述數據集按4:1的比例隨機拆分為訓練集和驗證集，這是為了防止過度擬合。訓練模型。然後將數據的X列作為參數導入模型便可得到預測值，與實際的Y值相比便可得到該模型的優劣。

實現代碼

時間間隔序列格式化成所需的訓練集格式

import pandas as pdimport numpy as npdef create_interval_dataset(dataset, look_back):

""" :param dataset: input array of time intervals :param look_back: each training set feature length :return: convert an array of values into a dataset matrix. """

dataX, dataY = [], [] for i in range(len(dataset) - look_back):

dataX.append(dataset[i:i+look_back])

dataY.append(dataset[i+look_back]) return np.asarray(dataX), np.asarray(dataY)

df = pd.read_csv("path-to-your-time-interval-file")

dataset_init = np.asarray(df) # if only 1 columndataX, dataY = create_interval_dataset(dataset, lookback=3) # look back if the training set sequence length

這里的輸入數據來源是csv文件，如果輸入數據是來自資料庫的話可以參考這里

LSTM網路結構搭建

import pandas as pdimport numpy as npimport randomfrom keras.models import Sequential, model_from_jsonfrom keras.layers import Dense, LSTM, Dropoutclass NeuralNetwork():

def __init__(self, **kwargs):

""" :param **kwargs: output_dim=4: output dimension of LSTM layer; activation_lstm='tanh': activation function for LSTM layers; activation_dense='relu': activation function for Dense layer; activation_last='sigmoid': activation function for last layer; drop_out=0.2: fraction of input units to drop; np_epoch=10, the number of epoches to train the model. epoch is one forward pass and one backward pass of all the training examples; batch_size=32: number of samples per gradient update. The higher the batch size, the more memory space you'll need; loss='mean_square_error': loss function; optimizer='rmsprop' """

self.output_dim = kwargs.get('output_dim', 8) self.activation_lstm = kwargs.get('activation_lstm', 'relu') self.activation_dense = kwargs.get('activation_dense', 'relu') self.activation_last = kwargs.get('activation_last', 'softmax') # softmax for multiple output

self.dense_layer = kwargs.get('dense_layer', 2) # at least 2 layers

self.lstm_layer = kwargs.get('lstm_layer', 2) self.drop_out = kwargs.get('drop_out', 0.2) self.nb_epoch = kwargs.get('nb_epoch', 10) self.batch_size = kwargs.get('batch_size', 100) self.loss = kwargs.get('loss', 'categorical_crossentropy') self.optimizer = kwargs.get('optimizer', 'rmsprop') def NN_model(self, trainX, trainY, testX, testY):

""" :param trainX: training data set :param trainY: expect value of training data :param testX: test data set :param testY: epect value of test data :return: model after training """

print "Training model is LSTM network!"

input_dim = trainX[1].shape[1]

output_dim = trainY.shape[1] # one-hot label

# print predefined parameters of current model:

model = Sequential() # applying a LSTM layer with x dim output and y dim input. Use dropout parameter to avoid overfitting

model.add(LSTM(output_dim=self.output_dim,

input_dim=input_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) for i in range(self.lstm_layer-2):

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) # argument return_sequences should be false in last lstm layer to avoid input dimension incompatibility with dense layer

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out)) for i in range(self.dense_layer-1):

model.add(Dense(output_dim=self.output_dim,

activation=self.activation_last))

model.add(Dense(output_dim=output_dim,

input_dim=self.output_dim,

activation=self.activation_last)) # configure the learning process

model.compile(loss=self.loss, optimizer=self.optimizer, metrics=['accuracy']) # train the model with fixed number of epoches

model.fit(x=trainX, y=trainY, nb_epoch=self.nb_epoch, batch_size=self.batch_size, validation_data=(testX, testY)) # store model to json file

model_json = model.to_json() with open(model_path, "w") as json_file:

json_file.write(model_json) # store model weights to hdf5 file

if model_weight_path: if os.path.exists(model_weight_path):

os.remove(model_weight_path)

model.save_weights(model_weight_path) # eg: model_weight.h5

return model

這里寫的只涉及LSTM網路的結構搭建，至於如何把數據處理規范化成網路所需的結構以及把模型預測結果與實際值比較統計的可視化，就需要根據實際情況做調整了。

㈦數據挖掘工程師一般都做什麼

數據挖掘工程師是做什麼的？

數據挖掘，從字面上理解，就是在數據中找到有用的東西，哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了，比如電商數據，如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等，進一步，可以基於用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等能表示一個人的畫像，就相當於用這些挖掘出來的屬性來刻畫一個人，這些還是最簡單的東西，更深層次的比如預測（股票預測），但是比較難。

數據挖掘往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網路、深度學習等。

數據挖掘 = 業務知識 + 自然語言處理技術（ NLP ） + 計算機視覺技術（ CV ） + 機器學習 / 深度學習（ ML/DL ）

（ 1 ）其中業務知識具體指的是個性化推薦，計算廣告，搜索，互聯網金融等； NLP ， CV 分別是處理文本，圖像視頻數據的領域技術，可以理解為是將非結構化數據提取轉換成結構化數據；最後的ml/dl 技術則是屬於模型學習理論；

（ 2 ）在選擇崗位時，各個公司都沒有一套標準的稱呼，但是所做的事情無非 2 個大方向，一種是主要鑽研某個領域的技術，比如自然語言處理工程師，計算機視覺工程師，機器學習工程師等；一種是將各種領域技術應用到業務場景中去解決業務需求，比如數據挖掘工程師，推薦系統工程師等；具體的稱呼不重要，重要的是平時的工作內容；

PS ：在互聯網行業，數據挖掘相關技術應用比較成功的主要是推薦以及計算廣告領域，而其中涉及到的數據主要也是文本，所以 NLP 技術相對來講比較重要，至於 CV 技術主要還是在人工智慧領域（無人車，人臉識別等）應用較多，本人了解有限，相關的描述會較少；

數據挖掘崗位需要具備的3 種基本能力

1. 工程能力

（ 1 ）編程基礎：需要掌握一大一小兩門語言，大的指 C++ 或者 Java ，小的指 Python 或者 shell 腳本；需要掌握基本的資料庫語言；

建議： MySQL + python + C++ ；語言只是一種工具，看看語法就好；

推薦書籍：《 C++ primer plus 》

（ 2 ）開發平台： Linux ；

建議：掌握常見的命令，掌握 Linux 下的源碼編譯原理；

推薦書籍：《 Linux 私房菜》

（ 3 ）數據結構與演算法分析基礎：掌握常見的數據結構以及操作（線性表，隊，列，字元串，樹，圖等），掌握常見的計算機演算法（排序演算法，查找演算法，動態規劃，遞歸等）；

建議：多敲代碼，多上 OJ 平台刷題；

推薦書籍：《大話數據結構》《劍指 offer 》

（ 4 ）海量數據處理平台： Hadoop （ mr 計算模型， java 開發）或者 Spark （ rdd 計算模型， scala開發），重點推薦後者；

建議：主要是會使用，有精力的話可以看看源碼了解集群調度機制之類的；

推薦書籍：《大數據 spark 企業級實戰》

2. 演算法能力

（ 1 ）數學基礎：概率論，數理統計，線性代數，隨機過程，最優化理論

建議：這些是必須要了解的，即使沒法做到基礎扎實，起碼也要掌握每門學科的理論體系，涉及到相應知識點時通過查閱資料可以做到無障礙理解；

（ 2 ）機器學習 / 深度學習：掌握常見的機器學習模型（線性回歸，邏輯回歸， SVM ，感知機；決策樹，隨機森林， GBDT ， XGBoost ；貝葉斯， KNN ， K-means ， EM 等）；掌握常見的機器學習理論（過擬合問題，交叉驗證問題，模型選擇問題，模型融合問題等）；掌握常見的深度學習模型（ CNN ，RNN 等）；

建議：這里的掌握指的是能夠熟悉推導公式並能知道模型的適用場景；

推薦書籍：《統計學習方法》《機器學習》《機器學習實戰》《 UFLDL 》

（ 3 ）自然語言處理：掌握常見的方法（ tf-idf ， word2vec ， LDA ）；

3. 業務經驗

（ 1 ）了解推薦以及計算廣告相關知識；

推薦書籍：《推薦系統實踐》《計算廣告》

（ 2 ）通過參加數據挖掘競賽熟悉相關業務場景，常見的比賽有 Kaggle ，阿里天池， datacastle 等。

想要學習數據挖掘的話可以看一下這篇文章《AI時代就業指南：數據挖掘入門與求職》

rnn預測股票價格

數據挖掘工程師是做什麼的？

與rnn預測股票價格相關的內容