rnn预测股票价格_什么是波动率指数

㈠实际波动率的概念

要明确实际波动率，首先要从波动率的概念入手。波动率（Volatility）：是指关于资产未来价格不确定性的度量。它通常用资产回报率的标准差来衡量。也可以指某一证券的一年最高价减去最低价的值再除以最低价所得到的比率。业内将波动率定义为价格比率自然对数的标准差。波动率的种类有：实际波动率，隐含波动率，历史波动率等等，实际波动率便是波动率的一种。

㈡波浪理论

㈢ Python课程内容都学习什么啊

贺圣军Python轻松入门到项目实战（经典完整版）（超清视频）网络网盘

链接: https://pan..com/s/1C9k1o65FuQKNe68L3xEx3w

提取码: ja8v 复制这段内容后打开网络网盘手机App，操作更方便哦

若资源有问题欢迎追问~

㈣ lstm具有什么特点

LSTM结构的文章，实在是太多了，小Dream哥本来是不想再讲的。出于文章完整性和系统性的考虑，这里还是将LSTM的模型结构和前向传播过程列一下。

可以看到LSTM的结构要比RNN的复杂的多，其主要是增加了细胞状态和3个门结构。看上去比较复杂，同学们先不要着急，下面我们一步一步来讲一讲LSTM的结构。

如上图，细胞状态C_t横向穿过，看起来像一条传送带，只是经过了少量的线性变化，因此状态容易保持下来。

上图是LSTM的第一个门，遗忘门。这个门根据输入信息(h_t-1和x_t)决定要忘记细胞状态C_t-1的哪些部分。

接下来是信息更新门，决定了细胞状态C_t，它分为两个部分。

第一步，根据输入信息，用tanh产生该时刻需要更新到细胞状态中的内容；用sigmoid函数产生更新的比例。

LSTM是一个应用广泛的模型，但随着Attention机制的提出，transfomer开始作为一种更为强大的特征抽取模型，开始横扫各大NLP任务的榜单。不出意外，transformer将会取代RNN及其衍生(LSTM GRU)模型，成为NLP中，最受欢迎、最为强大的特征抽取模型。

㈤什么是波动率指数

1987的全球股灾后，为稳定股市与保护投资者，纽约证券交易所(NYSE)于1990年引进了断路器机制(Circuit-breakers)，当股价发生异常变动时，暂时停止交易，试图降低市场的波动性来恢复投资者的信心。但断路器机制引进不久，对于如何衡量市场波动性市场产生了许多新的认识，渐渐产生了动态显示市场波动性的需求。因此，在NYSE采用断路器来解决市场过度波动问题不久，芝加哥期权交易所从1993年开始编制市场波动率指数(Market Volatility Index，VIX)，以衡量市场的波动率。
CBOE 在1973年4月开始股票期权交易后，就一直有通过期权价格来构造波动率指数的设想，以反映市场对于的未来波动程度的预期。其间有学者陆续提出各种计算方法，Whaley(1993)[1] 提出了编制市场波动率指数作为衡量未来股票市场价格波动程度的方法。同年，CBOE开始编制VIX 指数，选择S&P100 指数期权的隐含波动率为编制基础，同时计算买权与卖权的隐含波动率，以考虑交易者使用买权或卖权的偏好。
VIX表达了期权投资者对未来股票市场波动性的预期，当指数越高时，显示投资者预期未来股价指数的波动性越剧烈；当VIX指数越低时，代表投资者认为未来的股价波动将趋于缓和。由于该指数可反应投资者对未来股价波动的预期，并且可以观察期权参与者的心理表现，也被称为“投资者情绪指标”(The investor fear gauge )。经过十多年的发展和完善，VIX指数逐渐得到市场认同，CBOE于2001年推出以NASDAQ 100指数为标的的波动性指标 (NASDAQ Volatility Index ,VXN)； CBOE2003年以S&P500指数为标的计算VIX指数，使指数更贴近市场实际。2004年推出了第一个波动性期货（Volatility Index Futures）VIX Futures， 2004年推出第二个将波动性商品化的期货，即方差期货 (Variance Futures)，标的为三个月期的S&P500指数的现实方差(Realized Variance)。2006年，VIX指数的期权开始在芝加哥期权交易所开始交易
计算波动率指数（VIX）需要的核心数据是隐含波动率，隐含波动率由期权市场上最新的交易价格算出，可以反映市场投资者对于未来行情的预期。其概念类似于债券的到期收益率(Yield To Maturity)：随着市场价格变动，利用适当的利率将债券的本金和票息贴现，当债券现值等于市场价格时的贴现率即为债券的到期收益率，也就是债券的隐含报酬率。在计算过程中利用债券评价模型，通过使用市场价格可反推出到期收益率，这一收益率即为隐含的到期收益率。

㈥如何在Python中用LSTM网络进行时间序列预测

时间序列模型

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。
举个栗子：根据过去两年某股票的每天的股价数据推测之后一周的股价变化；根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等

RNN 和 LSTM 模型

时间序列模型最常用最强大的的工具就是递归神经网络（recurrent neural network, RNN）。相比与普通神经网络的各计算结果之间相互独立的特点，RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法，RNN的计算结果便具备了记忆之前几次结果的特点。

典型的RNN网路结构如下：

4. 模型训练和结果预测
将上述数据集按4:1的比例随机拆分为训练集和验证集，这是为了防止过度拟合。训练模型。然后将数据的X列作为参数导入模型便可得到预测值，与实际的Y值相比便可得到该模型的优劣。

实现代码

时间间隔序列格式化成所需的训练集格式

import pandas as pdimport numpy as npdef create_interval_dataset(dataset, look_back):

""" :param dataset: input array of time intervals :param look_back: each training set feature length :return: convert an array of values into a dataset matrix. """

dataX, dataY = [], [] for i in range(len(dataset) - look_back):

dataX.append(dataset[i:i+look_back])

dataY.append(dataset[i+look_back]) return np.asarray(dataX), np.asarray(dataY)

df = pd.read_csv("path-to-your-time-interval-file")

dataset_init = np.asarray(df) # if only 1 columndataX, dataY = create_interval_dataset(dataset, lookback=3) # look back if the training set sequence length

这里的输入数据来源是csv文件，如果输入数据是来自数据库的话可以参考这里

LSTM网络结构搭建

import pandas as pdimport numpy as npimport randomfrom keras.models import Sequential, model_from_jsonfrom keras.layers import Dense, LSTM, Dropoutclass NeuralNetwork():

def __init__(self, **kwargs):

""" :param **kwargs: output_dim=4: output dimension of LSTM layer; activation_lstm='tanh': activation function for LSTM layers; activation_dense='relu': activation function for Dense layer; activation_last='sigmoid': activation function for last layer; drop_out=0.2: fraction of input units to drop; np_epoch=10, the number of epoches to train the model. epoch is one forward pass and one backward pass of all the training examples; batch_size=32: number of samples per gradient update. The higher the batch size, the more memory space you'll need; loss='mean_square_error': loss function; optimizer='rmsprop' """

self.output_dim = kwargs.get('output_dim', 8) self.activation_lstm = kwargs.get('activation_lstm', 'relu') self.activation_dense = kwargs.get('activation_dense', 'relu') self.activation_last = kwargs.get('activation_last', 'softmax') # softmax for multiple output

self.dense_layer = kwargs.get('dense_layer', 2) # at least 2 layers

self.lstm_layer = kwargs.get('lstm_layer', 2) self.drop_out = kwargs.get('drop_out', 0.2) self.nb_epoch = kwargs.get('nb_epoch', 10) self.batch_size = kwargs.get('batch_size', 100) self.loss = kwargs.get('loss', 'categorical_crossentropy') self.optimizer = kwargs.get('optimizer', 'rmsprop') def NN_model(self, trainX, trainY, testX, testY):

""" :param trainX: training data set :param trainY: expect value of training data :param testX: test data set :param testY: epect value of test data :return: model after training """

print "Training model is LSTM network!"

input_dim = trainX[1].shape[1]

output_dim = trainY.shape[1] # one-hot label

# print predefined parameters of current model:

model = Sequential() # applying a LSTM layer with x dim output and y dim input. Use dropout parameter to avoid overfitting

model.add(LSTM(output_dim=self.output_dim,

input_dim=input_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) for i in range(self.lstm_layer-2):

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out,

return_sequences=True)) # argument return_sequences should be false in last lstm layer to avoid input dimension incompatibility with dense layer

model.add(LSTM(output_dim=self.output_dim,

input_dim=self.output_dim,

activation=self.activation_lstm,

dropout_U=self.drop_out)) for i in range(self.dense_layer-1):

model.add(Dense(output_dim=self.output_dim,

activation=self.activation_last))

model.add(Dense(output_dim=output_dim,

input_dim=self.output_dim,

activation=self.activation_last)) # configure the learning process

model.compile(loss=self.loss, optimizer=self.optimizer, metrics=['accuracy']) # train the model with fixed number of epoches

model.fit(x=trainX, y=trainY, nb_epoch=self.nb_epoch, batch_size=self.batch_size, validation_data=(testX, testY)) # store model to json file

model_json = model.to_json() with open(model_path, "w") as json_file:

json_file.write(model_json) # store model weights to hdf5 file

if model_weight_path: if os.path.exists(model_weight_path):

os.remove(model_weight_path)

model.save_weights(model_weight_path) # eg: model_weight.h5

return model

这里写的只涉及LSTM网络的结构搭建，至于如何把数据处理规范化成网络所需的结构以及把模型预测结果与实际值比较统计的可视化，就需要根据实际情况做调整了。

㈦数据挖掘工程师一般都做什么

数据挖掘工程师是做什么的？

数据挖掘，从字面上理解，就是在数据中找到有用的东西，哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了，比如电商数据，如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等，进一步，可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像，就相当于用这些挖掘出来的属性来刻画一个人，这些还是最简单的东西，更深层次的比如预测（股票预测），但是比较难。

数据挖掘往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

数据挖掘 = 业务知识 + 自然语言处理技术（ NLP ） + 计算机视觉技术（ CV ） + 机器学习 / 深度学习（ ML/DL ）

（ 1 ）其中业务知识具体指的是个性化推荐，计算广告，搜索，互联网金融等； NLP ， CV 分别是处理文本，图像视频数据的领域技术，可以理解为是将非结构化数据提取转换成结构化数据；最后的ml/dl 技术则是属于模型学习理论；

（ 2 ）在选择岗位时，各个公司都没有一套标准的称呼，但是所做的事情无非 2 个大方向，一种是主要钻研某个领域的技术，比如自然语言处理工程师，计算机视觉工程师，机器学习工程师等；一种是将各种领域技术应用到业务场景中去解决业务需求，比如数据挖掘工程师，推荐系统工程师等；具体的称呼不重要，重要的是平时的工作内容；

PS ：在互联网行业，数据挖掘相关技术应用比较成功的主要是推荐以及计算广告领域，而其中涉及到的数据主要也是文本，所以 NLP 技术相对来讲比较重要，至于 CV 技术主要还是在人工智能领域（无人车，人脸识别等）应用较多，本人了解有限，相关的描述会较少；

数据挖掘岗位需要具备的3 种基本能力

1. 工程能力

（ 1 ）编程基础：需要掌握一大一小两门语言，大的指 C++ 或者 Java ，小的指 Python 或者 shell 脚本；需要掌握基本的数据库语言；

建议： MySQL + python + C++ ；语言只是一种工具，看看语法就好；

推荐书籍：《 C++ primer plus 》

（ 2 ）开发平台： Linux ；

建议：掌握常见的命令，掌握 Linux 下的源码编译原理；

推荐书籍：《 Linux 私房菜》

（ 3 ）数据结构与算法分析基础：掌握常见的数据结构以及操作（线性表，队，列，字符串，树，图等），掌握常见的计算机算法（排序算法，查找算法，动态规划，递归等）；

建议：多敲代码，多上 OJ 平台刷题；

推荐书籍：《大话数据结构》《剑指 offer 》

（ 4 ）海量数据处理平台： Hadoop （ mr 计算模型， java 开发）或者 Spark （ rdd 计算模型， scala开发），重点推荐后者；

建议：主要是会使用，有精力的话可以看看源码了解集群调度机制之类的；

推荐书籍：《大数据 spark 企业级实战》

2. 算法能力

（ 1 ）数学基础：概率论，数理统计，线性代数，随机过程，最优化理论

建议：这些是必须要了解的，即使没法做到基础扎实，起码也要掌握每门学科的理论体系，涉及到相应知识点时通过查阅资料可以做到无障碍理解；

（ 2 ）机器学习 / 深度学习：掌握常见的机器学习模型（线性回归，逻辑回归， SVM ，感知机；决策树，随机森林， GBDT ， XGBoost ；贝叶斯， KNN ， K-means ， EM 等）；掌握常见的机器学习理论（过拟合问题，交叉验证问题，模型选择问题，模型融合问题等）；掌握常见的深度学习模型（ CNN ，RNN 等）；

建议：这里的掌握指的是能够熟悉推导公式并能知道模型的适用场景；

推荐书籍：《统计学习方法》《机器学习》《机器学习实战》《 UFLDL 》

（ 3 ）自然语言处理：掌握常见的方法（ tf-idf ， word2vec ， LDA ）；

3. 业务经验

（ 1 ）了解推荐以及计算广告相关知识；

推荐书籍：《推荐系统实践》《计算广告》

（ 2 ）通过参加数据挖掘竞赛熟悉相关业务场景，常见的比赛有 Kaggle ，阿里天池， datacastle 等。

想要学习数据挖掘的话可以看一下这篇文章《AI时代就业指南：数据挖掘入门与求职》

rnn预测股票价格

数据挖掘工程师是做什么的？

与rnn预测股票价格相关的内容