spark股票大數據分析_金融需要 hadoopspark 等這些大數據分析工具嗎使用場景是怎樣的

A. 金融需要 hadoop，spark 等這些大數據分析工具嗎使用場景是怎樣的

看看用億信ABI做的相關案例
銀行大數據應用
國內不少銀行已經開始嘗試通過大數據來驅動業務運營，如中信銀行信用卡中心使用大數據技術實現了實時營銷，光大銀行建立了社交網路信息資料庫，招商銀行則利用大數據發展小微貸款。總的來看銀行大數據應用可以分為四大方面：
1、客戶畫像
客戶畫像應用主要分為個人客戶畫像和企業客戶畫像。個人客戶畫像包括人口統計學特徵、消費能力數據、興趣數據、風險偏好等；企業客戶畫像包括企業的生產、流通、運營、財務、銷售和客戶數據、相關產業鏈上下游等數據。值得注意的是，銀行擁有的客戶信息並不全面，基於銀行自身擁有的數據有時候難以得出理想的結果甚至可能得出錯誤的結論。比如，如果某位信用卡客戶月均刷卡8次，平均每次刷卡金額800元，平均每年打4次客服電話，從未有過投訴，按照傳統的數據分析，該客戶是一位滿意度較高流失風險較低的客戶。但如果看到該客戶的微博，得到的真實情況是：工資卡和信用卡不在同一家銀行，還款不方便，好幾次打客服電話沒接通，客戶多次在微博上抱怨，該客戶流失風險較高。所以銀行不僅僅要考慮銀行自身業務所採集到的數據，更應考慮整合外部更多的數據，以擴展對客戶的了解。包括：
（1）客戶在社交媒體上的行為數據（如光大銀行建立了社交網路信息資料庫）。通過打通銀行內部數據和外部社會化的數據可以獲得更為完整的客戶拼圖，從而進行更為精準的營銷和管理；
（2）客戶在電商網站的交易數據，如建設銀行則將自己的電子商務平台和信貸業務結合起來，阿里金融為阿里巴巴用戶提供無抵押貸款，用戶只需要憑借過去的信用即可；
（3）企業客戶的產業鏈上下游數據。如果銀行掌握了企業所在的產業鏈上下游的數據，可以更好掌握企業的外部環境發展情況，從而可以預測企業未來的狀況；
（4）其他有利於擴展銀行對客戶興趣愛好的數據，如網路廣告界目前正在興起的DMP數據平台的互聯網用戶行為數據。
2、精準營銷
在客戶畫像的基礎上銀行可以有效的開展精準營銷，包括：
（1）實時營銷。實時營銷是根據客戶的實時狀態來進行營銷，比如客戶當時的所在地、客戶最近一次消費等信息來有針對地進行營銷（某客戶採用信用卡采購孕婦用品，可以通過建模推測懷孕的概率並推薦孕婦類喜歡的業務）；或者將改變生活狀態的事件（換工作、改變婚姻狀況、置居等）視為營銷機會；
（2）交叉營銷。即不同業務或產品的交叉推薦，如招商銀行可以根據客戶交易記錄分析，有效地識別小微企業客戶，然後用遠程銀行來實施交叉銷售；
（3）個性化推薦。銀行可以根據客戶的喜歡進行服務或者銀行產品的個性化推薦，如根據客戶的年齡、資產規模、理財偏好等，對客戶群進行精準定位，分析出其潛在金融服務需求，進而有針對性的營銷推廣；
（4）客戶生命周期管理。客戶生命周期管理包括新客戶獲取、客戶防流失和客戶贏回等。如招商銀行通過構建客戶流失預警模型，對流失率等級前20%的客戶發售高收益理財產品予以挽留，使得金卡和金葵花卡客戶流失率分別降低了15個和7個百分點。
3、風險管理與風險控制
在風險管理和控制方麵包括中小企業貸款風險評估和欺詐交易識別等手段
（1）中小企業貸款風險評估。銀行可通過企業的產、流通、銷售、財務等相關信息結合大數據挖掘方法進行貸款風險分析，量化企業的信用額度，更有效的開展中小企業貸款。
（2）實時欺詐交易識別和反洗錢分析。銀行可以利用持卡人基本信息、卡基本信息、交易歷史、客戶歷史行為模式、正在發生行為模式（如轉賬）等，結合智能規則引擎（如從一個不經常出現的國家為一個特有用戶轉賬或從一個不熟悉的位置進行在線交易）進行實時的交易反欺詐分析。如IBM金融犯罪管理解決方案幫助銀行利用大數據有效地預防與管理金融犯罪，摩根大通銀行則利用大數據技術追蹤盜取客戶賬號或侵入自動櫃員機(ATM)系統的罪犯。
4、運營優化
（1）市場和渠道分析優化。通過大數據，銀行可以監控不同市場推廣渠道尤其是網路渠道推廣的質量，從而進行合作渠道的調整和優化。同時，也可以分析哪些渠道更適合推廣哪類銀行產品或者服務，從而進行渠道推廣策略的優化。
（2）產品和服務優化：銀行可以將客戶行為轉化為信息流，並從中分析客戶的個性特徵和風險偏好，更深層次地理解客戶的習慣，智能化分析和預測客戶需求，從而進行產品創新和服務優化。如興業銀行目前對大數據進行初步分析，通過對還款數據挖掘比較區分優質客戶，根據客戶還款數額的差別，提供差異化的金融產品和服務方式。
（3）輿情分析：銀行可以通過爬蟲技術，抓取社區、論壇和微博上關於銀行以及銀行產品和服務的相關信息，並通過自然語言處理技術進行正負面判斷，尤其是及時掌握銀行以及銀行產品和服務的負面信息，及時發現和處理問題；對於正面信息，可以加以總結並繼續強化。同時，銀行也可以抓取同行業的銀行正負面信息，及時了解同行做的好的方面，以作為自身業務優化的借鑒。

B. 大數據spark 和 hodoop 這兩個什麼情況未來哪個會取代哪個

Hadoop包括MapRece和HDFS，目前很火的Spark，如果說代替，只是會代替Hadoop中的MapRece。Spark在任務調度和數據可靠性方面，確實比MapRece要快很多，而且支持將數據緩存到內存中，下次查的時候直接基於內存訪問。

Spark:
是一個基於內存計算的開源的集群計算系統，目的是讓數據分析更加快速, Spark 是一種與 Hadoop
相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark
啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。
Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
盡
管創建 Spark 是為了支持分布式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoop
文件系統中並行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室
(Algorithms,Machines,and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。
雖然 Spark 與 Hadoop 有相似之處，但它提供了具有有用差異的一個新的集群計算框架。首先，Spark
是為集群計算中的特定類型的工作負載而設計，即那些在並行操作之間重用工作數據集（比如機器學習演算法）的工作負載。為了優化這些類型的工作負
載，Spark 引進了內存集群計算的概念，可在內存集群計算中將數據集緩存在內存中，以縮短訪問延遲.
在大數據處理方面相信大家對hadoop已經耳熟能詳，基於GoogleMap/Rece來實現的Hadoop為開發者提供了map、rece原
語，使並行批處理程序變得非常地簡單和優美。Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Rece兩種操作。比如
map,filter, flatMap,sample, groupByKey, receByKey, union,join,
cogroup,mapValues,
sort,partionBy等多種操作類型，他們把這些操作稱為Transformations。同時還提供Count,collect,
rece, lookup,
save等多種actions。這些多種多樣的數據集操作類型，給上層應用者提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的
Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的分區等。可以說編程模型比Hadoop更靈活.

C. spark快速大數據分析的源碼怎麼使用

如果你沒有這方面的專業知識的話，肯定是沒法下手去做的，是需要大數據方面專業的人才才能解決的，必須學過java，linux，mysql，hadoop，spark的工具才能使用，還談不上熟練的層次呢。檸檬學院大數據。

D. Spark為什麼能成為大數據分析主流工具

簡單，實用價值高！
-

E. spark快速大數據分析怎麼樣

首先大數據spark技術是基於Python和scala編程語言的，熟悉掌握這兩種編程語言是必須的；
其次是要學習spark應用場景、模型和集群搭建等內容；
還有後期的大數據處理等都是必要的知識點

F. 如何使用spark做大數據分析

動手實驗Apache Spark的最好方式是使用互動式Shell命令行，Spark目前有Python Shell和Scala Shell兩種互動式命令行。
可以從這里下載Apache Spark，下載時選擇最近預編譯好的版本以便能夠立即運行shell。
目前最新的Apache Spark版本是1.5.0，發布時間是2015年9月9日。
tar -xvzf ~/spark-1.5.0-bin-hadoop2.4.tgz

運行Python Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/pyspark

在本節中不會使用Python Shell進行演示。
Scala互動式命令行由於運行在JVM上，能夠使用java庫。
運行Scala Shell
cd spark-1.5.0-bin-hadoop2.4
./bin/spark-shell

執行完上述命令行，你可以看到下列輸出：
Scala Shell歡迎信息
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.5.0
/_/
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_25)
Type in expressions to have them evaluated.
Type :help for more information.
15/08/24 21:58:29 INFO SparkContext: Running Spark version 1.5.0

下面是一些簡單的練習以便幫助使用shell。也許你現在不能理解我們做的是什麼，但在後面我們會對此進行詳細分析。在Scala Shell中，執行下列操作：
在Spark中使用README 文件創建textFileRDD
val textFile = sc.textFile("README.md")

獲取textFile RDD的第一個元素
textFile.first()
res3: String = # Apache Spark

對textFile RDD中的數據進行過濾操作，返回所有包含「Spark」關鍵字的行，操作完成後會返回一個新的RDD，操作完成後可以對返回的RDD的行進行計數
篩選出包括Spark關鍵字的RDD然後進行行計數
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark.count()
res10: Long = 19

要找出RDD linesWithSpark單詞出現最多的行，可以使用下列操作。使用map方法，將RDD中的各行映射成一個數，然後再使用rece方法找出包含單詞數最多的行。
找出RDD textFile 中包含單詞數最多的行
textFile.map(line => line.split(" ").size)
.rece((a, b) => if (a > b) a else b)
res11: Int = 14

返回結果表明第14行單詞數最多。
也可以引入其它java包，例如 Math.max()方法，因為map和rece方法接受scala函數字面量作為參數。
在scala shell中引入Java方法
import java.lang.Math
textFile.map(line => line.split(" ").size)
.rece((a, b) => Math.max(a, b))
res12: Int = 14

我們可以很容易地將數據緩存到內存當中。
將RDD linesWithSpark 緩存，然後進行行計數
linesWithSpark.cache()
res13: linesWithSpark.type =
MapPartitionsRDD[8] at filter at <console>:23
linesWithSpark.count()
res15: Long = 19

上面簡要地給大家演示的了如何使用Spark互動式命令行。
彈性分布式數據集（RDDs）
Spark在集群中可以並行地執行任務，並行度由Spark中的主要組件之一——RDD決定。彈性分布式數據集(Resilient distributed data, RDD)是一種數據表示方式，RDD中的數據被分區存儲在集群中（碎片化的數據存儲方式），正是由於數據的分區存儲使得任務可以並行執行。分區數量越多，並行越高。下圖給出了RDD的表示：

Display- Edit
想像每列均為一個分區（partition ），你可以非常方便地將分區數據分配給集群中的各個節點。
為創建RDD，可以從外部存儲中讀取數據，例如從Cassandra、Amazon簡單存儲服務（Amazon Simple Storage Service）、HDFS或其它Hadoop支持的輸入數據格式中讀取。也可以通過讀取文件、數組或JSON格式的數據來創建RDD。另一方面，如果對於應用來說，數據是本地化的，此時你僅需要使用parallelize方法便可以將Spark的特性作用於相應數據，並通過Apache Spark集群對數據進行並行化分析。為驗證這一點，我們使用Scala Spark Shell進行演示：

G. 金融需要 hadoop、spark 等這些大數據分析工具嗎使用場景是怎樣的

首先，金融業的涵蓋非常之廣，主要包括三大類：銀行類、投資類和保險類。具體則很多：商業銀行、投資銀行、證券、保險、小貸公司、租賃等。而且隨著時代和技術發展，還出現了各類新型金融機構，比如：消費貸、P2P等等。其次，金融業基本是全世界各個行業中最依賴於數據的，而且最容易實現數據的變現。

而最近大火的UBI(Usage Based Insurance)更是將大數據技術的使用推向新高度。甚至通過在保險購買者的車輛上安裝檢測OBD數據的硬體設備來獲取各項數據，從而對好司機和壞司機差別定價保費。

H. 如何助力Spark大數據分析

Kubernetes如何助力Spark大數據分析
概述
本文為大家介紹一種容器化的數據服務Spark + OSS on ACK，允許Spark分布式計算節點對阿里雲OSS對象存儲的直接訪問。藉助阿里雲Kubernetes容器服務與阿里雲OSS存儲資源的深度整合，允許Spark分布式內存計算，機器學習集群對雲上的大數據直接進行分析和保存結果。
先決條件
你已經通過阿里雲容器服務創建了一個Kubernetes集群，詳細步驟參見創建Kubernetes集群
從容器服務控制台創建一個Spark OSS實例
使用三次點擊來創建一個1 master + 3 worker 的Spark OSS的實例
1 登錄 https://cs.console.aliyun.com/
2 點擊「應用目錄」
3 選擇「spark-oss」, 點擊「參數」

3.（可選）修改工作節點數目 Worker.Replicas: 3

6 點擊服務，查看外部端點, 點擊URL訪問Spark集群

7 測試Spark集群
1.打開一個spark-shell
kubectl getpod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m
kubectl exec -itspark -oss-online2-worker-57894f65d8 -fmzjs--/opt/spark/bin/spark -shell--master spark: //spark-oss-online2-master:7077

I. Spark 對於生物大數據分析來講有什麼缺點和不足

在這里，談談如何讓我們創建的詞條快速通過網路的審核，同時也向新的一屆選手傳授點經驗，少走些彎路。一.圍繞網路所要求的去編創詞條。首先主題要明確，就如寫作為一樣不要偏題。行文要通順，這點做到了就是符合網路所要求的可讀性要強了。如我上一屆編寫的詞條新競爭力 1.確定準確的詞條。 2、確定第一標題。 3、確定第二標題。先確定好這三部分，我們的目的是先通過，讓顯示出來後期再做補充完善。前期是簡明扼要為主，文字盡量表達到位，精煉最好。二．盡量不要出現多個關鍵詞重疊，避免廣告嫌疑。網路有專門的審核網路的工作人員，這些人每天要面對成千上萬條詞條的海量審核工作，工作量可想而知，一般每條詞條都是大體上看一遍覺得順，而且沒有覺得創建者故意堆砌關鍵詞、放產品名稱做廣告，這類型的詞條就極其容易通過。三．詞條編輯好了，提交後期要善於投訴。這一點我相信很多人沒有認真去做。據我們觀察，一般無法通過的詞條網路要麼以詞條可讀性不強，要麼就是有廣告嫌疑為由拒絕，只要你稍微修改一下，到投訴，記住一定要積極去投訴，和他們的編輯保持一個良性的互動，一般兩次之內一定能夠通過審核並正常的顯示了。當然通過了以後也要去回復一下他們。希望我的觀點能對您有幫助.

spark股票大數據分析

與spark股票大數據分析相關的內容