當前位置:首頁 » 分析預測 » python分析股票不可靠
擴展閱讀
甘肅酒業股票行情 2025-07-12 18:21:56
基金重倉股票能不能買 2025-07-12 18:17:50
臉部美白小竅門 2025-07-12 18:05:40

python分析股票不可靠

發布時間: 2021-08-01 08:19:13

⑴ 如何使用Python工具分析風險數據

1、引入工具–載入數據分析包
啟動IPython notebook,載入運行環境:
%matplotlib inline
import pandas as pd
from datetime import timedelta, datetime
import matplotlib.pyplot as plt
import numpy as np
2、數據准備
俗話說: 巧婦難為無米之炊。小安分析的數據主要是用戶使用代理IP訪問日誌記錄信息,要分析的原始數據以CSV的形式存儲。這里首先要介紹到pandas.read_csv這個常用的方法,它將數據讀入DataFrame
analysis_data = pd.read_csv('./honeypot_data.csv')
對的, 一行代碼就可以將全部數據讀到一個二維的表結構DataFrame變數,感覺很簡單有木有啊!!!當然了用Pandas提供的IO工具你也可以將大文件分塊讀取,再此小安測試了一下性能,完整載入約21530000萬條數據也大概只需要90秒左右,性能還是相當不錯。
3、數據管窺
一般來講,分析數據之前我們首先要對數據有一個大體上的了解,比如數據總量有多少,數據有哪些變數,數據變數的分布情況,數據重復情況,數據缺失情況,數據中異常值初步觀測等等。下面小安帶小夥伴們一起來管窺管窺這些數據。
使用shape方法查看數據行數及列數
analysis_data.shape
Out: (21524530, 22) #這是有22個維度,共計21524530條數據記的DataFrame
使用head()方法默認查看前5行數據,另外還有tail()方法是默認查看後5行,當然可以輸入參數來查看自定義行數
analysis_data.head(10)
這里可以了解到我們數據記錄有用戶使用代理IP日期,代理header信息,代理訪問域名,代理方法,源ip以及蜜罐節點信息等等。在此小安一定一定要告訴你,小安每次做數據分析時必定使用的方法–describe方法。pandas的describe()函數能對數據進行快速統計匯總:
對於數值類型數據,它會計算出每個變數: 總個數,平均值,最大值,最小值,標准差,50%分位數等等;
非數值類型數據,該方法會給出變數的: 非空值數量、unique數量(等同於資料庫中distinct方法)、最大頻數變數和最大頻數。
由head()方法我們可以發現數據中包含了數值變數、非數值變數,我們首先可以利用dtypes方法查看DataFrame中各列的數據類型,用select_dtypes方法將數據按數據類型進行分類。然後,利用describe方法返回的統計值對數據有個初步的了解:
df.select_dtypes(include=['O']).describe()
df.select_dtypes(include=['float64']).describe()
簡單的觀察上面變數每一維度統計結果,我們可以了解到大家獲取代理數據的長度平均1670個位元組左右。同時,也能發現欄位scanossubfp,scanscan_mode等存在空值等等信息。這樣我們能對數據整體上有了一個大概了解。
4、數據清洗
由於源數據通常包含一些空值甚至空列,會影響數據分析的時間和效率,在預覽了數據摘要後,需要對這些無效數據進行處理。
一般來說,移除一些空值數據可以使用dropna方法, 當你使用該方法後,檢查時發現 dropna() 之後幾乎移除了所有行的數據,一查Pandas用戶手冊,原來不加參數的情況下, dropna() 會移除所有包含空值的行。
如果你只想移除全部為空值的列,需要加上 axis 和 how 兩個參數:
analysis_data.dropna(axis=1, how='all')
另外,也可以通過dropna的參數subset移除指定列為空的數據,和設置thresh值取移除每非None數據個數小於thresh的行。
analysis_data.dropna(subset=['proxy_host', 'srcip'])
#移除proxy_host欄位或srcip欄位沒有值的行
analysis_data.dropna(thresh=10)
#移除所有行欄位中有值屬性小於10的行
5、統計分析
再對數據中的一些信息有了初步了解過後,原始數據有22個變數。從分析目的出發,我將從原始數據中挑選出局部變數進行分析。這里就要給大家介紹pandas的數據切片方法loc。
loc([startrowindex:endrowindex,[『timestampe』, 『proxy_host』, 『srcip』]])是pandas重要的切片方法,逗號前面是對行進行切片;逗號後的為列切片,也就是挑選要分析的變數。
如下,我這里選出日期,host和源IP欄位——
analysis_data = analysis_data.loc([:, [『timestampe』,'proxy_host','srcip']])
首先讓我們來看看蜜罐代理每日使用數據量,我們將數據按日統計,了解每日數據量PV,並將結果畫出趨勢圖。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.timestamp.value_counts().sort_index()
daily_proxy_visited_count.plot()
對數據列的丟棄,除無效值和需求規定之外,一些表自身的冗餘列也需要在這個環節清理,比如說DataFrame中的index號、類型描述等,通過對這些數據的丟棄,從而生成新的數據,能使數據容量得到有效的縮減,進而提高計算效率。
由上圖分析可知蜜罐代理使用量在6月5號,19-22號和25號這幾天呈爆炸式增長。那麼這幾天數據有情況,不正常,具體是神馬情況,不急,後面小安帶大家一起來慢慢揪出來到底是那些人(源ip) 幹了什麼「壞事」。
進一步分析, 數據有異常後,再讓我們來看看每天去重IP數據後量及其增長量。可以按天groupby後通過nunique()方法直接算出來每日去重IP數據量。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.groupby(['proxy_host']).srcip.nunique()
daily_proxy_visited_count.plot()
究竟大部分人(源ip)在干神馬?干神馬?干神馬?讓我們來看看被訪問次數最多host的哪些,即同一個host關聯的IP個數,為了方便我們只查看前10名熱門host。
先選出host和ip欄位,能過groupby方法來group 每個域名(host),再對每個域名的ip訪問里unique統計。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['proxy_host']).srcip.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
再細細去看大家到底做了啥——查看日誌數據發現原來在收集像二手車價格,工人招聘等等信息。從熱門host來看,總得來說大家使用代理主要還是獲取網路,qq,Google,Bing這類婦孺皆知網站的信息。
下面再讓我們來看看是誰用代理IP「幹事」最多,也就是看看誰的IP訪問不同host的個數最多。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['srcip'_host']).proxy_host.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
哦,發現目標IP為123..*.155的小夥子有大量訪問記錄, 進而查看日誌,原來他在大量收集酒店信息。 好了,這樣我們就大概能知道誰在干什麼了,再讓我們來看看他們使用proxy持續時長,誰在長時間里使用proxy。 代碼如下——
這里不給大家細說代碼了,只給出如下偽代碼。
date_ip = analysis_data.loc[:,['timestamp','srcip']]
grouped_date_ip = date_ip.groupby(['timestamp', 'srcip'])
#計算每個源ip(srcip)的訪問日期
all_srcip_ration_times = ...
#算出最長連續日期天數
ration_date_cnt = count_date(all_srcip_ration_times)
好了,到此我也就初略的知道那些人做什麼,誰用代理時長最長等等問題額。取出ip = 80...38的用戶使用代理ip訪問數據日誌,發現原來這個小夥子在長時間獲取搜狐images。
蜜罐在全國各地部署多個節點,再讓我們來看看每個源ip掃描蜜罐節點總個數,了解IP掃描節點覆蓋率。結果見如下:
# 每個IP掃描的IP掃描節點總個數
node = df[df.mole=='scan']
node = node.loc[:,['srcip','origin_details']]
grouped_node_count = node.groupby(['srcip']).count()
print grouped_node_count.sort_values(['origin_details'], ascending=False).head(10)
由上述兩表初步可知,一些結論:如源ip為182...205的用戶長時間對蜜罐節點進行掃描,mark危險用戶等等。

⑵ 如何利用Python預測股票價格

預測股票價格沒有意義。
單支股票價格,多股組合,大盤這些都可以使用神經網路來學習,02年就做過了,漲跌預測平均能達到54%到57%的准確率,但是只能定性,無法定量,因此,在扣除印花稅之後無利可圖。

純粹使用股票交易數據來預測並保證總體獲利不是程序能辦到的,人也辦不到。
目前世界上最先進的炒股機器也只能利用網路時差那微不可計的零點幾秒在歐洲與美國證券間倒來倒去,那套系統研發費用數千萬,硬體(主要是獨立光纜)費用以億計。

⑶ 如何用python對一系列股票的macd進行判斷

DIF:=EMA(CLOSE,12)-EMA(CLOSE,26);
DEA:=EMA(DIF,9);
MACD:=(DIF-DEA)*2;
忽略以上公式。
根據思路編寫公式,修改公式。盤中預警,條件選股。公式解密,去除時間限制。滑鼠點擊下方




或(圖
標)上,進入

看到
Q,訂

公式

⑷ 用Python 進行股票分析 有什麼好的入門書籍或者課程嗎

個人覺得這問題問的不太對,說句不好的話,你是來搞編程的還是做股票的。


當然,如果題主只是用來搜集資料,看數據的話那還是可以操作一波的,至於python要怎麼入門,個人下面會推薦一些入門級的書籍,通過這些書籍,相信樓主今後會有一個清晰的了解(我們以一個完全不會編程的的新手來看待)。

《Learn Python The Hard Way》,也就是我們所說的笨辦法學python,這絕對是新手入門的第一選擇,裡面話題簡練,是一本以練習為導向的教材。有淺入深,而且易懂。

其它的像什麼,《Python源碼剖析》,《集體智慧編程》,《Python核心編程(第二版)》等題主都可以適當的選擇參讀下,相信都會對題主有所幫助。

最後,還是要重復上面的話題,炒股不是工程學科,它有太多的變數,對於現在的智能編程來說,它還沒有辦法及時的反映那些變數,所以,只能當做一種參考,千萬不可過渡依賴。


結語:pyhton相對來說是一種比較高端的學科,需要有很強的邏輯能力。所以入門是非常困難的,如果真的要學習,是需要很大的毅力去堅持下去的,而且不短時間就能入門了,要有所心理准備。

⑸ python獲取一隻股票的行情,為什麼出現這么多問題

首先,你要確定下你的庫文件是否安裝正常,測試方法,就是在交互模式下測試。
其次,不要用別名,在試試。
希望能幫到你。。。。

⑹ python炒股靠譜嗎

除了正規的券商,千萬不要在其他亂七八糟的平台上開戶入金交易,有可能會因平台的跑路而給自己造成資金損失。

⑺ 用Python 進行股票分析 有什麼好的入門書籍或者課程嗎

問題不對,你拿股票當工科看了,理工學院里可沒有一個股票分析專業。股票或者投資這行有兩個特點,1.
除了市場數據必看,沒有什麼理論必看。理論跟你實際操作相比是垃圾,這么說不過分;2.
實際能賺錢的經驗,沒有人會公開的。公開會導致失效,會引來對手盤,沒人會跟自己過不去。能賺錢的人基本也沒什麼興趣出書或教課。所以,別嫌給你澆冷水,
如果你想要書籍或者課程的話,就在理工類裡面挑一個接近投資的專業吧,比如
quants。自己沒方向的話,恐怕想求助也難。我是做這個的,但完全是自己摸索。Python
是自學,股票分析也是自己攢經驗值。我的博客或許能給你點啟發:
Jacky
Liu's
Blog
,
但最多是啟發而已。你得想出你自己的點子,然後自己去跟市場求證,謝謝

⑻ 新人發帖求助,python使用tushare股票分析包方法報錯

常用以下幾種:
TSocket—使用阻塞式 I/O 進行傳輸,是最常見的模式
TFramedTransport—非阻塞方式,按塊的大小進行傳輸,類似於 Java 中的 NIO
若使用 TFramedTransport 傳輸層,其伺服器必須修改為非阻塞的服務類型,客戶端只需替換 TTransport 部分
TNonblockingTransport —— 使用非阻塞方式,用於構建非同步客戶端!

⑼ 怎樣用python處理股票

用Python處理股票需要獲取股票數據,以國內股票數據為例,可以安裝Python的第三方庫:tushare;一個國內股票數據獲取包。可以在網路中搜索「Python tushare」來查詢相關資料,或者在tushare的官網上查詢說明文檔。