『壹』 如何進行數據採集以及數據分析
如何進行數據採集以及數據分析?可以從免費輿情監測系統 輿情調查軟體就從輿情監測系統的架構說起是,因為他們的技術手段都是一樣的呢
1、輿情採集系統:
一、只要是互聯網上發生的與「我」相關的輿情信息,都可以第一時間監測到,並且以最直觀的方式顯示出來,「一網打盡,一目瞭然」。監測網站類型包括:新聞、論壇、博客、貼吧、微博、電子報、搜索引擎等。
二、對於重點輿情以及負面信息通過手機簡訊等方式及時預警,不需要有專人值守就可以隨時掌握輿情。
三、自動分析輿情信息的發展變化趨勢、輿情信息的首發網站、作者、轉載情況、熱度變化、評估干預處理之後的效果等。
四、自動生成各種統計分析報表和輿情報告,助力輿情工作。配合相應的工作機制,可以有效提升輿情監管的質量和效率,提升輿情應對水平。
五、除了提供系統級7*24小時的運維服務,還配備專門的輿情分析師協助監測,人工預警。 系統建設目標是整合互聯網信息渠道,形成系統、有效的輿情監測機制。實現系統運行,監控互聯網信息、新浪、騰訊等主要微博微博,對其進行實時數據採集、全網監控、分析、檢索,對敏感信息進行預警,防止負面信息傳播,對重大事件做出最及時的反應和相應處理建議。並對近一段時期的熱點問題、敏感詞句進行搜索,從而掌握網路輿情,輔助領導決策服務。 主要的門戶網站,主要的報紙、主要的大型網路論壇、社區、貼吧、博客、微博。例如新浪新聞、各大報紙的電子報、天涯論壇、新浪微博、網路貼吧等。 各類與我相關的以及區域內有影響力的網站。 網路、谷歌、360搜索等搜索引擎。 論壇搜索,博客搜索、微博搜索等專業搜索引擎。 重點網站提供的站內搜索等。
2、輿情分析系統:
分析引擎是本系統的關鍵組成部分。其主要作用是對採集系統採集的數據,自動進行智能分析。分析引擎的主要功能包括:自定分析輿情級別、自動生成熱點、負面輿情研判、自動分類、自動生成專題、轉載計算、自動抽取輿情要素和關鍵詞、自動摘要、自動預警、自動生成統計圖表等功能。例如:多瑞科輿情數據分析站系統引擎內置了政府輿情模型、企業輿情模型和垂直監控模型,這些分析模型,是在多年輿情行業中按照客戶的實際需求,不斷重構和完善起來的,具有良好的實際應用效果。在實際項目中,不用通過二次開發就可以全面滿足政府、企業單獨應用。或者通過SAAS平台完成從上到下的垂直監測需求。對於特殊的應用需要,分析引擎還支持擴展插件,用於快速完成二次開發,支持各種需求定製。
3、輿情服務平台:
主要是用戶進行日常輿情管理的平台,能夠及時接受輿情信息,進行一些常規的輿情管理工作。
『貳』 數據分析中數據獲取的方式有哪些
方式1、外部購買數據
有很多公司或者平台是專門做數據收集和分析的,企業會直接從那裡購買數據或者相關服務給數據分析師,這是一種常見的獲取數據的方式之一。
方式2、網路爬取數據
除了購買數據以外,數據分析師還可以通過網路爬蟲從網路上爬取數據。比如大家可以利用網路爬蟲爬取一些需要的數據,再將數據存儲稱為表格的形式。
方式3、免費開源數據
外部購買數據要花費一定的資金,網路爬取對技術又有一定的要求,有沒有什麼辦法能又省力又省錢的採集數據呢?當然有,互聯網上有一些“開放數據”來源,如政府機構、非營利組織和企業會免費提供一些數據,根據需求你可以免費下載。
方式4、企業內部數據
了解了企業外部數據的來源,其實企業內部本身就會產生很多數據提供給我們分析,我們一起來了解一下吧。前面說了,內部數據通常包含銷售數據、考勤數據、財務數據等。
關於數據分析中數據獲取的方式有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
『叄』 數據的獲取
5.2.1 基本數據的來源
1)中國地質大學(武漢)提供的1980年的1∶50萬西南分省地質圖;
2)中國科學院南京土壤研究所提供的1990年的1∶100萬的西南分省土壤圖;
3)中國科學院地理科學與資源研究所(北京中科永生數據公司)提供的:
西南分省1∶10萬土地利用現狀圖(2000年),西南分省行政區劃圖(1995年),西南分省年平均氣溫柵格圖(1993~2000年平均),西南分省年平均降雨柵格圖(1993~2000年平均),植被覆蓋率分省柵格圖(2000年),植被凈初級生產力分省柵格圖(2000年),土壤呼吸分省柵格圖(2000年),1∶25萬DEM柵格圖(1995年);
4)中國統計出版社提供的2000年西南分省統計年鑒。
5.2.2 數據的提取
(1)各圖層的配准
將收集到的各類圖層進行統一投影和坐標轉換,統一的標准為(表5-1):
表5-1 各類圖層統一的坐標系統參數
亦即,Albers等面積雙標准緯線圓錐投影,全國統一的中央經線和雙標准緯線,中央經線為東京105°,雙標准緯線為北緯25°和北緯47°,採用KRASOVSKY橢球體,大地水準面為Beijing1954。
(2)各圖層數據的提取
Ⅰ.地質圖
1)根據岩性地層的描述將各圖斑劃歸為:白雲岩、白雲岩夾層、不純白雲岩、石灰岩、石灰岩夾層、不純石灰岩、石灰岩-白雲岩互層、碳酸鹽岩及非碳酸鹽岩;
2)在岩性歸類的圖層上疊加行政區劃圖,以縣為單元計算各類岩石出露面積;
3)計算各縣碳酸鹽岩出露面積占國土面積的比例;
4)統計各省碳酸鹽岩出露面積和岩溶縣數,建立相應資料庫,繪制西南岩溶石山區的岩溶縣分布圖。
表5-2 西南分省碳酸鹽岩出露面積及各比例岩溶縣統計表
根據統計的結果(表5-2、圖5-1、圖版Ⅱ-4)顯示:
1)西南7省(區)1市,其國土面積有194.69萬km2,佔全國國土面積的20.28%。碳酸鹽岩出露面積53.26萬km2,占國土面積的27.36%,碳酸鹽岩出露面積最大的是貴州省,連片分布的碳酸鹽岩面積11.61萬km2,佔全省面積的61.2%;碳酸鹽岩出露面積最小的是廣東省,其碳酸鹽岩出露面積1.03萬km2,佔全省面積的5.8%。
2)本文統計的西南岩溶區碳酸鹽岩出露面積的統計結果除了廣東省偏低外,其他各省(區、市)的統計結果均與李大通(1983)統計和出版的1∶400萬中國可溶岩分布圖的結果有較好的對應關系(圖5-2)。
圖5-1 中國西南各縣碳酸鹽岩出露面積占土地面積比例的分布圖
圖5-2 西南岩溶區碳酸鹽岩出露面積統計結果與前人成果的對比
3)碳酸鹽岩出露面積大於30%的岩溶縣主要分布在滇東、桂西、黔、渝東、湘西、鄂西,呈NE-SW向展布。此線以東,湘中南、鄂東、桂東岩溶縣呈島嶼狀分布;此線以西,岩溶縣呈分散狀分布。碳酸鹽岩出露面積大於70%的岩溶縣主要分布在雲南、廣西、貴州、重慶。
我國西南碳酸鹽岩連片分布與古環境的演變和地殼運動密切相關:
古生代,西南地區是當時古特提斯洋的東部邊緣的淺海區,當時豐富的陸源物質供給和溫暖海水形成的活躍的生物活動和蒸發過程,可能是導致該地區碳酸鹽岩大量沉積和成岩的主要原因。這一沉積過程隨後被地殼構造運動隆升過程所代替,開始西南地區成陸過程;
中生代,太平洋板塊向西俯沖,造成中國華南地區(特別是揚子區)的隆起和海水由東而西的逐漸退出。
70MaBP印度板塊脫離岡瓦納古大陸,並向北漂移,在45MaBP(始新世早期),與歐亞板塊碰撞。
第三紀末,在印度板塊、太平洋板塊的夾擊下,青藏高原開始整體隆升。調查表明,自早更新世晚期至現在,貴州西部抬升量達2000多米,中部達1000多米,東部也達數百米不等。最終形成今日西南岩溶地區的格局。
Ⅱ.1∶25萬DEM柵格圖
1)將行政區劃圖與DEM柵格圖疊加,通過ArcView3.2中的Spatial analysis功能模塊,可獲得各縣的平均海拔高度。
2)將各縣平均海拔高度分成10級:0~200m;200~500m;500~1000m;1000~1500m;1500~2000m;2000~2500m;2500~3000m;3000~3500m;3500~4000m;4000~4500m。
3)按不同的海拔高度等級繪制西南區地勢圖(圖5-3,圖版Ⅱ-1),西南岩溶地勢總體格局呈現為西北高,東南低,絕對高差大於4000m。以500m、1500m、3500m為界線,可將西南地勢分成4個階梯:廣東、廣西的大部分縣,湘東、鄂東大部分縣海拔高度小於500m,構成第一級階梯;廣西的北部、西部,湘西,鄂西,黔南、黔西,重慶,四川盆地,海拔高度500~1500m,構成第二級階梯;黔西,滇,川南構成第三級階梯,海拔高度1500~3500m;川西北各縣的海拔高度為3500~4500m,構成第四級階梯。
圖5-3 中國西南區由各縣平均海拔高度生成的地勢圖
同樣的方法可獲得西南各縣年平均氣溫和年平均降雨量(圖5-4、圖版Ⅱ-2,圖5-5、圖版Ⅱ-3);
西南地區東南比鄰海,是太平洋東南季風向內陸推進的入口;雲南南部還受到印度洋西南季風的影響。因此,西南岩溶區的降雨、氣溫分布與地勢的關系十分密切(圖5-6,表5-3)。
圖5-4 中國西南各縣年平均氣溫空間分布趨勢圖
圖5-5 中國西南各縣年平均降雨量空間分布趨勢圖
表5-3 中國西南各省(區、市)平均地勢與年平均降雨量、年平均氣溫
圖5-6 中國西南各省年平均氣溫、年平均降雨量與平均海拔之間的關系
表5-3可以看出以省為信息單元的平均海拔、年平均降雨量和年平均氣溫,其中廣東省具有最低的海拔,而年平均降雨量、年平均氣溫均處於最高;雲南具有最高的平均海拔,而最低的年平均降雨量、年平均氣溫均出現在四川;另外,廣西平均海拔排在第四,而年平均降雨量、年平均氣溫排在第二,這可能與四川盆地、廣西盆地的存在有關,與西南季風對雲南氣候的影響有關。總之,以省(區、市)作為信息單元,並不能很好地反映地勢與氣候之間的。如以縣作為基本的信息單元,則平均海拔與氣候之間存在較好的對應關系,其年平均降雨量、年平均氣溫與平均海拔之間存在較好的負相關,其相關系數為r=-0.61和-0.69(圖5-7)。
圖5-7 中國西南各縣年平均氣溫、年平均降雨量與平均海拔之間的相關分析
Ⅲ.土地利用現狀圖
1)將行政區劃圖疊加於土地利用現狀圖上,按縣提取各土地類型的分布面積;
2)統計有林地、灌叢林地、耕地佔國土面積的比例;
3)將行政區劃圖疊加於植被覆蓋率圖層上,獲取有林地(森林地)、灌叢林地的植被覆蓋率;
表5-4 西南各省(區、市)主要土地類型及面積統計(萬kn2)
4)按縣計算有林地(森林地)、灌叢林地的覆蓋率;
5)繪制西南區有林地(森林地)與灌叢林地覆蓋率的分布圖並建立相應的資料庫。
表5-4和圖5-8可揭示西南區土地利用的特點,與全國土地利用對比,西南岩溶石山區的國土面積佔全國的20.28%,而耕地面積佔全國耕地面積的36.46%,是全國平均值的1.42倍,而水域面積僅佔全國水域面積的10.42%,為全國平均值的40%。這充分反映了西南岩溶石山區地表水資源量的短缺和人類活動對土地的強烈開墾。
土地利用的方式與植被的覆蓋率是制約生態系統中兩個活躍指標—植被凈初級生產力和土壤呼吸的主要因子。將西南植被凈初級生產力(NPP)和土壤呼吸圖層按縣進行數據的提取,可生成西南區NPP和土壤呼吸的分布圖(圖5-9,圖版Ⅱ-4)。
圖5-8 西南各省(區、市)主要土地類型和分布比例及與全國對比
從以上分析可知西南地區由東南到西北地勢可分為4個階梯,碳酸鹽岩主要分布在第二、第三階梯,溫度、降雨與地勢存在較好的負相關,亦即在西南地區水熱條件隨地勢的變化是漸變的。如果具有相同的基地條件,那麼植被生態系統中活力指標也應是漸變的。但從西南岩溶區NPP和土壤呼吸的空間分布特徵看:
1)NPP值大於1050gC/m2·a的主要分布區為第二階梯和第三階梯,而第一階梯和第四階梯區的NPP值大多偏低。如果以縣為信息單元,則在海拔在1200~1500mNPP值出現最高值(圖5-10)。第四階梯區的NPP值偏低與第四階梯區的低溫少雨關系密切;而第一階梯區的NPP值偏低的原因可能與該地區的土地利用方式和植被覆蓋相關。NPP高值區與碳酸鹽岩集中分布區之間存在對應關系。
圖5-9 中國西南各縣植被凈初級生產力、土壤呼吸排放速率與各縣碳酸鹽岩出露面積比例之間的關系
2)從土壤呼吸排放量分布圖看,總的趨勢是隨著地勢的升高,水熱條件的減弱,土壤呼吸漸漸減小,但在第一、第二階梯之間存在明顯的分界線(土壤呼吸量為300gC/m2·a),而該線以西的第二、第三階梯則是碳酸鹽岩分布集中區。如果以縣為信息單元所獲得的結果是:在海拔800~1200m之間出現一個拐點,即土壤呼吸量由快速下降的變化狀態轉換成相對平穩(或緩慢降低狀態)(圖5-11),當海拔高度大於3500m(第四階梯)時,則土壤呼吸變化又轉化成快速降低狀態。
圖5-10 中國西南各縣植被凈初級生產力與平均海拔之間的關系
圖5-11 中國西南各縣土壤呼吸排放量與平均海拔之間的關系
Ⅳ.社會經濟指標
1)從2000年分省(區、市)統計年鑒中獲得以下9個指標:①人口密度(人/km2);②人口自然增長率(‰);③人均國民生產總值(元);④農民人均純收入(元);⑤第三產業占國民生產總值的比例(%);⑥耕地糧食產量(t/hm2);⑦化肥使用量(t/畝);⑧人均耕地(畝/人);⑨林業、牧業占農業總產值的比例(%)。
2)建立資料庫,並與行政區劃圖進行配准,生成相應的社會經濟分布特徵圖。
從中國西南各縣人口密度分布圖(圖5-12,圖版Ⅲ-1)上可以看到,碳酸鹽岩分布對人口分布也存在某種制約關系,如廣西高密度人口分布在桂南,湖南高密度人口分布在湘東、湘中、湘南,湖北高密度人口分布在鄂中、鄂東,重慶高密度人口分布於渝西北、渝西南。將此4省(區、市)的岩溶縣的人口密度與非岩溶縣人口密度作對比,則廣西、湖南、湖北、重慶岩溶縣的人口密度僅分別為非岩溶縣的 85.05%、83.03%、46.78%、54.43%(表5-5),其岩溶縣的農民收入也不及非岩溶縣的。
圖5-12 中國西南各縣人口密度分布圖
圖5-13 中國西南各縣人均國民生產總值分布圖
表5-5 廣西、湖南、湖北、重慶岩溶縣人口密度、農民收入與非岩溶縣對比
西南碳酸鹽岩集中分布的中心貴州省,其人口分布密度明顯高於周圍的鄰省(區、市),但它的人均國民生產總值則遠比鄰省(區、市)的低(圖5-13、圖版Ⅲ-2,圖5-14)。
圖5-14 中國西南各省(區、市)人均國民生產總值排序
根據以上數據的提取和整理可獲得22個指標、構成資料庫,並進入統計模型計算。進入模型計算的指標包括:
平均海拔(m)、年平均降雨量(mm)、土地利用程度指數、灌叢覆蓋率(%)、森林覆蓋率(%)、灌叢地佔土地的比例、森林占土地的比例、土地墾殖率、碳酸鹽岩占土地的比例、凈初級生產力(gC/m2·a)、土壤呼吸(gC/m2·a)、年平均氣溫(℃)、人口密度(人/km2)、人口自然增長率(‰)、人均國民生產總值(元)、農民人均純收入(元)、第三產業占國民生產總值的比例(%)、耕地糧食產量(t/hm2)、化肥使用量(t/畝)、人均耕地(畝/人)、林業、牧業占農業總產值的比例(%)、岩溶縣土壤養分綜合指數。
『肆』 數據採集
8.2.1 示範區地面光譜測量
本次試驗的野外地面取樣的路線圖如圖8.1。本次共在110個取樣點取樣,在每個取樣點獲取波譜數據,共獲得110個波譜數據。
圖8.1 地面采樣點分布圖
試驗區出露地層主要為石炭系干墩岩組(C2gd)、梧桐窩子泉組(C2w)的火山岩、碎屑岩建造、第三系(古近系、新近系)桃樹源組(E3—N1)的礫岩夾石膏層和第四系(Q)土壤。區內侵入岩較發育,從超基性—基性—中性—酸性岩體均有出露。本次測試的岩性有中酸性火山熔岩、次火山岩、碎屑岩和火山碎屑岩。如:中酸性安山岩、玄武岩、石英岩、凝灰岩等;碎屑岩為主的梧桐窩子組中長石岩屑砂岩、粉砂岩、千枚岩、板岩、輝綠片岩、灰岩等,區內分布主要岩性有輝石岩
(1)岩石光譜特性
黑雲變質粘土質含礫砂岩主要是由長石、石英組成,約佔75%。樣品呈褐色,在可見光波段上490nm附近清晰的 Fe3+ 吸收特徵;1100nm 附近的 Fe2+ 吸收強、且寬;在短波紅外的 1400nm,1900nm附近吸收特徵較強,說明樣品中含有分子H2 O;在2200nm,2300nm附近的相對較弱的吸收特徵,如淺色的Al-OH礦物、絹雲母和深色的Mg-OH礦物、綠泥石等所引起。
石英岩主要由石英組成,佔90%。在可見光波段上幾乎不能識別有鐵離子的光譜特徵;在短波紅外的1400nm,1900nm附近有較強的吸收特徵,尤其在1900nm波長處吸收谷深且寬,說明樣品中含有較多的分子H2 O;在2200nm,2300nm附近的相對很弱的吸收特徵可以推斷其含有少量的Al-OH礦物和Mg-OH礦物,如絹雲母和綠泥石等。
凝灰岩呈灰綠色。在可見光波段上490nm附近有較弱的Fe3+吸收特徵;1100nm附近有一寬而淺的Fe2+吸收;在短波紅外的1400nm的吸收較弱,在1900nm附近有較強的吸收特徵,說明樣品中含有分子H2 O;在2300nm附近的相對較弱的特徵吸收為Mg-OH礦物,如綠泥石引起。
變質碳質砂岩主要是由長石、石英組成,約佔70%。光譜曲線從可見光到短波紅外2000 nm反射率一直逐漸上升,由於樣品中含有較多的深色的黑雲母和碳質的影響,在可見、近紅外區間上反射率較低,吸收特徵不明顯。
粉晶質灰岩主要是由方解石組成,佔95% 以上。有鐵染,在1100 nm附近有一較寬的吸收深淺的Fe2+吸收;短波紅外的2000nm附近較寬的吸收特徵和2350nm附近相對極強的吸收特徵,是由方解石中的
碳質砂質絹雲板岩主要是由長石、石英組成,約佔70%。光譜曲線與變質碳質砂岩類似。
安山玄武岩的光譜曲線從可見光到短波紅外1800 nm反射率一直呈上升變化,之後呈下降變化。在可見光波段、近紅外上有490nm,890nm 的 Fe3+吸收特徵,後者吸收特徵很強;在短波紅外的1400nm弱吸收,1900nm附近中等強度的吸收特徵,說明樣品中含少量H2 O分子。
石榴變質粘土質粉砂岩主要是由長石、石英組成,佔60%~70%。光譜曲線從可見光到短波紅外2000 nm反射率一直呈上升變化,之後呈下降變化。在可見光波段、近紅外上反射率較低,說明樣品中可能含有深色的黑雲母,在岩礦鑒定中得到證實(黑雲母含量為25%);在短波紅外的1900nm,2200nm附近有較弱的吸收特徵,兩處較強的吸收特徵說明樣品中含有少量分子H2 O和含有少量淺色的Al-OH礦物,如絹雲母等。
綠簾黑雲石英片岩主要是由長石、石英組成,約佔70%。光譜曲線從可見光到短波紅外2000 nm反射率一直呈上升變化,之後呈下降變化。在可見光、近紅外波段上反射率較低,說明樣品中可能含有深色的黑雲母,在岩礦鑒定中也得到證實(黑雲母佔30%),但在1100nm附近較寬的Fe2+吸收;在短波紅外1400 nm弱吸收、1900 nm和2200 nm中等強度的吸收特徵,2300 nm附近較強的吸收特徵,這些特徵吸收說明樣品中含有分子H2 O和含有深色的Mg-OH,如綠簾石礦物等。
綠泥石化片岩的光譜曲線從可見光到短波紅外2000 nm反射率總體上呈上升變化,之後呈下降變化。在可見光波段有760nm,890nm Fe3+的光譜特徵,近紅外上1100nm處有Fe2+光譜吸收特徵;在短波紅外的1400nm處有極弱的OH-吸收,在1900nm附近有很強的H2 O分子吸收特徵;在2200nm,2300 nm這兩處較強的吸收特徵說明樣品中含有少量淺色的Al-OH礦物,如絹雲母和含有較多的暗色Mg-OH礦物,如綠簾石等。
(2)岩漿岩和火山岩的光譜特性
灰綠色的變質角閃輝石岩主要是由透閃石、角閃石組成,約佔70%。光譜曲線從可見光到短波紅外2000 nm反射率一直呈上升變化,之後呈下降變化。在可見光波段、近紅外上反射率較低,在760nm有較弱的Fe3+的光譜特徵,在1100nm有極寬、極深的Fe2+光譜;在短波紅外的1400nm有一較弱吸收尖銳的OH-特徵,1900nm寬而深的吸收表明有H2 O的吸收,2200nm和2450nm有弱的吸收,而在2300 nm附近有較強的吸收特徵,說明樣品中含少量淺色的Al-OH礦物,如絹雲母和含有大量的暗色Mg-OH礦物綠泥石。
閃長岩體在區域內分布較廣,在金山金礦、紅灘金礦、土墩銅鎳礦、黃山和黃山東銅鎳礦等地均有樣品採集,部分樣品有礦化現象,主要為輝長閃長岩和很少量的二長閃長岩。樣品還包括在區域上分布的閃長岩和英雲閃長岩等。近礦的輝長閃長岩普遍發生程度不同的褐鐵礦化、綠泥石化或絹雲母化,與其光譜曲線特徵相吻合。在黃山東銅鎳礦其光譜曲線(圖8.2)主要表現出604~1500 nm寬的鐵離子吸收帶或600~1000 nm寬的銅離子吸收帶,部分樣品可見較弱的褐鐵礦化吸收特徵(500 nm和900 nm附近的吸收),波長2000~2500 nm區域反映綠泥石、絹雲母及方解石等礦物的混合吸收特徵(絹雲母2204nm,綠泥石2272nm,方解石2345nm)。黃山銅鎳礦(圖8.3)處輝長閃長岩特徵是褐鐵礦化較強(500 nm和900 nm附近的吸收峰明顯),綠泥石和絹雲母化較輕微(2000~2500 nm)范圍吸收特徵微弱,絹雲母2220nm,綠泥石2267nm(次級)和2344nm;土墩銅鎳礦和金山金礦處為綠泥石化閃長岩(圖8.4),具有典型的綠泥石光譜特徵,可見600~1500 nm寬緩的鐵離子吸收譜帶,長波范圍綠泥石特徵吸收譜帶位於2277 nm(次級)和2344 nm附近;紅灘金礦區出露主要為弱蝕變細晶閃長岩(圖8.5),曲線總體比較平直,可見很弱的褐鐵礦化特徵(500nm,900nm吸收峰)和弱絹雲母化(2220nm譜帶)、弱綠泥石化譜帶(2246nm(次級)和2344nm附近);區域上分布的英雲閃長岩光譜曲線表現輕絹雲母化和綠泥石化特徵(圖8.6),短波范圍內可見微弱的寬緩鐵離子吸收帶,絹雲母吸收特徵譜帶出現在2209 nm或2220 nm附近,綠泥石吸收峰出現在2354 nm附近,吸收特徵均比較微弱;閃長岩樣品光譜曲線具有綠簾石特徵吸收(2256nm(次級)、2354nm附近)。
圖8.2 黃山東銅鎳礦光譜曲線
圖8.3 輝長閃長岩光譜曲線
圖8.4 綠泥石化閃長岩光譜曲線
圖8.5 弱蝕變細晶閃長岩光譜曲線
圖8.6 英雲閃長岩光譜曲線
圖8.7 輝綠岩光譜曲線
輝綠岩樣品采自香山西段銅鎳礦和紅灘金礦附近等地(圖8.7)。香山西段銅鎳礦近礦輝綠岩蝕變特徵為褐鐵礦化、綠泥石化和黝簾石化,褐鐵礦化蝕變輝綠岩光譜曲線呈典型褐鐵礦化特徵,在500 nm和900 nm附近有明顯的吸收峰:綠泥石化蝕變輝綠岩光譜曲線存在600~1500 nm寬緩的鐵離子吸收譜帶。二者都具有綠泥石特徵吸收譜帶(2267 nm(次級)和2350 nm附近)。紅灘金礦等地(未近礦)的輝綠岩樣品蝕變相對程度較弱,光譜曲線表現不顯著的鐵礦物(寬緩吸收帶)、絹雲母(2220nm附近)和綠泥石等粘土礦物吸收特徵。
輝長岩樣品采自香山西、紅灘和黃山等地(圖8.8),香山西段銅鎳礦近礦輝長岩蝕變較強,主要為程度不同的褐鐵礦化、孔雀石化、綠泥石化及較弱的絹雲母化。黃鉀鐵礬、褐鐵礦化蝕變輝長岩光譜曲線呈500nm和900nm附近Fe3+強吸收峰特徵,同時綠泥石特徵吸收譜帶位於2230nm(次級)和2277 nm附近;孔雀石化輝長岩光譜曲線具有600~1000nm銅離子引起的特徵緩吸收,但在2000~2500nm區域的吸收特徵不明顯;綠泥石化蝕變輝長岩光譜曲線整體呈綠泥石吸收特徵,存在600~1500nm 的寬緩鐵吸收,綠泥石特徵吸收譜帶多位於2267nm(次級)和2344nm附近,不同樣品略有偏移。
圖8.8 輝長岩光譜曲線
圖8.9 花崗岩類光譜曲線
花崗岩、花崗斑岩和花崗細晶岩,普遍發生不同程度的褐鐵礦化及次生絹雲母化、綠泥石化蝕變(圖8.9),褐鐵礦化吸收特徵在900 nm附近的吸收較弱,曲線平緩,700 nm附近的反射峰對稱性較差。絹雲母吸收譜帶位於2209 nm或2220 nm附近,綠泥石特徵吸收譜帶多位於2267 nm(次級)和2349 nm附近,不同樣品有不同程度的偏移。
橄欖岩和輝石岩等基性、超基性岩漿岩部分樣品光譜曲線無明顯吸收特徵(圖8.10),曲線比較平直,部分樣品表現不同程度的蝕變,蝕變礦物主要為綠泥石、透閃石、黝簾石及蛇紋石等。綠泥石化比較普遍,曲線在600~1500 nm存在寬緩鐵吸收譜帶,在2267 nm和2328 nm附近存在綠泥石特徵吸收譜帶。蛇紋石化橄欖岩光譜曲線形態和2325 nm附近吸收特徵為葉蛇紋石的典型特徵。
石英脈樣品(部分為含金石英脈)主要采自金山金礦和紅灘金礦,從鏡下和光譜曲線分析,蝕變類型包括褐鐵礦化(圖8.11)、絹雲母化和綠泥石化(圖8.12)。多數樣品曲線整體形態具綠泥石吸收特徵,600~1500 nm存在鐵離子寬緩鐵吸收,出現2350 nm附近綠泥石和2220 nm附近絹雲母特徵吸收譜帶。
圖8.10 基性、超基性岩漿岩光譜曲線
圖8.11 褐鐵礦化光譜曲線
圖8.12 絹雲母化和綠泥石化光譜曲線
圖8.13 硅化灰岩光譜曲線
碳酸鹽岩樣品經鏡下鑒定主要為鈣板岩、粉晶灰岩和硅化灰岩,光譜曲線均存在2345 nm附近的方解石特徵吸收譜帶。硅化灰岩具褐鐵礦化特徵(圖8.13),在500 nm和900 nm附近存在較強的吸收峰,鈣板岩和粉晶灰岩的光譜曲線較為平直(圖8.14),在藍光波段存在鐵離子引起的吸收特徵,反射率較低。
圖8.14 鈣板岩和粉晶灰岩光譜曲線
8.2.2 示範區地面光譜分析
8.2.2.1 對比分析新鮮岩石與風化面岩石光譜特徵
筆者在試驗區採集的110塊岩石樣品,分別測試了其風化表面與新鮮表面的光譜,研究了風化作用對岩石光譜的影響。風化作用分為物理風化和化學風化。物理風化作用使岩石裂開或崩解,形成大小不等的碎塊,其物質組分並不發生很大的變化。化學風化作用通過溶解、氧化、水化、水解及碳酸化等作用,使岩石物理結構、物質和化學組分等都發生變化,往往在岩石表面形成與原岩石物質和化學組分有一定差異的覆蓋層,一般僅有幾微米到幾毫米厚,但它們基本控制了地表岩石光譜行為。一般來說,岩石風化表層的Fe2 O3 ,Al2 O3 等化學組分均比原岩有所增加,CaO,Na2 O,K2 O,MgO等則顯著減少,SiO2 含量一般也比原岩少,常形成一些表生礦物,如高嶺石等粘土礦物。由於粘土礦物的增加,風化岩石一般顏色變淺,若原岩富含鐵質礦物,則其顏色多呈紅色、磚紅色或黃褐色,岩石變得疏鬆。
現以八種岩石樣品的風化面和新鮮面光譜為例,討論風化作用對岩石光譜產生的影響。綠簾石化二長岩新鮮表面為肉紅色,風化面為灰白色。風化面較新鮮面的反射率要低,並且出現Fe2 O3 的寬緩譜帶,使反射率自1400 nm向短波長方向產生較大幅度的下降。在2200 nm和2300 nm附近出現了由表生粘土礦物產生強烈的輕基吸收譜帶(圖8.15(a))。
花崗片麻岩風化面與新鮮面光譜的波形特徵及吸收譜帶特徵基本相近,風化表面整體反射率較新鮮面明顯要低(圖8.15(b))。
白雲岩新鮮面光譜在2300 nm附近的碳酸根強吸收特徵,在風化面光譜中強度明顯變弱,但在2000nm~2200nm之間卻出現一些弱的碳酸根和輕基吸收帶(圖8.15(c)),表明風化作用產生的粘土礦物是影響白雲岩碳酸根光譜特徵的最主要原因。
石墨黑雲斜長片麻岩風化作用較弱,風化光譜反射率整體下降,對比度降低,吸收譜帶明顯變弱,是含有較多不透明礦物所致(圖8.15(d))。
圖8.15(e)為風化程度不同的黑雲母斜長片麻岩的光譜,風化程度的加強使輕基譜帶強度增大,尤其是1900 nm附近水分子譜帶為最,表明水分子含量隨著風化程度的加深而增多。
風化作用的加強引起鐵離子譜帶的增強,並且由於岩石表面所含水分子和輕基的排布更為無序而引起的輕基吸收譜帶的寬化。
褐鐵礦化鉀長岩樣品的風化程度較弱,風化面光譜反射率較新鮮面要高,鐵離子吸收譜帶更強,其餘吸收譜帶特徵變化不明顯(圖8.15(f)),說明風化程度較弱,表生粘土礦物較少生成。
圖8.15 新鮮面和風化面岩石反射光譜
a—綠簾石化二長岩;b—花崗片麻岩;c—白雲岩;d—含石墨黑雲斜長片麻岩;e—褐鐵礦化黑雲母斜長片麻岩;f—褐鐵礦化鉀長岩;g—黑雲母斜長片麻岩;h—角閃黑雲斜長片麻岩
角閃黑雲斜長片麻岩風化面Fe3+光譜的影響更為強烈,已掩蓋了Fe2+在1100nm附近的吸收特徵,而形成一寬緩的吸收谷,並且水分子的吸收特徵也更加明顯。
風化引起的岩石光譜變異,不同岩類表現形式不同,加上風化表面可能含有外來物質,更增加了其復雜性。一般說來,隨著風化化學作用的加強,原岩中Fe2+氧化為Fe3+,使大多數岩石的鐵離子譜帶位置向短波長方向略有漂移,強度也會有所加強。而陰離子基團產生的譜帶位置、波形和偏倚性都較為穩定,輕基和水的譜帶強度大部分得到加強。由於風化作用可能產生的新的粘土礦物,風化面光譜中有時會出現新的譜帶。物理風化佔主導作用的岩石1930 nm附近水分子的譜帶往往變強。深色岩石風化後往往生成高嶺石等淺色礦物使表面顏色變淺,反射率增高。富含 Al2 O3 , CaO, Na2 O, K2 O, SiO2 等的顏色較淺的岩石,風化後由於鐵、鎂礦物的相對富集和表面覆蓋的岩石漆層的影響,顏色變深,光譜反射率降低,Fe3+,Mg-OH和結合水分子的譜帶可能出現或加強,
8.2.2.2 酸性火成岩
從酸性→中性→基性→超基性岩的逐步過渡,1400nm,1900nm的OH-和水譜帶的強度迅速下降。這些譜帶可以作為酸性岩的重要鑒定標志。標示著在低溫(600~800℃)的酸性岩中必定有多種形式的水存在,因為低溫酸性岩是由富含水蒸氣的岩漿結晶形成的。這些水的存在也常常使長石發生晚期蝕變形成絹雲母,同時產生輕基譜帶。
8.2.2.3 中性火山岩
中性火山岩的鎂鐵質副礦物雖然有可能產生Fe2+和Fe3+的光譜特徵,但是在大多數情況下呈現的最清晰的譜帶仍然是蝕變產物的水譜帶和輕基譜帶。對火成岩來說,粗斑狀的侵入岩所產生的譜帶,總是比它們的噴出岩更為顯著。此類岩石的光譜可分為兩類:曲線平坦而無光譜特徵的和反射率從短波到長波逐漸增加的。後一種情況的光譜,在700~1000 nm 之間往往出現鐵的特徵譜帶,在1400 nm和1900 nm附近及2200~2500 nm之間,常伴有一些輪廓模糊的譜帶,比蝕變的酸性岩譜帶還要窄一些。由於存在大量的不透明的磁鐵礦及角閃石和黑雲母等暗色礦物,故所有中性岩的光譜反射強度偏低。
8.2.2.4 基性或超基性岩
除了蘇長岩以外,基性岩光譜中通常僅見的光譜特徵是由鐵所產生的1000 nm附近的譜帶,這些譜帶一般寬而弱。除非發生蝕變或風化,否則一般不出現1400nm,1900nm的輕基譜帶。除了斜長輝長岩,基性岩的反射率都較低。這是因為存在大量的暗色鎂鐵礦物,特別是大量磁鐵礦和其他不透明礦物。與基性岩相比超基性岩的光譜總在1000nm附近出現一個輪廓十分清晰的Fe2+譜帶,並且在1800nm附近常出現譜帶,它是高度無序的八面體位上Fe2+的典型特徵。Adams(1968),Adams和McCord(1972)曾經利用這兩個特徵譜帶(1000,1800nm)位置之間的關系作為輝石類斜方輝石類的鎂-鈣含量的鑒定依據。
基性或超基性岩的光譜在可見光和近紅外區Fe2+,Fe3+,Cu2+,Mn2+等離子的躍遷譜帶的強度遠遠大於短波紅外上的OH-,H2O,Al-OH,Mg-OH基團的振動譜帶。Ross等人(1969)根據經驗發現:用於鑒別岩石類型的最佳有效的波長比值是500nm/2300~2500nm,2300nm/1450nm 和2350/1950 nm。這些比值與輕基和水譜帶的相關性是十分明顯的。遺憾的是,對遙感應用來說,1400nm,1900nm附近也正好是大氣干擾最嚴重的譜段。
8.2.2.5 沉積岩的光譜
沉積岩光譜中的光譜特徵一般都很清晰,除非由於有不透明的碳質物質而被掩蓋之外。主要是碳酸根的譜帶,風化產物粘土礦物的譜帶,Fe2+和Fe3+氧化物的譜帶。位於2350nm附近的譜帶是反對稱的CO伸縮振動第二倍頻v3及CO的對稱伸縮振動的合頻v1 ,以及v2的面外彎曲振動的第一倍頻產生的,後者的譜帶最強,其最低值位於2500~2600nm,伴隨出現較弱的譜帶在1900nm,2000nm,2200nm附近。這些弱譜帶常被1400nm,2200nm 或2300nm 附近的粘土的 OH 譜帶一級1400nm,1900nm附近的水譜帶所淹沒。Fe2+的譜帶出現在1000nm附近,而Fe3+氧化物則是光譜強度向藍光方向下降,並在500 nm和850 nm附近出現可識別的大譜帶。
8.2.2.6 變質岩的光譜
通過分析測試大理岩、石英岩、片麻岩、板岩和片岩等變質岩的光譜,發現在400~2500 nm變質岩的清晰光譜特徵主要是碳酸鹽、輕基、水(液態包體水)和硼酸鹽的振動倍頻和合頻引起的,或者由鐵、錳或鉻的電子躍遷過程引起的。
『伍』 如何獲得自己想要的數據呢
給你點代碼,就怕你不懂,呵呵呵
/// <summary>
/// HTML數據獲取處理
/// </summary>
public class RegexString
{
/// <summary>
/// 選擇正則表達式
/// </summary>
/// <param name="index">正則編號(1:頁碼;2、分析頁面數據;3、凈化數據)</param>
/// <returns>正則表達式</returns>
public string SelectRegexString(int index)
{
switch (index)
{
case 1:
return @"(?i)(?<=<option value=)\d+|\d+(?=</select>)";//獲取總頁碼
case 2:
return @"(?i)(?<=<td><DIV id=.*>).+(?=nbsp;</DIV></td>)";//分析頁面數據
case 3:
return @"(?<=>)[A-Z]*\d+(?=<)";//凈化數據
default :
return "";
}
}
/// <summary>
/// 返回分析數據
/// </summary>
/// <param name="regexString">正則</param>
/// <param name="html">HTML</param>
/// <param name="group">分組長度</param>
/// <returns>數據</returns>
public List<string> GetData(string regexString,string html,int group)
{
List<string> result = new List<string>();
Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(html);
for (int count = 0; count < mc.Count; count++)
{
Match m = mc[count];
for (int index = 0; m.Groups[index].Value != ""; index++)
{
string value = m.Groups[index].Value;
if (count % group != 2)
value = Regex.Replace(value, "&", "");
if (value == "")
{
result.RemoveRange((result.Count / group) * group, result.Count % group);
count = (count / group) * group + group - 1;
break;
}
result.Add(value);
}
}
return result;
}
/// <summary>
/// 返回分析數據
/// </summary>
/// <param name="regexString">正則</param>
/// <param name="html">HTML</param>
/// <returns>數據</returns>
public List<string> GetData(string regexString, string html)
{
List<string> result = new List<string>();
Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(html);
for (int count = 0; count < mc.Count; count++)
{
Match m = mc[count];
for (int index = 0; m.Groups[index].Value != ""; index++)
{
result.Add(m.Groups[index].Value);
}
}
return result;
}
}
『陸』 怎樣能獲取數據
要想獲取數據有很多渠道比如說你可以編寫爬蟲程序在網上進行爬去數據或者直接復制電腦里的的數據
『柒』 數據的採集
數據的採集是獲取已生成的「裸文件」和捕捉的「純數據」的行為。除「裸文件」和「純數據」外,還有它們的結構信息、數據的背景信息。結構信息與背景信息在地質資料管理中又稱元數據。內容信息與純數據是採集的主體,結構信息與背景信息是用來說明這些「裸文件」、「純數據」內容和數據是什麼,是由誰生成的,什麼時候生成的,「裸文件」生成後是否經過改動,數據的現場處理過程,生成時的設備和軟體平台備忘。結構信息與背景信息的採集目的是為了保證信息整體有用性和完整要求。數據是採集來的,哪些數據需要採集,它的模板設計就涉及地質找礦工作研究與地質資料管理上的需要,一般由地質研究人員、地質資料管理人員共同商定。
在地質資料管理程序中,本來是在歸檔過程中出現的程序性工作提到「前端」來了。於是,檔案管理工作中的鑒定與數據倉庫中的數據採集工作中的數據審查部分重合了。有人將數據採集工作項,必須採集的數據設計成工作表,嵌入到相關軟體中,對數據的真實性進行專人審計驗收把關並簽字以示責任,同時按照既定的元數據體系,錄入電子文本、數據體的結構信息與背景信息。如數據生成的儀器設備型號(如錄井儀型號、測井儀型號、色譜儀型號等)、工程施工單位、責任人、數據或電子文本格式,生成時間、關鍵詞、主題詞或著錄項等。這些電子文件與數據是數據池建設所需要的資源,也是地質資料需要前端控制的元數據。
『捌』 什麼是數據採集
什麼是數據採集
數據採集,又稱數據獲取,是利用一種裝置,從系統外部採集數據並輸入到系統內部的一個介面。數據採集技術廣泛應用在各個領域。比如攝像頭,麥克風,都是數據採集工具。
在互聯網行業快速發展的今天,數據採集已經被廣泛應用於互聯網及分布式領域,數據採集領域已經發生了重要的變化。首先,分布式控制應用場合中的智能數據採集系統在國內外已經取得了長足的發展。其次,匯流排兼容型數據採集插件的數量不斷增大,與個人計算機兼容的數據採集系統的數量也在增加。國內外各種數據採集機先後問世,將數據採集帶入了一個全新的時代。
數據採集的三大要點:
採集的全面性:採集的數據量足夠大具有分析價值、數據面足夠支撐分析需求。比如查看app的使用情況這一行為,我們需要採集從用戶觸發時的環境信息、會話、以及背後的用戶id,最後需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。
採集的多維性:數據更重要的是能滿足分析需求。靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。比如「查看app的使用情況」這一行為,我們需要採集用戶使用的app的哪些功能、點擊頻率、使用時常、打的app的時間間隔等多個屬性。才能使採集的結果滿足我們的數據分析!
採集的高效性:高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。
數據採集的四大步驟:
明確數據需求:
由於客戶所處行業不同,訴求也就各不一樣。所以首先必須明確客對於數據的最終用途,確定客戶需求。根據客戶所需搜集的數據信息與客戶溝通之後,總結需要收集的欄位。
2.調研數據來源:
根據客戶需求確定數據採集范圍。然後鎖定採集范圍和對採集的數據量進行預估。細化客戶需求,研究採集方向。
3.確定用什麼採集工具、軟體、代碼
面對不同的網站我們只有選擇更加合適的組合才能使採集結果更加有效。
4.確定存儲的方式:
根據採集量的大小對數據儲存的方式進行劃分。比較小的數據,一般使用excel表格存儲;幾千萬的大型數據,選擇資料庫存儲;對於GB級別的數據,就得用Hadoop、Spark、Redis等分布式存儲和處理技術的方法才能做到較好的管理和計算。選擇正確數據存儲的方式使客戶對數據的使用與管理更加便捷。
『玖』 有哪些的數據獲取方式
常用的數據獲取方式有:
1、公開信息及整理
比如統計局的數據、公司自己發布的年報、其他市場機構的研究報告、或者根據公開的零散信息整理;
2、購買的資料庫
市場上有很多產品化的資料庫,比如Bloomberg、OneSource、Wind等等,這個一般是以公司的名義買入口,不光咨詢公司還有很多高等院校及研究機構也買了;
3、自己的資料庫
自己維護的資料庫有,但是比較少,一是專業的數據公司差不多能想到的都做了,二是自己做資料庫其實是一件很麻煩的事情。在有些數據是外界無法得到的情況下有可能自己維護一個小型的資料庫;
4、咨詢行業專家
當然是有償的,這個在項目中應該蠻常見的。有些行業專家會專門收集和銷售數據,想要的基本能買到。
5、發問卷
有時候為了單獨的項目也會收集很特別的數據,如果外界實在沒有但是項目上沒有不行就只有自己做了,比如自己發發問卷之類的,但是這類數據需求要控制工作量,因為除非數據本身是交付內容之一,要不然不能為了個中間件花費太多時間和精力;
6、客戶
有些數據就是來源於客戶,甚至是咨詢公司的產品。舉個例子,比如HR咨詢公司的行業工資數據、四大的一些資料庫等等,這些數據的採集需要比較強的專業性或者時間積累,很大一部分是通過調查客戶的HR收集來的數據進行統計的。
『拾』 獲取數據的主要方法是什麼
獲取數據方式
數據獲取是指從各種設備獲得有關各業務所需的流量、IP、次數、協議等網路傳送的原始數據,從而對用戶進行管理和計費。一般通過以下三種方式獲取數據。
如果目前的IP寬頻網路的對用戶的接入採用的是以太區域網(LAN)的接入方式,則可以採用SNMP代理查詢、網路捕獲來獲取用戶流量數據;
如果用戶接入採用的PPOE虛擬撥號接入的方式,則可以採用RADIUS認證方式來進行用戶管理、數據採集和計費;
大多數的電信級運營商一般都採用RADIUS認證方式進行管理和進行新業務的擴展、管理。
應用效率源科技研發的VICS系統,其前端機VIE具有快速提取數據的功能,能夠在短時間內提取數據,最高可以達到8G/min。
獲取數據的定義
數據獲取是指利用一種裝置,將來自各種數據源的數據自動收集到一個裝置中。被採集數據是已被轉換為電訊號的各種物理量,如溫度、水位、風速、壓力等,可以是模擬量,也可以是數字量。採集一般是采樣方式,即隔一定時間(稱采樣周期)對同一點數據重復採集。採集的數據大多是瞬時值,也可是某段時間內的一個特徵值。准確的數據量測是數據採集的基礎。