『壹』 如何进行数据采集以及数据分析
如何进行数据采集以及数据分析?可以从免费舆情监测系统 舆情调查软件就从舆情监测系统的架构说起是,因为他们的技术手段都是一样的呢
1、舆情采集系统:
一、只要是互联网上发生的与“我”相关的舆情信息,都可以第一时间监测到,并且以最直观的方式显示出来,“一网打尽,一目了然”。监测网站类型包括:新闻、论坛、博客、贴吧、微博、电子报、搜索引擎等。
二、对于重点舆情以及负面信息通过手机短信等方式及时预警,不需要有专人值守就可以随时掌握舆情。
三、自动分析舆情信息的发展变化趋势、舆情信息的首发网站、作者、转载情况、热度变化、评估干预处理之后的效果等。
四、自动生成各种统计分析报表和舆情报告,助力舆情工作。配合相应的工作机制,可以有效提升舆情监管的质量和效率,提升舆情应对水平。
五、除了提供系统级7*24小时的运维服务,还配备专门的舆情分析师协助监测,人工预警。 系统建设目标是整合互联网信息渠道,形成系统、有效的舆情监测机制。实现系统运行,监控互联网信息、新浪、腾讯等主要微博微博,对其进行实时数据采集、全网监控、分析、检索,对敏感信息进行预警,防止负面信息传播,对重大事件做出最及时的反应和相应处理建议。并对近一段时期的热点问题、敏感词句进行搜索,从而掌握网络舆情,辅助领导决策服务。 主要的门户网站,主要的报纸、主要的大型网络论坛、社区、贴吧、博客、微博。例如新浪新闻、各大报纸的电子报、天涯论坛、新浪微博、网络贴吧等。 各类与我相关的以及区域内有影响力的网站。 网络、谷歌、360搜索等搜索引擎。 论坛搜索,博客搜索、微博搜索等专业搜索引擎。 重点网站提供的站内搜索等。
2、舆情分析系统:
分析引擎是本系统的关键组成部分。其主要作用是对采集系统采集的数据,自动进行智能分析。分析引擎的主要功能包括:自定分析舆情级别、自动生成热点、负面舆情研判、自动分类、自动生成专题、转载计算、自动抽取舆情要素和关键词、自动摘要、自动预警、自动生成统计图表等功能。例如:多瑞科舆情数据分析站系统引擎内置了政府舆情模型、企业舆情模型和垂直监控模型,这些分析模型,是在多年舆情行业中按照客户的实际需求,不断重构和完善起来的,具有良好的实际应用效果。在实际项目中,不用通过二次开发就可以全面满足政府、企业单独应用。或者通过SAAS平台完成从上到下的垂直监测需求。对于特殊的应用需要,分析引擎还支持扩展插件,用于快速完成二次开发,支持各种需求定制。
3、舆情服务平台:
主要是用户进行日常舆情管理的平台,能够及时接受舆情信息,进行一些常规的舆情管理工作。
『贰』 数据分析中数据获取的方式有哪些
方式1、外部购买数据
有很多公司或者平台是专门做数据收集和分析的,企业会直接从那里购买数据或者相关服务给数据分析师,这是一种常见的获取数据的方式之一。
方式2、网络爬取数据
除了购买数据以外,数据分析师还可以通过网络爬虫从网络上爬取数据。比如大家可以利用网络爬虫爬取一些需要的数据,再将数据存储称为表格的形式。
方式3、免费开源数据
外部购买数据要花费一定的资金,网络爬取对技术又有一定的要求,有没有什么办法能又省力又省钱的采集数据呢?当然有,互联网上有一些“开放数据”来源,如政府机构、非营利组织和企业会免费提供一些数据,根据需求你可以免费下载。
方式4、企业内部数据
了解了企业外部数据的来源,其实企业内部本身就会产生很多数据提供给我们分析,我们一起来了解一下吧。前面说了,内部数据通常包含销售数据、考勤数据、财务数据等。
关于数据分析中数据获取的方式有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
『叁』 数据的获取
5.2.1 基本数据的来源
1)中国地质大学(武汉)提供的1980年的1∶50万西南分省地质图;
2)中国科学院南京土壤研究所提供的1990年的1∶100万的西南分省土壤图;
3)中国科学院地理科学与资源研究所(北京中科永生数据公司)提供的:
西南分省1∶10万土地利用现状图(2000年),西南分省行政区划图(1995年),西南分省年平均气温栅格图(1993~2000年平均),西南分省年平均降雨栅格图(1993~2000年平均),植被覆盖率分省栅格图(2000年),植被净初级生产力分省栅格图(2000年),土壤呼吸分省栅格图(2000年),1∶25万DEM栅格图(1995年);
4)中国统计出版社提供的2000年西南分省统计年鉴。
5.2.2 数据的提取
(1)各图层的配准
将收集到的各类图层进行统一投影和坐标转换,统一的标准为(表5-1):
表5-1 各类图层统一的坐标系统参数
亦即,Albers等面积双标准纬线圆锥投影,全国统一的中央经线和双标准纬线,中央经线为东京105°,双标准纬线为北纬25°和北纬47°,采用KRASOVSKY椭球体,大地水准面为Beijing1954。
(2)各图层数据的提取
Ⅰ.地质图
1)根据岩性地层的描述将各图斑划归为:白云岩、白云岩夹层、不纯白云岩、石灰岩、石灰岩夹层、不纯石灰岩、石灰岩-白云岩互层、碳酸盐岩及非碳酸盐岩;
2)在岩性归类的图层上叠加行政区划图,以县为单元计算各类岩石出露面积;
3)计算各县碳酸盐岩出露面积占国土面积的比例;
4)统计各省碳酸盐岩出露面积和岩溶县数,建立相应数据库,绘制西南岩溶石山区的岩溶县分布图。
表5-2 西南分省碳酸盐岩出露面积及各比例岩溶县统计表
根据统计的结果(表5-2、图5-1、图版Ⅱ-4)显示:
1)西南7省(区)1市,其国土面积有194.69万km2,占全国国土面积的20.28%。碳酸盐岩出露面积53.26万km2,占国土面积的27.36%,碳酸盐岩出露面积最大的是贵州省,连片分布的碳酸盐岩面积11.61万km2,占全省面积的61.2%;碳酸盐岩出露面积最小的是广东省,其碳酸盐岩出露面积1.03万km2,占全省面积的5.8%。
2)本文统计的西南岩溶区碳酸盐岩出露面积的统计结果除了广东省偏低外,其他各省(区、市)的统计结果均与李大通(1983)统计和出版的1∶400万中国可溶岩分布图的结果有较好的对应关系(图5-2)。
图5-1 中国西南各县碳酸盐岩出露面积占土地面积比例的分布图
图5-2 西南岩溶区碳酸盐岩出露面积统计结果与前人成果的对比
3)碳酸盐岩出露面积大于30%的岩溶县主要分布在滇东、桂西、黔、渝东、湘西、鄂西,呈NE-SW向展布。此线以东,湘中南、鄂东、桂东岩溶县呈岛屿状分布;此线以西,岩溶县呈分散状分布。碳酸盐岩出露面积大于70%的岩溶县主要分布在云南、广西、贵州、重庆。
我国西南碳酸盐岩连片分布与古环境的演变和地壳运动密切相关:
古生代,西南地区是当时古特提斯洋的东部边缘的浅海区,当时丰富的陆源物质供给和温暖海水形成的活跃的生物活动和蒸发过程,可能是导致该地区碳酸盐岩大量沉积和成岩的主要原因。这一沉积过程随后被地壳构造运动隆升过程所代替,开始西南地区成陆过程;
中生代,太平洋板块向西俯冲,造成中国华南地区(特别是扬子区)的隆起和海水由东而西的逐渐退出。
70MaBP印度板块脱离冈瓦纳古大陆,并向北漂移,在45MaBP(始新世早期),与欧亚板块碰撞。
第三纪末,在印度板块、太平洋板块的夹击下,青藏高原开始整体隆升。调查表明,自早更新世晚期至现在,贵州西部抬升量达2000多米,中部达1000多米,东部也达数百米不等。最终形成今日西南岩溶地区的格局。
Ⅱ.1∶25万DEM栅格图
1)将行政区划图与DEM栅格图叠加,通过ArcView3.2中的Spatial analysis功能模块,可获得各县的平均海拔高度。
2)将各县平均海拔高度分成10级:0~200m;200~500m;500~1000m;1000~1500m;1500~2000m;2000~2500m;2500~3000m;3000~3500m;3500~4000m;4000~4500m。
3)按不同的海拔高度等级绘制西南区地势图(图5-3,图版Ⅱ-1),西南岩溶地势总体格局呈现为西北高,东南低,绝对高差大于4000m。以500m、1500m、3500m为界线,可将西南地势分成4个阶梯:广东、广西的大部分县,湘东、鄂东大部分县海拔高度小于500m,构成第一级阶梯;广西的北部、西部,湘西,鄂西,黔南、黔西,重庆,四川盆地,海拔高度500~1500m,构成第二级阶梯;黔西,滇,川南构成第三级阶梯,海拔高度1500~3500m;川西北各县的海拔高度为3500~4500m,构成第四级阶梯。
图5-3 中国西南区由各县平均海拔高度生成的地势图
同样的方法可获得西南各县年平均气温和年平均降雨量(图5-4、图版Ⅱ-2,图5-5、图版Ⅱ-3);
西南地区东南比邻海,是太平洋东南季风向内陆推进的入口;云南南部还受到印度洋西南季风的影响。因此,西南岩溶区的降雨、气温分布与地势的关系十分密切(图5-6,表5-3)。
图5-4 中国西南各县年平均气温空间分布趋势图
图5-5 中国西南各县年平均降雨量空间分布趋势图
表5-3 中国西南各省(区、市)平均地势与年平均降雨量、年平均气温
图5-6 中国西南各省年平均气温、年平均降雨量与平均海拔之间的关系
表5-3可以看出以省为信息单元的平均海拔、年平均降雨量和年平均气温,其中广东省具有最低的海拔,而年平均降雨量、年平均气温均处于最高;云南具有最高的平均海拔,而最低的年平均降雨量、年平均气温均出现在四川;另外,广西平均海拔排在第四,而年平均降雨量、年平均气温排在第二,这可能与四川盆地、广西盆地的存在有关,与西南季风对云南气候的影响有关。总之,以省(区、市)作为信息单元,并不能很好地反映地势与气候之间的。如以县作为基本的信息单元,则平均海拔与气候之间存在较好的对应关系,其年平均降雨量、年平均气温与平均海拔之间存在较好的负相关,其相关系数为r=-0.61和-0.69(图5-7)。
图5-7 中国西南各县年平均气温、年平均降雨量与平均海拔之间的相关分析
Ⅲ.土地利用现状图
1)将行政区划图叠加于土地利用现状图上,按县提取各土地类型的分布面积;
2)统计有林地、灌丛林地、耕地占国土面积的比例;
3)将行政区划图叠加于植被覆盖率图层上,获取有林地(森林地)、灌丛林地的植被覆盖率;
表5-4 西南各省(区、市)主要土地类型及面积统计(万kn2)
4)按县计算有林地(森林地)、灌丛林地的覆盖率;
5)绘制西南区有林地(森林地)与灌丛林地覆盖率的分布图并建立相应的数据库。
表5-4和图5-8可揭示西南区土地利用的特点,与全国土地利用对比,西南岩溶石山区的国土面积占全国的20.28%,而耕地面积占全国耕地面积的36.46%,是全国平均值的1.42倍,而水域面积仅占全国水域面积的10.42%,为全国平均值的40%。这充分反映了西南岩溶石山区地表水资源量的短缺和人类活动对土地的强烈开垦。
土地利用的方式与植被的覆盖率是制约生态系统中两个活跃指标—植被净初级生产力和土壤呼吸的主要因子。将西南植被净初级生产力(NPP)和土壤呼吸图层按县进行数据的提取,可生成西南区NPP和土壤呼吸的分布图(图5-9,图版Ⅱ-4)。
图5-8 西南各省(区、市)主要土地类型和分布比例及与全国对比
从以上分析可知西南地区由东南到西北地势可分为4个阶梯,碳酸盐岩主要分布在第二、第三阶梯,温度、降雨与地势存在较好的负相关,亦即在西南地区水热条件随地势的变化是渐变的。如果具有相同的基地条件,那么植被生态系统中活力指标也应是渐变的。但从西南岩溶区NPP和土壤呼吸的空间分布特征看:
1)NPP值大于1050gC/m2·a的主要分布区为第二阶梯和第三阶梯,而第一阶梯和第四阶梯区的NPP值大多偏低。如果以县为信息单元,则在海拔在1200~1500mNPP值出现最高值(图5-10)。第四阶梯区的NPP值偏低与第四阶梯区的低温少雨关系密切;而第一阶梯区的NPP值偏低的原因可能与该地区的土地利用方式和植被覆盖相关。NPP高值区与碳酸盐岩集中分布区之间存在对应关系。
图5-9 中国西南各县植被净初级生产力、土壤呼吸排放速率与各县碳酸盐岩出露面积比例之间的关系
2)从土壤呼吸排放量分布图看,总的趋势是随着地势的升高,水热条件的减弱,土壤呼吸渐渐减小,但在第一、第二阶梯之间存在明显的分界线(土壤呼吸量为300gC/m2·a),而该线以西的第二、第三阶梯则是碳酸盐岩分布集中区。如果以县为信息单元所获得的结果是:在海拔800~1200m之间出现一个拐点,即土壤呼吸量由快速下降的变化状态转换成相对平稳(或缓慢降低状态)(图5-11),当海拔高度大于3500m(第四阶梯)时,则土壤呼吸变化又转化成快速降低状态。
图5-10 中国西南各县植被净初级生产力与平均海拔之间的关系
图5-11 中国西南各县土壤呼吸排放量与平均海拔之间的关系
Ⅳ.社会经济指标
1)从2000年分省(区、市)统计年鉴中获得以下9个指标:①人口密度(人/km2);②人口自然增长率(‰);③人均国民生产总值(元);④农民人均纯收入(元);⑤第三产业占国民生产总值的比例(%);⑥耕地粮食产量(t/hm2);⑦化肥使用量(t/亩);⑧人均耕地(亩/人);⑨林业、牧业占农业总产值的比例(%)。
2)建立数据库,并与行政区划图进行配准,生成相应的社会经济分布特征图。
从中国西南各县人口密度分布图(图5-12,图版Ⅲ-1)上可以看到,碳酸盐岩分布对人口分布也存在某种制约关系,如广西高密度人口分布在桂南,湖南高密度人口分布在湘东、湘中、湘南,湖北高密度人口分布在鄂中、鄂东,重庆高密度人口分布于渝西北、渝西南。将此4省(区、市)的岩溶县的人口密度与非岩溶县人口密度作对比,则广西、湖南、湖北、重庆岩溶县的人口密度仅分别为非岩溶县的 85.05%、83.03%、46.78%、54.43%(表5-5),其岩溶县的农民收入也不及非岩溶县的。
图5-12 中国西南各县人口密度分布图
图5-13 中国西南各县人均国民生产总值分布图
表5-5 广西、湖南、湖北、重庆岩溶县人口密度、农民收入与非岩溶县对比
西南碳酸盐岩集中分布的中心贵州省,其人口分布密度明显高于周围的邻省(区、市),但它的人均国民生产总值则远比邻省(区、市)的低(图5-13、图版Ⅲ-2,图5-14)。
图5-14 中国西南各省(区、市)人均国民生产总值排序
根据以上数据的提取和整理可获得22个指标、构成数据库,并进入统计模型计算。进入模型计算的指标包括:
平均海拔(m)、年平均降雨量(mm)、土地利用程度指数、灌丛覆盖率(%)、森林覆盖率(%)、灌丛地占土地的比例、森林占土地的比例、土地垦殖率、碳酸盐岩占土地的比例、净初级生产力(gC/m2·a)、土壤呼吸(gC/m2·a)、年平均气温(℃)、人口密度(人/km2)、人口自然增长率(‰)、人均国民生产总值(元)、农民人均纯收入(元)、第三产业占国民生产总值的比例(%)、耕地粮食产量(t/hm2)、化肥使用量(t/亩)、人均耕地(亩/人)、林业、牧业占农业总产值的比例(%)、岩溶县土壤养分综合指数。
『肆』 数据采集
8.2.1 示范区地面光谱测量
本次试验的野外地面取样的路线图如图8.1。本次共在110个取样点取样,在每个取样点获取波谱数据,共获得110个波谱数据。
图8.1 地面采样点分布图
试验区出露地层主要为石炭系干墩岩组(C2gd)、梧桐窝子泉组(C2w)的火山岩、碎屑岩建造、第三系(古近系、新近系)桃树源组(E3—N1)的砾岩夹石膏层和第四系(Q)土壤。区内侵入岩较发育,从超基性—基性—中性—酸性岩体均有出露。本次测试的岩性有中酸性火山熔岩、次火山岩、碎屑岩和火山碎屑岩。如:中酸性安山岩、玄武岩、石英岩、凝灰岩等;碎屑岩为主的梧桐窝子组中长石岩屑砂岩、粉砂岩、千枚岩、板岩、辉绿片岩、灰岩等,区内分布主要岩性有辉石岩
(1)岩石光谱特性
黑云变质粘土质含砾砂岩主要是由长石、石英组成,约占75%。样品呈褐色,在可见光波段上490nm附近清晰的 Fe3+ 吸收特征;1100nm 附近的 Fe2+ 吸收强、且宽;在短波红外的 1400nm,1900nm附近吸收特征较强,说明样品中含有分子H2 O;在2200nm,2300nm附近的相对较弱的吸收特征,如浅色的Al-OH矿物、绢云母和深色的Mg-OH矿物、绿泥石等所引起。
石英岩主要由石英组成,占90%。在可见光波段上几乎不能识别有铁离子的光谱特征;在短波红外的1400nm,1900nm附近有较强的吸收特征,尤其在1900nm波长处吸收谷深且宽,说明样品中含有较多的分子H2 O;在2200nm,2300nm附近的相对很弱的吸收特征可以推断其含有少量的Al-OH矿物和Mg-OH矿物,如绢云母和绿泥石等。
凝灰岩呈灰绿色。在可见光波段上490nm附近有较弱的Fe3+吸收特征;1100nm附近有一宽而浅的Fe2+吸收;在短波红外的1400nm的吸收较弱,在1900nm附近有较强的吸收特征,说明样品中含有分子H2 O;在2300nm附近的相对较弱的特征吸收为Mg-OH矿物,如绿泥石引起。
变质碳质砂岩主要是由长石、石英组成,约占70%。光谱曲线从可见光到短波红外2000 nm反射率一直逐渐上升,由于样品中含有较多的深色的黑云母和碳质的影响,在可见、近红外区间上反射率较低,吸收特征不明显。
粉晶质灰岩主要是由方解石组成,占95% 以上。有铁染,在1100 nm附近有一较宽的吸收深浅的Fe2+吸收;短波红外的2000nm附近较宽的吸收特征和2350nm附近相对极强的吸收特征,是由方解石中的
碳质砂质绢云板岩主要是由长石、石英组成,约占70%。光谱曲线与变质碳质砂岩类似。
安山玄武岩的光谱曲线从可见光到短波红外1800 nm反射率一直呈上升变化,之后呈下降变化。在可见光波段、近红外上有490nm,890nm 的 Fe3+吸收特征,后者吸收特征很强;在短波红外的1400nm弱吸收,1900nm附近中等强度的吸收特征,说明样品中含少量H2 O分子。
石榴变质粘土质粉砂岩主要是由长石、石英组成,占60%~70%。光谱曲线从可见光到短波红外2000 nm反射率一直呈上升变化,之后呈下降变化。在可见光波段、近红外上反射率较低,说明样品中可能含有深色的黑云母,在岩矿鉴定中得到证实(黑云母含量为25%);在短波红外的1900nm,2200nm附近有较弱的吸收特征,两处较强的吸收特征说明样品中含有少量分子H2 O和含有少量浅色的Al-OH矿物,如绢云母等。
绿帘黑云石英片岩主要是由长石、石英组成,约占70%。光谱曲线从可见光到短波红外2000 nm反射率一直呈上升变化,之后呈下降变化。在可见光、近红外波段上反射率较低,说明样品中可能含有深色的黑云母,在岩矿鉴定中也得到证实(黑云母占30%),但在1100nm附近较宽的Fe2+吸收;在短波红外1400 nm弱吸收、1900 nm和2200 nm中等强度的吸收特征,2300 nm附近较强的吸收特征,这些特征吸收说明样品中含有分子H2 O和含有深色的Mg-OH,如绿帘石矿物等。
绿泥石化片岩的光谱曲线从可见光到短波红外2000 nm反射率总体上呈上升变化,之后呈下降变化。在可见光波段有760nm,890nm Fe3+的光谱特征,近红外上1100nm处有Fe2+光谱吸收特征;在短波红外的1400nm处有极弱的OH-吸收,在1900nm附近有很强的H2 O分子吸收特征;在2200nm,2300 nm这两处较强的吸收特征说明样品中含有少量浅色的Al-OH矿物,如绢云母和含有较多的暗色Mg-OH矿物,如绿帘石等。
(2)岩浆岩和火山岩的光谱特性
灰绿色的变质角闪辉石岩主要是由透闪石、角闪石组成,约占70%。光谱曲线从可见光到短波红外2000 nm反射率一直呈上升变化,之后呈下降变化。在可见光波段、近红外上反射率较低,在760nm有较弱的Fe3+的光谱特征,在1100nm有极宽、极深的Fe2+光谱;在短波红外的1400nm有一较弱吸收尖锐的OH-特征,1900nm宽而深的吸收表明有H2 O的吸收,2200nm和2450nm有弱的吸收,而在2300 nm附近有较强的吸收特征,说明样品中含少量浅色的Al-OH矿物,如绢云母和含有大量的暗色Mg-OH矿物绿泥石。
闪长岩体在区域内分布较广,在金山金矿、红滩金矿、土墩铜镍矿、黄山和黄山东铜镍矿等地均有样品采集,部分样品有矿化现象,主要为辉长闪长岩和很少量的二长闪长岩。样品还包括在区域上分布的闪长岩和英云闪长岩等。近矿的辉长闪长岩普遍发生程度不同的褐铁矿化、绿泥石化或绢云母化,与其光谱曲线特征相吻合。在黄山东铜镍矿其光谱曲线(图8.2)主要表现出604~1500 nm宽的铁离子吸收带或600~1000 nm宽的铜离子吸收带,部分样品可见较弱的褐铁矿化吸收特征(500 nm和900 nm附近的吸收),波长2000~2500 nm区域反映绿泥石、绢云母及方解石等矿物的混合吸收特征(绢云母2204nm,绿泥石2272nm,方解石2345nm)。黄山铜镍矿(图8.3)处辉长闪长岩特征是褐铁矿化较强(500 nm和900 nm附近的吸收峰明显),绿泥石和绢云母化较轻微(2000~2500 nm)范围吸收特征微弱,绢云母2220nm,绿泥石2267nm(次级)和2344nm;土墩铜镍矿和金山金矿处为绿泥石化闪长岩(图8.4),具有典型的绿泥石光谱特征,可见600~1500 nm宽缓的铁离子吸收谱带,长波范围绿泥石特征吸收谱带位于2277 nm(次级)和2344 nm附近;红滩金矿区出露主要为弱蚀变细晶闪长岩(图8.5),曲线总体比较平直,可见很弱的褐铁矿化特征(500nm,900nm吸收峰)和弱绢云母化(2220nm谱带)、弱绿泥石化谱带(2246nm(次级)和2344nm附近);区域上分布的英云闪长岩光谱曲线表现轻绢云母化和绿泥石化特征(图8.6),短波范围内可见微弱的宽缓铁离子吸收带,绢云母吸收特征谱带出现在2209 nm或2220 nm附近,绿泥石吸收峰出现在2354 nm附近,吸收特征均比较微弱;闪长岩样品光谱曲线具有绿帘石特征吸收(2256nm(次级)、2354nm附近)。
图8.2 黄山东铜镍矿光谱曲线
图8.3 辉长闪长岩光谱曲线
图8.4 绿泥石化闪长岩光谱曲线
图8.5 弱蚀变细晶闪长岩光谱曲线
图8.6 英云闪长岩光谱曲线
图8.7 辉绿岩光谱曲线
辉绿岩样品采自香山西段铜镍矿和红滩金矿附近等地(图8.7)。香山西段铜镍矿近矿辉绿岩蚀变特征为褐铁矿化、绿泥石化和黝帘石化,褐铁矿化蚀变辉绿岩光谱曲线呈典型褐铁矿化特征,在500 nm和900 nm附近有明显的吸收峰:绿泥石化蚀变辉绿岩光谱曲线存在600~1500 nm宽缓的铁离子吸收谱带。二者都具有绿泥石特征吸收谱带(2267 nm(次级)和2350 nm附近)。红滩金矿等地(未近矿)的辉绿岩样品蚀变相对程度较弱,光谱曲线表现不显著的铁矿物(宽缓吸收带)、绢云母(2220nm附近)和绿泥石等粘土矿物吸收特征。
辉长岩样品采自香山西、红滩和黄山等地(图8.8),香山西段铜镍矿近矿辉长岩蚀变较强,主要为程度不同的褐铁矿化、孔雀石化、绿泥石化及较弱的绢云母化。黄钾铁矾、褐铁矿化蚀变辉长岩光谱曲线呈500nm和900nm附近Fe3+强吸收峰特征,同时绿泥石特征吸收谱带位于2230nm(次级)和2277 nm附近;孔雀石化辉长岩光谱曲线具有600~1000nm铜离子引起的特征缓吸收,但在2000~2500nm区域的吸收特征不明显;绿泥石化蚀变辉长岩光谱曲线整体呈绿泥石吸收特征,存在600~1500nm 的宽缓铁吸收,绿泥石特征吸收谱带多位于2267nm(次级)和2344nm附近,不同样品略有偏移。
图8.8 辉长岩光谱曲线
图8.9 花岗岩类光谱曲线
花岗岩、花岗斑岩和花岗细晶岩,普遍发生不同程度的褐铁矿化及次生绢云母化、绿泥石化蚀变(图8.9),褐铁矿化吸收特征在900 nm附近的吸收较弱,曲线平缓,700 nm附近的反射峰对称性较差。绢云母吸收谱带位于2209 nm或2220 nm附近,绿泥石特征吸收谱带多位于2267 nm(次级)和2349 nm附近,不同样品有不同程度的偏移。
橄榄岩和辉石岩等基性、超基性岩浆岩部分样品光谱曲线无明显吸收特征(图8.10),曲线比较平直,部分样品表现不同程度的蚀变,蚀变矿物主要为绿泥石、透闪石、黝帘石及蛇纹石等。绿泥石化比较普遍,曲线在600~1500 nm存在宽缓铁吸收谱带,在2267 nm和2328 nm附近存在绿泥石特征吸收谱带。蛇纹石化橄榄岩光谱曲线形态和2325 nm附近吸收特征为叶蛇纹石的典型特征。
石英脉样品(部分为含金石英脉)主要采自金山金矿和红滩金矿,从镜下和光谱曲线分析,蚀变类型包括褐铁矿化(图8.11)、绢云母化和绿泥石化(图8.12)。多数样品曲线整体形态具绿泥石吸收特征,600~1500 nm存在铁离子宽缓铁吸收,出现2350 nm附近绿泥石和2220 nm附近绢云母特征吸收谱带。
图8.10 基性、超基性岩浆岩光谱曲线
图8.11 褐铁矿化光谱曲线
图8.12 绢云母化和绿泥石化光谱曲线
图8.13 硅化灰岩光谱曲线
碳酸盐岩样品经镜下鉴定主要为钙板岩、粉晶灰岩和硅化灰岩,光谱曲线均存在2345 nm附近的方解石特征吸收谱带。硅化灰岩具褐铁矿化特征(图8.13),在500 nm和900 nm附近存在较强的吸收峰,钙板岩和粉晶灰岩的光谱曲线较为平直(图8.14),在蓝光波段存在铁离子引起的吸收特征,反射率较低。
图8.14 钙板岩和粉晶灰岩光谱曲线
8.2.2 示范区地面光谱分析
8.2.2.1 对比分析新鲜岩石与风化面岩石光谱特征
笔者在试验区采集的110块岩石样品,分别测试了其风化表面与新鲜表面的光谱,研究了风化作用对岩石光谱的影响。风化作用分为物理风化和化学风化。物理风化作用使岩石裂开或崩解,形成大小不等的碎块,其物质组分并不发生很大的变化。化学风化作用通过溶解、氧化、水化、水解及碳酸化等作用,使岩石物理结构、物质和化学组分等都发生变化,往往在岩石表面形成与原岩石物质和化学组分有一定差异的覆盖层,一般仅有几微米到几毫米厚,但它们基本控制了地表岩石光谱行为。一般来说,岩石风化表层的Fe2 O3 ,Al2 O3 等化学组分均比原岩有所增加,CaO,Na2 O,K2 O,MgO等则显著减少,SiO2 含量一般也比原岩少,常形成一些表生矿物,如高岭石等粘土矿物。由于粘土矿物的增加,风化岩石一般颜色变浅,若原岩富含铁质矿物,则其颜色多呈红色、砖红色或黄褐色,岩石变得疏松。
现以八种岩石样品的风化面和新鲜面光谱为例,讨论风化作用对岩石光谱产生的影响。绿帘石化二长岩新鲜表面为肉红色,风化面为灰白色。风化面较新鲜面的反射率要低,并且出现Fe2 O3 的宽缓谱带,使反射率自1400 nm向短波长方向产生较大幅度的下降。在2200 nm和2300 nm附近出现了由表生粘土矿物产生强烈的轻基吸收谱带(图8.15(a))。
花岗片麻岩风化面与新鲜面光谱的波形特征及吸收谱带特征基本相近,风化表面整体反射率较新鲜面明显要低(图8.15(b))。
白云岩新鲜面光谱在2300 nm附近的碳酸根强吸收特征,在风化面光谱中强度明显变弱,但在2000nm~2200nm之间却出现一些弱的碳酸根和轻基吸收带(图8.15(c)),表明风化作用产生的粘土矿物是影响白云岩碳酸根光谱特征的最主要原因。
石墨黑云斜长片麻岩风化作用较弱,风化光谱反射率整体下降,对比度降低,吸收谱带明显变弱,是含有较多不透明矿物所致(图8.15(d))。
图8.15(e)为风化程度不同的黑云母斜长片麻岩的光谱,风化程度的加强使轻基谱带强度增大,尤其是1900 nm附近水分子谱带为最,表明水分子含量随着风化程度的加深而增多。
风化作用的加强引起铁离子谱带的增强,并且由于岩石表面所含水分子和轻基的排布更为无序而引起的轻基吸收谱带的宽化。
褐铁矿化钾长岩样品的风化程度较弱,风化面光谱反射率较新鲜面要高,铁离子吸收谱带更强,其余吸收谱带特征变化不明显(图8.15(f)),说明风化程度较弱,表生粘土矿物较少生成。
图8.15 新鲜面和风化面岩石反射光谱
a—绿帘石化二长岩;b—花岗片麻岩;c—白云岩;d—含石墨黑云斜长片麻岩;e—褐铁矿化黑云母斜长片麻岩;f—褐铁矿化钾长岩;g—黑云母斜长片麻岩;h—角闪黑云斜长片麻岩
角闪黑云斜长片麻岩风化面Fe3+光谱的影响更为强烈,已掩盖了Fe2+在1100nm附近的吸收特征,而形成一宽缓的吸收谷,并且水分子的吸收特征也更加明显。
风化引起的岩石光谱变异,不同岩类表现形式不同,加上风化表面可能含有外来物质,更增加了其复杂性。一般说来,随着风化化学作用的加强,原岩中Fe2+氧化为Fe3+,使大多数岩石的铁离子谱带位置向短波长方向略有漂移,强度也会有所加强。而阴离子基团产生的谱带位置、波形和偏倚性都较为稳定,轻基和水的谱带强度大部分得到加强。由于风化作用可能产生的新的粘土矿物,风化面光谱中有时会出现新的谱带。物理风化占主导作用的岩石1930 nm附近水分子的谱带往往变强。深色岩石风化后往往生成高岭石等浅色矿物使表面颜色变浅,反射率增高。富含 Al2 O3 , CaO, Na2 O, K2 O, SiO2 等的颜色较浅的岩石,风化后由于铁、镁矿物的相对富集和表面覆盖的岩石漆层的影响,颜色变深,光谱反射率降低,Fe3+,Mg-OH和结合水分子的谱带可能出现或加强,
8.2.2.2 酸性火成岩
从酸性→中性→基性→超基性岩的逐步过渡,1400nm,1900nm的OH-和水谱带的强度迅速下降。这些谱带可以作为酸性岩的重要鉴定标志。标示着在低温(600~800℃)的酸性岩中必定有多种形式的水存在,因为低温酸性岩是由富含水蒸气的岩浆结晶形成的。这些水的存在也常常使长石发生晚期蚀变形成绢云母,同时产生轻基谱带。
8.2.2.3 中性火山岩
中性火山岩的镁铁质副矿物虽然有可能产生Fe2+和Fe3+的光谱特征,但是在大多数情况下呈现的最清晰的谱带仍然是蚀变产物的水谱带和轻基谱带。对火成岩来说,粗斑状的侵入岩所产生的谱带,总是比它们的喷出岩更为显著。此类岩石的光谱可分为两类:曲线平坦而无光谱特征的和反射率从短波到长波逐渐增加的。后一种情况的光谱,在700~1000 nm 之间往往出现铁的特征谱带,在1400 nm和1900 nm附近及2200~2500 nm之间,常伴有一些轮廓模糊的谱带,比蚀变的酸性岩谱带还要窄一些。由于存在大量的不透明的磁铁矿及角闪石和黑云母等暗色矿物,故所有中性岩的光谱反射强度偏低。
8.2.2.4 基性或超基性岩
除了苏长岩以外,基性岩光谱中通常仅见的光谱特征是由铁所产生的1000 nm附近的谱带,这些谱带一般宽而弱。除非发生蚀变或风化,否则一般不出现1400nm,1900nm的轻基谱带。除了斜长辉长岩,基性岩的反射率都较低。这是因为存在大量的暗色镁铁矿物,特别是大量磁铁矿和其他不透明矿物。与基性岩相比超基性岩的光谱总在1000nm附近出现一个轮廓十分清晰的Fe2+谱带,并且在1800nm附近常出现谱带,它是高度无序的八面体位上Fe2+的典型特征。Adams(1968),Adams和McCord(1972)曾经利用这两个特征谱带(1000,1800nm)位置之间的关系作为辉石类斜方辉石类的镁-钙含量的鉴定依据。
基性或超基性岩的光谱在可见光和近红外区Fe2+,Fe3+,Cu2+,Mn2+等离子的跃迁谱带的强度远远大于短波红外上的OH-,H2O,Al-OH,Mg-OH基团的振动谱带。Ross等人(1969)根据经验发现:用于鉴别岩石类型的最佳有效的波长比值是500nm/2300~2500nm,2300nm/1450nm 和2350/1950 nm。这些比值与轻基和水谱带的相关性是十分明显的。遗憾的是,对遥感应用来说,1400nm,1900nm附近也正好是大气干扰最严重的谱段。
8.2.2.5 沉积岩的光谱
沉积岩光谱中的光谱特征一般都很清晰,除非由于有不透明的碳质物质而被掩盖之外。主要是碳酸根的谱带,风化产物粘土矿物的谱带,Fe2+和Fe3+氧化物的谱带。位于2350nm附近的谱带是反对称的CO伸缩振动第二倍频v3及CO的对称伸缩振动的合频v1 ,以及v2的面外弯曲振动的第一倍频产生的,后者的谱带最强,其最低值位于2500~2600nm,伴随出现较弱的谱带在1900nm,2000nm,2200nm附近。这些弱谱带常被1400nm,2200nm 或2300nm 附近的粘土的 OH 谱带一级1400nm,1900nm附近的水谱带所淹没。Fe2+的谱带出现在1000nm附近,而Fe3+氧化物则是光谱强度向蓝光方向下降,并在500 nm和850 nm附近出现可识别的大谱带。
8.2.2.6 变质岩的光谱
通过分析测试大理岩、石英岩、片麻岩、板岩和片岩等变质岩的光谱,发现在400~2500 nm变质岩的清晰光谱特征主要是碳酸盐、轻基、水(液态包体水)和硼酸盐的振动倍频和合频引起的,或者由铁、锰或铬的电子跃迁过程引起的。
『伍』 如何获得自己想要的数据呢
给你点代码,就怕你不懂,呵呵呵
/// <summary>
/// HTML数据获取处理
/// </summary>
public class RegexString
{
/// <summary>
/// 选择正则表达式
/// </summary>
/// <param name="index">正则编号(1:页码;2、分析页面数据;3、净化数据)</param>
/// <returns>正则表达式</returns>
public string SelectRegexString(int index)
{
switch (index)
{
case 1:
return @"(?i)(?<=<option value=)\d+|\d+(?=</select>)";//获取总页码
case 2:
return @"(?i)(?<=<td><DIV id=.*>).+(?=nbsp;</DIV></td>)";//分析页面数据
case 3:
return @"(?<=>)[A-Z]*\d+(?=<)";//净化数据
default :
return "";
}
}
/// <summary>
/// 返回分析数据
/// </summary>
/// <param name="regexString">正则</param>
/// <param name="html">HTML</param>
/// <param name="group">分组长度</param>
/// <returns>数据</returns>
public List<string> GetData(string regexString,string html,int group)
{
List<string> result = new List<string>();
Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(html);
for (int count = 0; count < mc.Count; count++)
{
Match m = mc[count];
for (int index = 0; m.Groups[index].Value != ""; index++)
{
string value = m.Groups[index].Value;
if (count % group != 2)
value = Regex.Replace(value, "&", "");
if (value == "")
{
result.RemoveRange((result.Count / group) * group, result.Count % group);
count = (count / group) * group + group - 1;
break;
}
result.Add(value);
}
}
return result;
}
/// <summary>
/// 返回分析数据
/// </summary>
/// <param name="regexString">正则</param>
/// <param name="html">HTML</param>
/// <returns>数据</returns>
public List<string> GetData(string regexString, string html)
{
List<string> result = new List<string>();
Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(html);
for (int count = 0; count < mc.Count; count++)
{
Match m = mc[count];
for (int index = 0; m.Groups[index].Value != ""; index++)
{
result.Add(m.Groups[index].Value);
}
}
return result;
}
}
『陆』 怎样能获取数据
要想获取数据有很多渠道比如说你可以编写爬虫程序在网上进行爬去数据或者直接复制电脑里的的数据
『柒』 数据的采集
数据的采集是获取已生成的“裸文件”和捕捉的“纯数据”的行为。除“裸文件”和“纯数据”外,还有它们的结构信息、数据的背景信息。结构信息与背景信息在地质资料管理中又称元数据。内容信息与纯数据是采集的主体,结构信息与背景信息是用来说明这些“裸文件”、“纯数据”内容和数据是什么,是由谁生成的,什么时候生成的,“裸文件”生成后是否经过改动,数据的现场处理过程,生成时的设备和软件平台备忘。结构信息与背景信息的采集目的是为了保证信息整体有用性和完整要求。数据是采集来的,哪些数据需要采集,它的模板设计就涉及地质找矿工作研究与地质资料管理上的需要,一般由地质研究人员、地质资料管理人员共同商定。
在地质资料管理程序中,本来是在归档过程中出现的程序性工作提到“前端”来了。于是,档案管理工作中的鉴定与数据仓库中的数据采集工作中的数据审查部分重合了。有人将数据采集工作项,必须采集的数据设计成工作表,嵌入到相关软件中,对数据的真实性进行专人审计验收把关并签字以示责任,同时按照既定的元数据体系,录入电子文本、数据体的结构信息与背景信息。如数据生成的仪器设备型号(如录井仪型号、测井仪型号、色谱仪型号等)、工程施工单位、责任人、数据或电子文本格式,生成时间、关键词、主题词或著录项等。这些电子文件与数据是数据池建设所需要的资源,也是地质资料需要前端控制的元数据。
『捌』 什么是数据采集
什么是数据采集
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
数据采集的三大要点:
采集的全面性:采集的数据量足够大具有分析价值、数据面足够支撑分析需求。比如查看app的使用情况这一行为,我们需要采集从用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。
采集的多维性:数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看app的使用情况”这一行为,我们需要采集用户使用的app的哪些功能、点击频率、使用时常、打的app的时间间隔等多个属性。才能使采集的结果满足我们的数据分析!
采集的高效性:高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
数据采集的四大步骤:
明确数据需求:
由于客户所处行业不同,诉求也就各不一样。所以首先必须明确客对于数据的最终用途,确定客户需求。根据客户所需搜集的数据信息与客户沟通之后,总结需要收集的字段。
2.调研数据来源:
根据客户需求确定数据采集范围。然后锁定采集范围和对采集的数据量进行预估。细化客户需求,研究采集方向。
3.确定用什么采集工具、软件、代码
面对不同的网站我们只有选择更加合适的组合才能使采集结果更加有效。
4.确定存储的方式:
根据采集量的大小对数据储存的方式进行划分。比较小的数据,一般使用excel表格存储;几千万的大型数据,选择数据库存储;对于GB级别的数据,就得用Hadoop、Spark、Redis等分布式存储和处理技术的方法才能做到较好的管理和计算。选择正确数据存储的方式使客户对数据的使用与管理更加便捷。
『玖』 有哪些的数据获取方式
常用的数据获取方式有:
1、公开信息及整理
比如统计局的数据、公司自己发布的年报、其他市场机构的研究报告、或者根据公开的零散信息整理;
2、购买的数据库
市场上有很多产品化的数据库,比如Bloomberg、OneSource、Wind等等,这个一般是以公司的名义买入口,不光咨询公司还有很多高等院校及研究机构也买了;
3、自己的数据库
自己维护的数据库有,但是比较少,一是专业的数据公司差不多能想到的都做了,二是自己做数据库其实是一件很麻烦的事情。在有些数据是外界无法得到的情况下有可能自己维护一个小型的数据库;
4、咨询行业专家
当然是有偿的,这个在项目中应该蛮常见的。有些行业专家会专门收集和销售数据,想要的基本能买到。
5、发问卷
有时候为了单独的项目也会收集很特别的数据,如果外界实在没有但是项目上没有不行就只有自己做了,比如自己发发问卷之类的,但是这类数据需求要控制工作量,因为除非数据本身是交付内容之一,要不然不能为了个中间件花费太多时间和精力;
6、客户
有些数据就是来源于客户,甚至是咨询公司的产品。举个例子,比如HR咨询公司的行业工资数据、四大的一些数据库等等,这些数据的采集需要比较强的专业性或者时间积累,很大一部分是通过调查客户的HR收集来的数据进行统计的。
『拾』 获取数据的主要方法是什么
获取数据方式
数据获取是指从各种设备获得有关各业务所需的流量、IP、次数、协议等网络传送的原始数据,从而对用户进行管理和计费。一般通过以下三种方式获取数据。
如果目前的IP宽带网络的对用户的接入采用的是以太局域网(LAN)的接入方式,则可以采用SNMP代理查询、网络捕获来获取用户流量数据;
如果用户接入采用的PPOE虚拟拨号接入的方式,则可以采用RADIUS认证方式来进行用户管理、数据采集和计费;
大多数的电信级运营商一般都采用RADIUS认证方式进行管理和进行新业务的扩展、管理。
应用效率源科技研发的VICS系统,其前端机VIE具有快速提取数据的功能,能够在短时间内提取数据,最高可以达到8G/min。
获取数据的定义
数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据量测是数据采集的基础。