当前位置:谷粒网 > 生活妙招 > 正文

Big Data

作者:陆质彬 生活妙招 2023-04-04 23:48:58 阅读:24

Big Data(大数据),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软体工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

基本介绍

中文名:大数据外文名:Big Data或称:巨量资料包括:数据量、时效性、多样性

基本信息

Big Data大数据,谈的不仅仅是数据量,其实包含了数据量(Volume)、时效性(Velocity)、多样性(Variety)、可疑性(Veracity):Volume:数据量大量数据的产生、处理、保存,谈的就是Big Data就字面上的意思,就是谈海量数据Velocity:时效性这个词我有看到几个解释,但我认为用IBM的解释来说是比较恰当的,就是处理的时效,既然前头提到Big Data其中一个用途是做市场预测,那处理的时效如果太长就失去了预测的意义了,所以处理的时效对Big Data来说也是非常关键的,500万笔数据的深入分析,可能只能花5分钟的时间Variety:多变性指的是数据的形态,包含文字、影音、网页、串流等等结构性、非结构性的数据Veracity:可疑性指的是当数据的来源变得更多元时,这些数据本身的可靠度、质量是否足够,若数据本身就是有问题的,那分析后的结果也不会是正确的。

技术综述

Big Data是近来的一个技术热点,但从名字就能判断它并不是什幺新词。毕竟,大是一个相对概念。历史上,资料库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。然而,Big Data作为一个专有名词成为热点,主要应归功于近年来网际网路、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、监听感测器每分每秒都在产生数据,数以亿计用户的网际网路服务时时刻刻在产生巨量的互动……要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。在这种情况下,技术人员纷纷研发和採用了一批新技术,主要包括分散式快取、基于MPP的分散式资料库、分散式档案系统、各种NoSQL分散式存储方案等。10年前,Eric Brewer提出着名的CAP定理,指出:一个分散式系统不可能满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足两个。系统的关注点不同,採用的策略也不一样。只有真正理解了系统的需求,才有可能利用好CAP定理。架构师一般有两个方向来利用CAP理论。Key-Value存储,如Amazon Dynamo等,可以根据CAP理论灵活选择不同倾向的资料库产品。领域模型+分散式快取+存储,可根据CAP理论结合自己的项目定製灵活的分散式方案,但难度较高。对大型网站,可用性与分区容忍性优先权要高于数据一致性,一般会儘量朝着A、P的方向设计,然后通过其他手段保证对于一致性的商务需求。架构设计师不要将精力浪费在如何设计能满足三者的完美分散式系统,而应该懂得取捨。不同的数据对一致性的要求是不同的。SNS网站可以容忍相对较长时间的不一致,而不影响交易和用户体验;而像支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒级的不一致。

版权声明:本文内容由用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。转载请注明出处:https://www.gulizw.com/guli/68726.html

网友评论

  • 随机文章

  • 热门文章

  • 最新文章