贵州贵安新区发展得怎么样(数据中心给当地带来什么好处)
数据中心给当地带来什么好处,贵州贵安新区发展得怎么样?
一个地方有没有发展前景得看几个重要因素:政策支持、大环境发展趋势、主管领导的能力、发展方式的实效性等等。
首先看政策,贵安新区在政策层面肯定没有问题,国家层面的支持,贵州省本身更是下了血本一心打造一个亮丽的新区去跟其他省份争艳,所以这里的发展不愁没有政策扶持。
至于大环境的发展趋势,由于国家的脱贫任务,以及贵州近几年的GDP增长一直位居全国前列,贵安新区的发展当然也是符合大趋势的,而且有全国各地那么多发展成熟地区的参照,珠玉在前,应该会少走很多弯路,理论上可以得到较高质量的发展。
当然一个地方发展的如何,主管领导的能力是很重要的,比如说深圳市的领导就被调去雄安新区了,国家的用意不言自明。那么贵安新区主要领导的能力又如何呢?这就只能从她的执政往绩找答案了,据说现任领导之前是任职安顺市政府以及管理黄果树风景名胜区的,看看这些地方的经济发展情况就可以预判了。从中国发达地区的发展历程来看,一个地区的经济发展的健康,会体现在工商业发达,民间投资活跃(不是借贷),民间对社会投资投入度高,外来投资热情高涨,无需过多的政府投资、政府参与。这些特点在贵州正好相反,贵州大部分地区的外来投资者都会惨淡收场,这里面当然有很多深层次的原因,领导过于频繁的调动也不利于稳定的投资环境,新官不理旧账的现象比比皆是,借机打击报复的就更不用说了。另外由于贵州省很多地方政府欠债十分严重,这也导致一旦领导出现调整,新任领导确实没有意愿处理旧债,这就加重了地方政府诚信危机的问题。
现在贵州大部分地区包括贵安新区的发展模式都是过于依赖政府的投资驱动,用人话说就是烧钱找热闹,民间投资烧不起就找央企、国企烧,比如几年前提出的五个100工程,荒诞的提出建什么100个产业园区,请问现在这些园区建的怎么样?干嘛不晒出来让老百姓自豪一下?让大家看一下还有多少个园区正在正常发展嘛!烧这些钱当然GDP是上去了,问题是有含金量吗?现在依然有很多大规模征地拆迁后建的什么物流园区之类因欠款停摆,这对于珍贵的国家资金来说情何以堪?回说贵安新区吧,建成了大规模的大学城校区,仿如死城,为了盘活人气,据说竟然想到把部分政府部门搬进大学城,带动人气和盘活房地产,待活了之后再搬回去。小编最后一句总结,各种大规模、不合理的超前发展,领导能力的堪忧,希望仅是小编孤陋寡闻的偏见,也许贵安新区是朝气蓬勃、前途无量的,祝福!(附贵安新区平坝万亩樱花实景照片)
数字货币最终能够取代纸币吗?
很多人给出的答案,把法定数字货币、数字货币、人民币、纸质人民币搞混了,如果不懂就麻烦去查查资料再来回答,别误导他人可以么?首先要纠正几件事:
第一,数字货币是数字货币,法定数字货币是法定数字货币,两者虽然都是以区块链为底层技术研发出来“具有通证货币属性”的货币,但两者发行的背景、作用、意义都是不同的。区块链技术是近10年内诞生的技术,目前应用场景最熟悉的领域就是“数字货币”领域,也就是类似于股票市场的数字货币市场,它类似于期货、股票的性质,数字货币虽然不可控,但价格可控,大多数发行方(私人或私企,称之为项目方)都用来割韭菜、散户。
而法定数字货币与数字货币不同,它的发行方是国家主导的,旨在促进法定货币的流通量、流通范围、流通效率,且是锚定纸质法定货币价格的,纸质货币多少钱,法定数字货币就是多少钱;
第二,法定数字人民币与人民币本质上没有区别,我们可以统称为人民币,很多人说法定人民币的出现会替代人民币或纸质人民币,这根本是不可能的事情,也没必要替代。本身央行发型数字人民币其实就是为了促进人民币的流通,作为线上交易的通用货币存在,也就是说数字人民币和纸质人民币都是人民币两者都是互通、可互换的,根本不存在替代这一说;而且两种货币都是人民币,只不过是形态、应用场景不一样而已。
第三,央行发行数字人民币,对老百姓的影响并不大,之前老百姓怎么使用移动支付,未来数字人民币普及后也不会有太大的变化。可能我这么说会有很多人反驳我,我来举个通俗的例子说一下:
早些年刷银行卡交易,又是密码、又是签字的,后来随着移动支付的出现,扫码、指纹、面部识别即可轻松完成支付,而且只需要一部手机,这就是技术带来的便利性,老百姓使用着也很便捷。但除了搞技术研发之外,作为普通人有必要去了解如何实现指纹支付、面部支付么?根本不需要,因为这与我们使用它没有直接关系。
其实法定数字人民币也一样,研发出来流通之后,从发行到流通、到应用,那是发行方、银行、以及研发部门的事,咱们老百姓根本没必要去知道那么多,只要享受技术提升带来的红利就好了。很多人又去分析利弊,又去各种预测, 这种预测有什么实质性的作用么?
但秉承答疑解惑的出现,我来分以下几点说下数字货币的利弊:利:基于区块链技术的特性,不可篡改、私密性、可溯源、非对称加密,也就是说法定数字货币是不可伪造的;且可以更好的保护人们的隐私;只要保存好自己的账户、密码,甚至不用担心自己的账户会被盗,如果技术成熟的话,被盗的法定数字货币实际上是可以通过技术手段立马找回的。
最后还有一个作用,不知道还有多少人记得马云实行的跨境支付,就是应用区块链技术,实际上法定数字人民币也是具备这个功能的,也就是说法定人民币最大的作用是跨国界交易、支付。
弊:虽然说法定数字货币可以更好的保护人民的隐私,但基于它的可不篡改、伪造属性,同样也暴漏了自己的隐私,自己账户的资金流动、交易、收入支出也是可以理解为“被监控着”,且是那种无法掩盖的。
另外,法定人民币毕竟算是个新兴技术,虽然现在声称其不可破解,但未来是否能被破解也未可知,这可能会导致“某些质疑人士”认为其很危险。
而且,基于法定数字人民币的流通,是需要特殊载体(APP、冷钱包、热钱包等),可能前期在流通使用上有一定的限制,不过有国家作为背书,推动它是很简单的事。
数字货币最终能够取代纸币吗?我的观点是不能,要知道数字人民币的出现是为了促进人民币的流通,并不是为了要替代谁,而在数字货币的流通过程中,如果它的流通场景无限扩大,而线下又不需要纸质人民币了,那么纸质人民币才会消失。另外,除非是国家层次推动数字人民币去替代纸质人民币,不然在未来的十几年里,人民币还不会消失。而且两者本身都是人民币,也不存在谁替代谁的情况。
昨天美股历史性暴跌?
你以为美股是因为疫情而崩盘?太天真了一
我们得承认新冠病毒给世界经济带来的冲击,但要是把美股崩塌的最也盖在它头上,就有点冤了。
我们打开手机,看一下美国的疫情进展:
再看一下来自美疾控中心的数据:
2010年以来,美国每年的流感病例在900万至4500万之间, 与流感相关的死亡人数在1.2万至6.1万之间。
虽然,新冠疫情在美国可能还会爆发,但说实话,就目前的杀伤力远不及美国流感。那为什么一场疫情就把美国股市打成这样?
因为疫情只是压倒美股的最后一根稻草。
美国国债3个月短期国债收益率超过10年期国债收益率的现象,被称为“收益率曲线倒挂”。2019年5月27日出现过一次,2020年3月9日(今天)再次出现挂。
收益率曲线倒挂意味着什么呢?美国作为世界上唯一的超级大国,被视为世界上最安全的国家,美国国债因此通常被投资者视为避风港。当世界经济前景不明朗、有战争因素等风险时,国际资金就会流入美债避险;反之亦然。
债券收益率为什么会下降?是因为购买的人太多了,就好比余额宝刚出来的时候收益率达到4%以上,后来买的人越来越多,甚至跌倒2%。
中国人普遍认为,钱存在银行时间越长利息越高。可是,美国国债10年期收益率却小于了3个月期的。
这说明:国际资本开始大量涌入美国长期国债进行避险,结合上面说的,资本认为世界经济前景很危险。
1989年5月美债收益率出现倒挂,1990年7月美国经济便进入衰退;
2000年7月开始出现倒挂,2001年5月美国经济进入衰退;
2006年7月开始出现倒挂,2007的11月美国经济进入衰退。
然后是2019年5月和2020年3月... ...
历史显示,倒挂现象出现后,美国经济往往在一两年后出现衰退。
这是美股崩盘的第一个,也是最主要的原因。
二特朗普是最在乎美国股市的美国总统,没有之一。
在他执政期间,美股从18000突破了29000,足足涨了1万多点。2010年时,美国家庭总资产是72.7万亿美元,净资产为58.8万亿美元,2018开年总资产就涨到116.3万亿美元,净资产为100.8万亿美元。
选谁当总统不是看谁道德高尚、说得好,而是看谁给的利益多。你让大家赚到了钱,自然选你当总统,干了这届再来一届,你让大家亏钱,大家把你往死里骂。
美国人民就是这么现实。
整个2019年,特朗普指着鲍威尔鼻子骂了一年,明里暗里的给股市注水,大各公司心领神会,趁机回购股票,再推高股价,于是水涨船高,人人发财。
水太高了,早晚起浪,浪起来了早晚翻船。但特朗普明白,胜利再望,只要在坚持半年,他就能连任总统,之后翻船也没多大事儿了。
可是,他千算万算,没算到新冠病毒来了,国际资本借着这个由头,向美股发起珍珠港空袭。
2月27日:
高盛对华尔街发出严重警告:新冠肺炎疫情可能让特朗普输掉大选。
穆迪分析公司首席经济学家 赞迪 也说:美国经济在2020年上半年陷入衰退的可能性为40%,之前他预测为20%。
《金融时报》又强调:特朗普将把自己的声誉,押在他无法控制的事情上。
如果肺炎疫情蔓延,特朗普将输掉美国的经济增长和选民对他的信任,民~主党则一定穷追猛打,趁机将他赶下台。
如果民~主党上台,我们与特朗普谈好的贸易协定,会不会又发生变故?一切将让人难以捉摸。
这是第二个原因。
三美股的崩盘,看似是因为疫情,其实早就埋下了隐患,疫情是加速了它到来的时间。
若出现经济衰退,我们该怎样投资?
首先,危机之下,只能选择最安全的地方进行投资,纵观全球,只有中国和美国。你看A股跌了3个点,大骂辣鸡,其实澳大利亚股市早跌成狗了
第二,投资理念要发生改变,由激进变成保守。
简而言之,先少投资一些看起来高大上的,多投资一些很普通,但是老百姓生活又离不开的东西,我举几个简单的例子:
当你穷了的时候,你会去买奢侈品吗?不会,当你穷了的时候,你会去贷款买汽车吗? 不会,所以... ...算了,口下留情,
当你穷了的时候,你会去下饭馆? 会。享受美食是无论什么阶级都可以享受的一种全民解压、娱乐的方式。精英人士可以吃人均800的日料、白领可以享受人均150的海底捞、普通人可以吃人均80的乡餐厅、最不济的,还能买两瓶二锅头、半斤肘子在家嗨。所以,我认为疫情一旦缓和,食品消费类行业,一定会报复性反弹,其实现在他们表现的也很坚挺!
第三,配置黄金。
现在说大家觉得晚了,不买也罢,但你要长记性了,黄金一定是资产配置里必不可少的品种。风险来临时,比特币之类的,都是扯犊子。
医院为什么越来越多越大?
看了一下,已经作出的回答,认为总不那么完整,所以补充一下个人意见。
上世纪九十年代中期以前,很多中小医院,也是生意冷清的,大部分病床都空着等病人。医院真正开始繁忙,是农合医疗保险开始实施,大量农村病人看病可以报销的时候开始的,从此,医院都是人满为患。
出现这种情况,当然是钱的原因。以前老百姓没钱看病,有病都是在家耗着,等到要命了,才会去医院治疗。现在能报销了,当然是要去看。其实,大部分中老年人,或多或少都是有些疾病的。
所以,医院业务繁忙的第一大因素,就是医保的广泛普及。
医学每天都在发展,以前没病的,现在检查有病;以前自我感觉健康的,现在是亚健康,有些疾病在病发严重以前,根本没有症状,这种情况在以前检查不出来,现在能提前检查出来。比如肾衰病人,在到5期以前,病人都不会有多少感觉不适,到尿毒症后,发现贫血,血压高,少尿或无尿,检查发现肌酐高才会发现,只能终身透析治疗或器官移置了。还有很多肿瘤,早期也是没症状的,现在医院检查设备先进了,能早期发现,从而得到有效治疗。
因此,养成经常检查的习惯,可以尽早发现一些疾患,虽然有点为医院广告的嫌疑,可是有什么其他办法呢?
现实情况就是,医院就经常有病人住院只做检查的。这个可以归于健康意识的提升
医院病人的巨增,导致医院业务人员的需求增加,这些年,基本上每个医院都在招收各类医疗技术人员,医院的规模都在扩大,所以,大家都能看到,那些大型医院,经常在扩建门诊大楼,住院大楼,医技楼等等,这些都是医院规模扩大的表现。
医院盖楼,这里面学问深得很,在此不详述。医院漂亮,条件好,给病人的感觉是踏实放心,也有利于身体的康复。另外医院建设得很漂亮,条件很优越,还能吸引更多医术水平更精湛的医疗技术人员来工作,病人就更多了,对医院发展来说,这是一个良性循环。
医院盖楼的钱,一般都是银行贷款的。资本的注入,是医院能得发高速发展的另一重要因素
这些年经济在发展,可是很多人的思想并没有跟上社会发展的步伐,思想落伍,经济收入自然跟不上,这时很多人就不择手段搞经济。典型的就是广泛造假,尤其是食品假冒伪劣在很多地方依然非常猖獗,农药化肥超量使用,土地与环境污染屡禁不绝,大量劣质添加剂充斥其中,长期如此,严重地损坏了人民的身体健康。同时,暴饮暴食,没有节制的吃喝,导致很多慢性病,富贵病的发生。
所以,不健康的饮食,也是病人增加的原因。
随着人民生活水平的提高,人均寿命也得以大幅上升。解放前我国人均寿命才40多岁,就是到上世纪六七十年代,一个50来岁的人,看起来就很苍老了,人生七十古来稀,反观现在,70多岁的人比比皆是。但是人年纪大了,身体各项功能都会减退,免疫功能下降,疾病就多。老人多了,这是目前医院人满为患的核心因素。
现今社会,人手一部手机,有事没事就是看手机,家人交流少了,玩游戏看网剧多了,运动少了,熬夜多了,不健康的生活方式,也是导致很多疾病发生的原因。
医院的高楼,是一幢接着一幢,越来越漂亮,越来越大气,医疗服务的价格也是一山更比一山高。你有医保,你就能看得起病吗?那些药品,从药厂出来不过三块五块,到医院就要一百多,甚至几百块,医疗费用已经成为很多家庭肩上的重担。
大数据主要学习什么内容?
前言
要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C++等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C++或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等都有很多讲解了,也可以跟师兄师姐咨询,这样可以少走很多弯路,当然,有人说,走一些弯路总是有好处的,但是我这里说的弯路不是说不犯错误,不调bug,而是指学习资料以及一些知识点的偏重点,这样可以尽量节约一部分时间,刚开始时,总会有点迷,而且当你真正投入进去学习时,会发现时间总是不够用。
我前面是做的Java后端,后续才转的大数据,所以一些Java开发所需要的东西自己也有学习过,也都是按照正常的路线走的,JavaSE阶段,然后数据库,SSM框架,接着做了一些网上找的项目,之后发现对大数据比较感兴趣,就开始找大数据相关的资料学习,看视频,看博客,敲代码,前期大概花了3-4个月吧(公众号的这些资料就是我当时看过的),也是一步步艰难走过来的,刚刚开始接触大数据相关的东西时,一度怀疑这么多东西自己能否学得完,是不是能用得到,学完又忘了,忘了又回头看,不过还好,坚持过来了,还好没有放弃,工作也还ok,找的大数据开发岗,待遇也还不错吧。
下面就说一下我自己从Java开发到大数据开发的曲折学习之路(狗头保命.jpg)。因为我现在是做大数据相关的工作了,所以Java后端涉及到的一些SSM框架等知识点我就不介绍了,毕竟后续一段时间也没有做了。自己看过的大数据学习相关的视频+资料大概是200G-300G吧,从Linux->Hadoop->。。。->Spark->项目,还有就是一些面试文档,面经等。一些视频看了两遍或者更多,跟着学,跟着敲代码,做项目,准备面试。涉及到需要学习的东西包括:JavaSE,数据结构与算法(计算机行业必备),MySQL,Redis,ES(数据库这些可以看项目,也可以自己熟练一两个),Linux,Shell(这个可以后期补),Hadoop,Zookeeper,Hive,Flume,Kafka,HBase,Scala(Spark是Scala写的,会Scala做相关的项目会更容易入手),Spark,Flink(这个是找工作时有面试官问过几次liao不liao解,所以找完工作才开始接触学习),相关项目。
编程语言阶段学习如果是零基础的话,建议还是从视频开始入门比较好,毕竟一上来就看教材,这样有些代码的来龙去脉可能不是很了解。如果是有一些编程语言基础的话,从视频开始也会更简单,一些for、while循环你都知道了,学起来也会快很多。 JavaSE我是选择的某马刘意的为主,因为刚刚开始学Java看过一本从《Java从入门到精通》,没什么感觉,后续又在看了某课网的Java初级视频,还是没感觉出来啥(当时就有点怀疑自己了。。。),可能有点没进入状态。 还好后续找了某马刘意老师的JavaSE视频(我是看的2015年版本,那时候19版还没出),觉得他讲的真的是很好很详细,每个知识点都会有例子,也都会带你敲代码,做测试,可能前面有C语言基础,然后也看过Java的一些语法,所以学起来还是比较顺利,后面的IO流、多线程等知识点时,也有看书看博客,或者看看其他老师的课程,讲解的可能自己比较容易接受就可以,反正都是多尝试(下面会给出视频链接),尽量懂一些,后续可以回头来复习。JavaSE相关的视频,先看一遍,后续有时间建议再看一遍,而且这些经典的视频,看两遍真的是享受。 如果有一定基础了的,JavaSE前面七八天的视频可以加速看,但是不懂的一定要停下开仔细想想,零基础的还是尽量不要加速吧,慢慢来稳些。后面的视频建议还是跟着视频来,尽量不要加速,代码尽量都敲一敲,第一遍基本上一个月到一个半月可以结束。 JavaSE可以说是很基础也很重要的东西,主要重点包括面向对象、集合(List、Map等),IO流,String/StringBuilder/StringBuffer、反射、多线程,这些最好是都要熟悉一些,面试也是重点。 JavaSE之后,如果你是要走前端或后端开发路线的话,可以跟着一些网上的视频继续学习,这里我就不多做介绍了。
===========分割线,Scala可以后续Spark阶段再接触学习=============
Scala的学习,Scala是一门多范式 (multi-paradigm) 的编程语言,Scala支持面向对象和函数式编程,最主要的是后续Spark的内容需要用到Scala,所以前面学习了JavaSE,到Spark学习之前,再把Scala学习一波,美滋滋,而且Scala可以和Java进行无缝对接,混合使用,更是爽歪歪。后续Spark学习时基本都是用的Scala,也可能是和Java结合使用,所以Spark之前建议还是先学一波Scala,而且Scala用起来真是很舒服(wordcount一行代码搞定),适合迭代式计算,对数据处理有很大帮助,不过Scala看代码很容易看懂,但是学起来还是挺难的,比如样例类(case class)用起来真是nice,但是隐式转换学起来就相对比较难。学习Scala的建议:1. 学习scala 特有的语法,2. 搞清楚scala和java区别,3. 了解如何规范的使用scala。Scala对学习Spark是很重要的(后面Flink也是要用),虽然现在很多公司还是用Java开发比较多,而且Spark是Scala写的,如果要读源码,会Scala还是很重要的(至少要看得懂代码)。 Scala主要重点包括:隐式转换和隐式参数、模式匹配、函数式编程。这里我看的是某硅谷韩老师的Scala视频,韩老师讲的真的很不错,五星推荐,哈哈。 也许有人会觉得Python也是需要的,但是学习阶段,可能用Java还是比较多,面试也基本都是问Java相关的内容,所以Python后续工作会用到的话,再看看Python的内容吧。
大数据框架阶段学习大数据这方面的知识点自己可以说真的是从零开始的,刚刚开始学那会Linux基本都没用过,心里那个虚啊,而且时间也紧迫,想起来都是一把辛酸泪。 刚刚开始学的时候,看了厦门大学林子雨的《 大数据技术原理与应用》课程,可能这个课程是面对上课的,所以看了一些,感觉对自己帮助不是很大(并不是说课程不好,可能不太适合自己,如果是要了解理论知识,很透彻,但是俺时间紧迫啊),所以就继续在网上找视频,然后发现某硅谷的培训视频很多人去参加,而且知识点也很齐全,大数据相关组件都有讲课,还有一些项目比较好,所以就找了它相关的视频,当时看的是2018年的,所以视频不算旧。 来一张推荐系统架构的图,先看看
一般来说,Flume+Kafka对数据进行采集聚合传输,一方面Spark对实时数据进行处理,传输给相应的数据处理模块(比如实时数据处理的算法模块,Spark也有提供常见的机器学习算法的程序库),另一方面采集的数据也可以放入数据库(HBase、MongoDB等)中,后续MapReduce对离线数据进行离线处理,数据处理完毕用于后续的使用,数据采集处理的流程大概就是这样。如果是推荐系统,实时推荐会给用户产生实时的推荐结果,让用户进行查阅选择,比如你在界面浏览了或者看了新的物品,然后刷新下界面,可能给你展示的东西就有一些变成跟你刚刚浏览的相关了。离线推荐的话主要是对离线数据进行处理,为物品或种类做出相似的推荐,如果后续用户搜索相应的物品时,给用户展示相应的产品。
大数据学习路线:Linux -> Hadoop -> Zookeeper -> Hive -> Flume -> Kafka -> HBase -> Scala -> Spark -> 项目 - > Flink( 如果需要学习Storm,在Spark前面学习)
一、Linux(基本操作)一般我们使用的都是虚拟机来进行操作,所以要安装VM( Virtual Machine),我使用的是CentOS,所以VM和CentOS都要跟着安装好,跟着视频操作,一定要动手实践,将一些Linux基本命令熟练掌握,一些VIM编辑器的命令也要会用,做相应的一些配置,使用SecureCRT来做远程登录操作(也可以使用其他的,自己顺手就行)。再强调一遍,基本操作命令尽量熟练一点,如果一下记不住,打印一些常用的,自己看看,多用多实践,慢慢就会用了。还有一些软件包的下载安装卸载等,跟着操作一遍,熟悉下,后续都会使用,Shell编程可以后续补。
二、Hadoop(重点中的重点)Hadoop是一个分布式系统基础框架,用于主要解决海量数据的存储和海量数据的分析计算问题,也可以说Hadoop是后续整个集群环境的基础,很多框架的使用都是会依赖于Hadoop。主要是由HDFS、MapReduce、YARN组成。这个部分安装Hadoop,Hadoop的三个主要组成部分是重点,对他们的概念要理解出来,知道他们是做什么的,搭建集群环境,伪分布式模式和完全分布式模式的搭建,重要的是完全分布式的搭建,这些部分一定要自己动手实践,自己搭建集群,仔细仔细再仔细,Hadoop的NameNode,DataNode,YARN的启动关闭命令一定要知道,以及他们的启动关闭顺序要记住,不要搞混。后续视频会有一些案例操作,跟着写代码,做测试,把基本环境都配置好,后续这个集群(完全分布式需要三台虚拟机)要一直使用。
三、ZookeeperZookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。分布式安装ZK,对ZK有一定的了解就可以了,了解它的应用场景,以及内部原理,跟着做一些操作,基本上有一些了解即可。
四、Hive(重点)Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive的安装,它的数据类型,以及它的数据定义、数据操作有较好的了解,怎么操作表(创建表、删除表,创建什么类型的表,他们有什么不同),怎么操作数据(加载数据,下载数据,对不同的表进行数据操作),对数据的查询一定要进行实践操作,以及对压缩方式和存储格式要有一些了解,用到时不懂也可以去查,最好是能理解清楚。这部分有什么面试可能会问,所以视频后续的面试讲解可以看看,理解清楚。
五、FlumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。对于Flume,对它的组成架构,以及对Flume Agent的内部原理要理解清楚,Source、Channel、Sink一定要知道它们的各种类型以及作用,有哪些拓扑结构是常见常用的,例如一对一,单Source、多Channel、多Sink等,它们有什么作用,要理解清楚。还有一个重点,就是对Flume的配置文件一定要了解清楚,不懂的可以上官网查看案例,对于不同的情况,它的配置文件要做相应的修改,才能对数据进行采集处理,视频中的实践案例一定要跟着做。
六、Kafka(重点)Kafka是一个分布式消息队列,用来缓存数据的。比如说实时计算中可以通过Flume+Kafka对数据进行采集处理之后,Spark Streaming再使用Kafka相应的Topic中的数据,用于后续的计算使用。对于Kafka,要理解Kafka的架构,什么是Kafka,为什么需要Kafka,应用场景。基本的命令行操作要掌握,比如怎么创建删除Topic,怎么通过生产者生成数据,消费者怎么消费数据等基本操作,官网也是有一些案例可以查阅的。
七、HBase(重点)HBase是一个分布式的、基于列存储的开源数据库。HBase适合存储PB级别的海量数据,也可以说HBase是很适合大数据的存储的,它是基于列式存储数据的,列族下面可以有非常多的列,列族在创建表的时候就必须指定。所以对HBase的数据结构要有一定的理解,特别是RowKey的设计部分(因为面试被问到过,咳咳,所以点一下),对于它的原理要了解,一些基本操作也要都会,比如创建表,对表的操作,基本的API使用等。
八、Spark(重点中的重点)Spark是快速、易用、通用的大数据分析引擎。一说到Spark,就有一种哪哪都是重点感觉,哈哈。 Spark的组成可以看下图
Spark是基于内存计算的,对于数据的处理速度要比MapReduce快很多很多,而且数据挖掘这些都是要对数据做迭代式计算,MapReduce对数据的处理方式也不适合,而Spark是可以进行迭代式计算,很适合数据挖掘等场景。Spark的Spark SQL能够对结构化数据进行处理,Spark SQL的DataFrame或DataSet可以作为分布式SQL查询引擎的作用,可以直接使用Hive上的表,对数据进行处理。Spark Streaming主要用于对应用场景中的实时流数据进行处理,支持多种数据源,DStream是Spark Streaming的基础抽象,由一系列RDD组成,每个RDD中存放着一定时间段的数据,再对数据进行处理,而且是基于内存计算,速度快,所以很适合实时数据的处理。Spark MLlib提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。对Spark的核心组件、部署模式(主要是Standalone模式和YARN模式)、通讯架构、任务调度要有一定了解(面试问到了可以说一波),Spark Shuffle要好好理解,还有内存管理要知道,对Spark的内核原理一定要好好理解,不仅面试可能要用,以后工作也是有帮助的。
九、Flink(重点中的重点)Flink是一个框架和分布式处理引擎,用于对无界(有开始无结束)和有界(有开始有结束)数据流进行有状态计算。现在主要是阿里系公司使用的比较多,很多公司使用的还是Spark居多,而且Flink基本上都是和Spark很多功能大体上一样的,但是以后Flink和Spark孰强孰弱还有待时间的考验,不过Flink近几年越来越火了这是事实,所以如果有时间有精力的话,可以学一学Flink相关的内容也是很不错的。Spark和Flink主要都是在数据处理方面应用,在数据处理方面的话,离线数据处理:Flink暂时比不上Spark,Spark SQL优点在于可以和Hive进行无缝连接,Spark SQL可以直接使用Hive中的表;Flink暂时做不到这一步,因为官方不支持这一操作,Flink只能将数据读取成自己的表,不能直接使用Hive中的表。对于实时数据的处理:Flink和Spark可以说是平分秋色吧,而且Flink是以事件为驱动对数据进行处理,而Spark是以时间为驱动对数据进行处理,在一些应用场景中,也许Flink的效果比Spark的效果还要好些,因为Flink对数据更加的敏感。比如一秒钟如果触发了成千上万个事件,那么时间驱动型就很难对数据做细致的计算,而事件驱动型可以以事件为单位,一个个事件进行处理,相比而言延迟更低,处理效果更好。现在使用Flink的公司越来越多,有时间学习下,也算是有个准备。
项目阶段其实某硅谷的视频里面有很多大数据相关的项目,而且都是文档配代码的,B站上也有视频,学习期间可以跟着视频做两到三个项目,自己理清思路,把项目理解透彻,还是可以学到很多东西的。 根据自己情况,选择两到三个项目重点跟着做,理解透彻一点
大数据项目实战某硅谷的视频里面有很多大数据相关的项目,而且都是文档配代码的,学习期间可以跟着视频做两到三个项目,自己理清思路,把项目理解透彻,还是可以学到很多东西的。根据自己情况,选择两到三个项目重点跟着做,理解透彻一点。相关项目文档资料我已经放到网盘,GongZhongHao回复相应关键字获取领取方式。 相关项目、涉及技术框架及其B站链接(B站链接主要是为了有些小伙伴网盘速度限制,这样就下载文档资料即可)
书籍书籍部分直接云盘链接保存即可,这里我放两张Java开发和大数据开发我自己的书单(很多,路漫漫,吾将上下而求索~) Java后端书架:
大数据书架:
大概就这些,看完就需要很久了,大部分我也是需要的时候看相应的部分,所以有时间可以好好看下,不然就需要哪一部分看哪一部分,有助于学习即可。
最后大数据开发也是需要编程基础的,并不是学会使用这些框架怎么样就可以了,所以对于编程语言,数据结构与算法,计算机网络这些基础也是要的,这些基础知识也有助于自己以后的发展,如果是应届生校招的话,面试基本上都是JavaSE和数据结构与算法等的知识点,还有大数据组件相关的知识点,以及对项目的理解,这些都是要自己面试前准备好的,多看面经,多找面试题看,面几次,心里有谱了,后续面试就好了。 不管是从事什么样的计算机相关的岗位,编程都是很重要的,数据结构与算法特别重要,还有就是leetcode等编程网站刷题,提升自己的编程思维,后续笔试面试都要要的。 要将一行行代码看做一叠叠rmb,但是一行行代码能不能转换成一叠叠rmb,自己就一定要:坚持,多敲代码;多敲代码,坚持;坚持。