木星链 木星链
Ctrl+D收藏木星链
首页 > XMR > 正文

Cloud:董老师开讲了:系列一之大数据入门

作者:

时间:1900/1/1 0:00:00

?独立、敏捷的中美科技观察,硅发布微信号Guifabucom

作者董飞

在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年1月17日,排名和规模已经发生很大变化。

首先,估值在十亿美金的公司达到7家,而一年前都没有;第二,第一名是中国的小米;第三,前20名中,绝大多数比如Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。

所以,大家还是可以在移动、大数据、消费级互联网、通讯、支付及O2OApp里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。

第二,在Linkedin,每年会评选一个最有需求的创业公司名单,基本是结合Linkedin用户访问量和申请数做出的挖掘。下面,我列出最近3年数据,大家可以做个判别和趋势分析。

里面还是很靠谱的,比如不少上榜名单已成功IPO,里面有很多大数据领域公司,而除了之前看到的一些互联网项目,在一些医疗健康、智能硬件、在线教育也吸引很大注意力。

第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻2、3倍,例如在Uber、Snapchat上,我也惊讶他们的巨额融资规模和颠覆速度。

下面这张图,就是讲新事物的发展规律,这是硅谷孵化器YCombinator公开课Howtostartastartup提到的。一个新Idea加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离Peak也许才过去几个月。

但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从Quora网站流量、Tesla股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代,才能体会事物发展本质和踏实的意义。

第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《ImitationGame》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的42岁生命。

法国数据监管机构对巴黎Worldcoin办公室进行检查:金色财经报道,法国数据监管机构(CNIL)本周对巴黎Worldcoin办公室进行检查。CNIL是法国的独立监管机构,其任务是确保法国数据隐私法适用于个人数据的收集、存储和使用。今年7月,该部门表示正在调查Worldcoin,因为其生物识别数据的合法性“可疑”。[2023/9/3 13:15:10]

他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试,测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。

谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。

他认为未来机器会控制98%的人,而现在我们就要做个选择,怎么成为剩下的2%?李开复在2015年新年展望也提出未来五年物联网带来庞大创业机会。

大数据入门

接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。

这个大臣给国王看下面这个棋盘,是个8*8的方格,如果我在每个标号的格子内放米粒,第一个格子放1粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?

我们学过级数的话,可以快速做个演算,它的推演是1+2+4…+2^63=2^64–1。这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。

其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是2^32,这并不是个很大的数,其实前几年计算机的32位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机64位处理器,并无实际意义。

我们接着看看这张曲线图是信息时代的增长,其实工业革命前,世界人均GDP在1800年前的两三千年里基本没变化,而从1820年到2001年180年里,世界人均GDP从原来667美元增长到6049美元。

由此足见,工业革命带来的收入增长的确翻天覆地。这里面发生了什么?大家可以思考一下。但人类的进步,并没停止或者说稳步增长,在发明了电力、电脑、互联网、移动互联网,全球年GDP增长从万分之5到2%,信息也是在急剧增长。根据计算,最近两年信息量是之前30年总和,最近10年是远超人类所有之前累计信息量之和。

数据:比特币过去7天平均交易量达近1个月最高水平:6月4日消息,据Glassnode Alerts数据监测,比特币过去7天平均交易量刚刚达到近1个月的最高水平,为75,347.78美元。[2023/6/5 21:15:11]

在计算机时代,有个著名摩尔定律,就是说同样成本每隔18个月晶体管数量会翻倍,反过来,同样数量晶体管成本会减半。这个规律已经很好匹配了最近30年的发展,并且可以衍生到很多类似领域:存储、功耗、带宽、像素。

而最下面这个头像是冯诺伊曼,20世纪最重要数学家之一,在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点,在那后,全部人类行为都不可能以我们熟悉的面貌继续存在。

这就是著名的“奇点理论”,目前会呈越来越快的指数性增长,美国未来学家RayKurzweil称:人类能在2045年实现数字化永生,他自己也创办奇点大学,相信随信息技术、无线网、生物、物理等领域的指数级增长,将在2029年实现人工智能,人的寿命也将会在未来15年得到大幅延长。

我们再回到现在,地球上至今的数据量从GB、TB、PB、EB到达ZB,我们之前提出的2^64就相当于16EB的大小。

大数据有什么用?

所谓“学以致用”,大数据领域在各行业都可以应用,这里举几个有趣的例子。在Linkedin时,CEO提出“经济图谱”的概念,希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。

比如说找对象,有个国外极客,他抓取约会网站的数据,根据一些指标如地理、年龄、兴趣,建立下面的3D模型找到真爱;又如阿里巴巴通过数据魔方,提炼出消费跟女生胸部成正比的结论。

在移动App上,今日头条通过你的个人社会化信息,建起兴趣图谱推荐文章并随你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据”等等。

下面是2014年别人总结的大数据公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如Hadoop、Mahout、HBase和Cassandra,我在下面也会涵盖。

我可以举几个例子,在分析这块,Cloudera、hortonworks、mapr作为Hadoop三剑客,一些运维领域,mangodb、couchbase都是nosql代表,作为服务领域AWS和GoogleBigQuery剑拔弩张,在传统数据库,甲骨文收购了MySQL、DB2老牌银行专用,Teradata做了多年数据仓库。

Ledger设备支持在Astar Network上进行原生DApp质押:5月19日消息,Astar Network宣布,Ledger现在支持Astar Network上的原生质押。使用Ledger设备的ASTR代币持有者可以参与网络的Build2Earn质押系统和其他利用Wasm运行环境的DApp,同时能够享受Ledger硬件钱包的高安全性能。[2023/5/19 15:12:10]

上面的Apps更多,比如社交消费领域的谷歌、亚马逊、Netflix、Twitter、商业智能:SAP、GoodData,一些在广告媒体领域:TURN、Rocketfuel,做智能运维sumologic等等。最后还有个去年的新星Databricks伴随着Spark的浪潮震撼Hadoop的生态系统。

大数据之中国公司

对迅速成长的中国市场,大公司也意味大数据,BAT三家都是对大数据投入不惜余力,我4年前在百度时,百度就提出框计算的东东,最近两年成立硅谷研究院,挖来AndrewNg做首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。

腾讯作为最大社交应用对大数据也情有独钟,自己研发C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid有志之士,继续在OceanBase创造神话。

而阿里云当年备受争议,马云也在怀疑是不是被王坚忽悠,最后经历了双十一洗礼证明OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面,这么多数据几何级数增长;另一方面存储带宽都是巨大成本,没价值就真破产。

大数据相关技术,最紧密的就是云计算,我列出主要是AmazonWebService和GoogleCloudPlatform,在国内还有阿里云、金山云、百度云、腾讯云、小米云、360云、七牛……每个里面都是大量技术文档和标准,从计算到存储,从数据库到消息,从监控到部署管理,从虚拟网络到CDN,把所有一切用软件重新定义了一遍。

先来讲亚马逊的云。我本人在亚马逊云计算部门工作过,所有还是比较了解AWS,总体上成熟度很高,有大量创业公司都是基于上面开发,比如有名的Netflix、Pinterest、Coursera。

亚马逊还是不断创新,每年召开reInvent大会推广新的云产品和分享成功案例,在这里面我随便说几个,像S3是简单面向对象的存储,DynamoDB是对关系型数据库的补充,Glacier对冷数据做归档处理,ElasticMapReduce直接对MapReduce做打包提供计算服务,EC2就是基础的虚拟主机,DataPipeline会提供图形化界面直接串联工作任务。

Kyber Network的Polygon链上KyberSwap聚合器已启用并恢复正常:金色财经报道,去中心化流动性协议 KyberSwap 发文表示,聚合器已启用并恢复正常。用户可以重新开始使用,Kyber Network 团队将在聚合器上放置更多的监控资源。

今日早些时候,KyberSwap 团队表示聚合器在 Polygon 上遇到一个技术问题。所有资金都是安全的,团队正在努力使该服务完全恢复。所有其他链上的服务都正常运行。[2023/2/19 12:16:10]

这边还可以说一下Redshift,它是一种架构,是非常方便的数据仓库解决方案,就是SQL接口,跟各个云服务无缝连接,最大特点就是快,在TB到PB级别非常好的性能,我在工作中也直接使用,它还支持不同硬件平台,如果想速度更快,可以使用SSD的,当然支持容量就小些。

在数据库领域,我就列出三种代表,一类是关系型数据库管理系统,它的特点是A(Atomic)、C(consistent)、I(isolation)、D(duration),连起来就是ACID。简单说,就是支持事务回滚和外键关联,而NoSQL是与之对应的Base,所谓Basic可用,为了扩大Scale,牺牲一些一致性和事务。而谷歌提出F1,希望解决在大规模数据同时还要做到事务强一致性。在这里面都是非常常见的NoSQL,这些公司可能你都没听过,但它们都是融资过亿,估值都非常高,在几个Billion以上。

我会花一些篇幅介绍Hadoop,首先看Hadoop从哪里开始的,不得不提谷歌的先进性,在10多年前,谷歌出了3篇论文论述分布式系统的做法,分别是GFS、MapReduce、BigTable,非常牛逼的系统,但没人见过,在工业界很多人痒痒的,就想按其思想去仿作。

当时,ApacheNutchLucene作者DougCutting也是其中之一,后来他们被雅虎收购,专门成立团队去投入做,就是Hadoop的开始和大规模发展的地方,之后随着雅虎衰落,牛人去了Facebook、谷歌,也有成立Cloudera、Hortonworks等大数据公司,把Hadoop的实践带到各个硅谷公司。

而谷歌还没停止,又出了新的三辆马车:Pregel、Caffeine和Dremel,后来又有很多步入后尘,开始新一轮开源大战。

那么为啥Hadoop就比较适合做大数据呢?首先扩展很好,直接通过加节点就可以把系统能力提高,它有个重要思想是:移动计算而不是移动数据,因为数据移动是很大的成本需要网络带宽。

其次,它提出的目标就是利用廉价普通计算机,这样虽然可能不稳定,但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活,可以使用各种data,二进制、文档型、记录型。使用各种形式,在按需计算上也是个技巧。

Coinbase:对Genesis Trading零敞口:11月17日消息,Coinbase官方在社交媒体上发文表示其对Genesis Trading零敞口。[2022/11/17 13:14:14]

另一个问题,我们提到Hadoop一般不会说某个东西,而是指生态系统,在这里面太多交互的组件了,涉及到IO、处理、应用、配置、工作流。在真正的工作中,当几个组件互相影响,你的头疼的维护才刚刚开始。

我也简单说几个:HadoopCore就三个HDFS、MapReduce、Common,在外围有NoSQL:Cassandra、HBase,有Facebook开发的数据仓库Hive,有雅虎主力研发的Pig工作流语言,有机器学习算法库Mahout,工作流管理软件Oozie,在很多分布式系统选择Master中扮演重要角色的Zookeeper。

下面是Hortonworks提出的数据平台,这个公司比较强势,它有最多的HadoopCommittee成员,是真正的标准制定者,而2.0就是由它们提出。

在Hadoop1.0前,是0.16到0.19、0.20,还有一只是0.23进化成现在的2.0,应该说,现在大致都被2.0取代了,主要区别是1.0只能支持MapReduce框架、资源和数据处理限制在一起。

而2.0首先抽象出Yarn这个资源管理器,然后上层可以支持各种插件机制,便于扩展,Hortonworks还研发了Tez作为加速引擎把一些相关任务合并共享或者并行来优化。

下面这个是英特尔给出的HadoopStack,英特尔也是个对技术前沿由追求的公司,虽然它主业是处理器,但在互联网的时代,为抓住一些软件机会,它们也在积极融合,为生态系统做贡献。

另外,Cloudera是老牌Hadoop公司,成立7、8年了,当年Hadoop之父就是在那做首席架构,它提出的CDH版本是很多公司的稳定Hadoop版本,一般公司也不会自己去搭Hadoop最新版,否则出了Bug会很痛苦,它提供了一个打包方便部署。

涉及技术细节甚至源代码

下面内容涉及技术细节甚至源代码,可能有些枯燥,我也尽量深入浅出。我们先说HDFS,所谓Hadoop的分布式文件系统,它是能真正做到高强度容错。并且根据locality原理,对连续存储做了优化。

简单说,就是分配大的数据块,每次连续读整数个。如果让你自己来设计分布式文件系统,在某机器挂掉还能正常访问该怎么做?首先需要有个master作为目录查找,那么数据节点是作为分割好一块块的,同一块数据为了做备份不能放到同一个机器上,否则这台机器挂了,你备份也同样没办法找到。

HDFS用一种机架位感知的办法,先把一份拷贝放入同机架上的机器,然后在拷贝一份到其他服务器,也许是不同数据中心的,这样如果某个数据点坏了,就从另一个机架上调用,而同一个机架它们内网连接是非常快的,如果那个机器也坏了,只能从远程去获取。这是一种办法,现在还有基于erasurecode本来是用在通信容错领域的办法,可以节约空间又达到容错的目的,大家感兴趣可以去查询。

接着说MapReduce,首先是个编程范式,它的思想是对批量处理的任务,分成两个阶段,所谓的Map阶段就是把数据生成key、valuepair再排序,中间有一步叫shuffle,把同样的key运输到同一个reducer上面去,而在reducer上,因为同样key已经确保在同一个上,就直接可以做聚合,算出一些sum,最后把结果输出到HDFS上。对应开发者来说,你需要做的就是编写Map和reduce函数,像中间的排序和shuffle网络传输,容错处理,框架已经帮你做好了。但据说,谷歌内部早不用这种,又有新的强大工具出现了。

HBase就是对应的BigTable的克隆版,它是基于列的存储,可以很好的扩展型,这里面出现了Zookeeper作为它高可靠性的来源,我们在分布式系统中经常怕SinglePointofFailure,它能保证在少于一半节点损害情况下,还是可以工作的。

这里的regionserver是说把数据的key做范围划分,比如regionserver1负责key从1到1w的,regionserver2负责1w到2w的,这样划分之后,就可以利用分布式机器的存储和运算能力了。

虽然MapReduce强大,但编写很麻烦,在一般工作中,大家不会直接写MapReduce程序。有人又开动大脑,简化开发。Hive的简单介绍,它主要是Facebook开发,确实很容易上手,如果做datascientist,经常也要用到这个工具。

我们想MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有事情必须要转化成两个操作,这本身就很奇怪,也不能解决所有的情况。那么下面就看看有什么可以做的更好的。

Spark介绍

我还是介绍一些Spark的起源。BerkeleyAMPLab,发表在hotcloud是一个从学术界到工业界的成功典范,也吸引了顶级VC:AndreessenHorowitz的注资。

AMPLab这个实验室非常厉害,做大数据、云计算,跟工业界结合很紧密,之前就是他们做mesos、hadooponline,在2013年,这些大牛从BerkeleyAMPLab出去成立了Databricks,引无数Hadoop大佬尽折腰,其实也不见得是它们内心这么想,比如Cloudera也有自家的impala,支持Spark肯定会让它自家很难受,但如果你的客户强烈要求你支持,你是没有选择的

另外起名字也很重要,Spark就占了先机,它们CTO说WhereThere’sSparkThere’sFire,它是用函数式语言Scala编写,Spark简单说就是内存计算框架,之前MapReduce因效率低下大家经常嘲笑,而Spark的出现让大家很清新。Reynod作为Spark核心开发者,介绍Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100。

那为啥用Spark呢?最直接就是快啊,你用Hadoop跑大规模数据几个小时跑完,这边才几十秒,这种变化不仅是数量级的,并且是对你的开发方式翻天覆地的变化,比如你想验证一个算法,你也不知道到底效果如何,但如果能在秒级就给你反馈,你可以立马去调节。

其他的如比MapReduce灵活啊,支持迭代的算法,ad-hocquery,不需你费很多力气花在软件搭建上。如果说你用Hadoop组建集群、测试、部署一个简单任务要1周时间,Spark可能只要一天。在去年的Sortbenchmark上,Spark用了23分钟跑完100TB的排序,刷新之前Hadoop保持的世界纪录。

下面这个图,是Hadoop跟Spark在回归算法上比较,在Hadoop世界里,做迭代计算是非常耗资源,它每次的IO序列画代价很大,所以每次迭代需要差不多的等待。而Spark第一次启动需要载入到内存,之后迭代直接在内存利用中间结果做不落地的运算,所以后期迭代速度快到可以忽略不计。

此外,Spark也是一个生态系统,除核心组建Spark,它也可以跑在Hadoop上,还提供了很多方便的库,比如做流式计算,SparkStreaming,比如GraphX做图的运算,MLBase做机器学习,Shark类似Hive,BinkDB也很有意思,为达到高效,它允许你提供一个误差概率,如果你要求精确度越低,它运算速度就越快,在做一些模糊计算时像Twitter的Follower数目,可以提高效率。

所以总体说,Spark是一个非常精炼的API,提供常用的集合操作,然后本身可以独立运行,或在HadoopYarn上面,或者Mesos,而存储也可以用HDFS,做到了兼容并包,敏捷高效。是不是会取代Hadoop或成为Hadoop的下一代核心,我们拭目以待!

如何学习大数据

那同学们如果问如何开始学习大数据,我也有一些建议,首先还是打好基础,Hadoop虽然火热,但它的基础原理,都是书本上很多年的积累,像Unix设计哲学、数据库的原理;

其次是选择目标,如果你想做数据科学家,我可以推荐Coursera的数据科学课程,通俗易懂,学习Hive、Pig这些基本工具;如果做应用层,主要是把Hadoop的一些工作流要熟悉,包括一些基本调优;如果是想做架构,除能搭建集群,对各基础软件服务很了解,还要理解计算机的瓶颈和负载管理,Linux的一些性能工具。

最后,还是要多加练习,大数据本身就是靠实践,你可以先按API写书上的例子,能够先调试成功,在下面就是多积累,当遇到相似问题能找到对应的经典模式,再进一步就是实际问题,也许周边谁也没遇到,你需要些灵感和网上问问题的技巧,然后根据实际情况作出最佳选择。

本文版权归作者所有,转载未经作者授权,任何组织、机构或个人不得对作品实施转载。

标签:CloudHDFSHDFCloud币是什么币HDFS币是什么币HDF价格HDF币

XMR热门资讯
CEO:巾帼不让须眉 看30位中国创业女性

中国的女性光辉形象要追溯远古,盘古开天辟地之后化身山川江河平原草木,制造万物的任务则落到了女娲身上,这意味着没有女娲就没有生动的大自然.

1900/1/1 0:00:00
比特币:比特币8年涨了754万倍 但下个月它可能面临巨大风险

在ICO被紧急叫停、各大比特币平台宣布暂停人民币交易业务后,比特币价格再度上演过山车行情,从最低点的16661元到如今的即将破4万大关,只用了一个月的时间.

1900/1/1 0:00:00
区块链:【音频】下一个阿里巴巴出现了?

点上方金评媒JPM关注获取更多资讯 处于亏损状态的ETH地址数创7个月低点:3月22日消息,Glassnode数据显示,处于亏损状态的ETH地址数达到32,559,530.500,创7个月低点.

1900/1/1 0:00:00
OIN:股价持续低迷 国美斥资5.84亿港元回购

国美电器日前宣布,于2017年4月5日在香港交易所回购2590.9万股,耗资2772.26万港币,每股回购价格为1.07港元。公司可能根据实况进一步购回股份.

1900/1/1 0:00:00
区块链:如何辨别2015年新版100元人民币

2015年11月份发布了新版100元纸币,又称土豪金。但是验钞机刚开始认不了新版纸币。那么我们只能通过人工来辨别真伪了.

1900/1/1 0:00:00
比特币:比特币勒索病来袭!比特币究竟是什么?赎金为什么是比特币而不是美元或者人民币?

近日,勒索病在全球范围内爆发,中国的校园网也未能幸免,有学生毕业论文被病加密,只有支付价值三百美元赎金的虚拟货币才能解锁。用来支付赎金的虚拟货币,则是众人熟知却道不出所以然的比特币.

1900/1/1 0:00:00