如果邮件中的内容不能正常显示,请点击此处查看   如果不想再收此邮件,可取消订阅
 
  Hadoop与大数据周刊 2015-04-24 第64  
 
  后Hadoop时代的大数据架构  
后Hadoop时代的大数据架构 提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成“后Hadoop”平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。
 
  Apache Hadoop 2.7.0 发布  
日前,Apache Hadoop 社区正式宣布了 Apache Hadoop 2.7.0 到来!继去年年底 Hadoop 2.6.0 发布以来,这是2015年 Hadoop-2.x 第一次重大更新,带来很多功能改进,以及不再支持JDK6,仅支持 JDK 7+。
 
  系统管理员:容器时代下的“悲剧”  
没有人可以告诉你如何构建Hadoop吗?随意的下载无身份验证的Docker容器?容器简单易用,解放了系统管理员的双手,但这也让有些管理员过于依赖和信赖这项技术,忽视了对技术细节的把控能力,也忽视了安全。这是容器时代下的“悲剧”,还是系统管理员未尽其责?
 
  PaaS发展缓慢的原因究竟是什么?  
作者是Google App Engine的早期用户,对IaaS、PaaS的发展一直保持关注,作者分析了PaaS平台发展缓慢的原因,主要包括成本、lock-in以及用户习惯几个因素,但是作者认为这些都是暂时的,一个大规模PaaS的时代正在到来。
 
  14个最佳数据可视化工具  
如何学习应用数据可视化?这里是frrole联合创始人Nishith Sharma列举的14个最佳的数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。
 
  使用Spark和MemSQL Spark连接器运行实时应用  
Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势,但是它仍然需要将数据持久化存储,HDFS是最通用的选择,和Spark结合使用,因为它基于磁盘的特点,导致在实时应用程序中会影响性能(比如在Spark Streaming计算中)。而且Spark内置就不支持事务提交(commit transactions)。
 
  颠覆大数据分析之Spark弹性分布式数据集  
Spark中迭代式机器学习算法的数据流和Hadoop MR的迭代式机器学习的数据流想比,你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。
 
  Spark编程指南——Python版  
自开源之日至今,Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者,Spark一直保持着小而紧凑,使许多开发人员更容易理解,也让升级起来更加方便。快、通用让Spark如鱼得水,然而对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。近日@Cholerae从官网翻译了Spark编程指南Python版,并发布于其个人博客。
 
  Spark Streaming和Kafka整合开发指南(二)  
在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。
 
  如何使用Amazon Machine Learning构建机器学习预测模型  
本月上旬,AWS宣布推出亚马逊机器学习服务(Amazon Machine Learning)。AWS首席布道者Jeff Barr撰写了一篇博文,一步一步地介绍了如何使用亚马逊机器学习服务构建预测模型。
 
  让Kubernetes成为数据中心操作系统(DCOS)的一等公民  
在2015Container技术峰会上,Ray Tsang,Open Source Contributor,Sr. Developer Advocate at Google的演讲《Kubernetes: Hybrid Cloud Container Clusters》让我们对Kubernetes有了更深入的了解。而本文则在另一个层面对Kubernetes做了很好的解读。原文发于DockerOne公众号,作者是梁晓勇。
 
  亚马逊首次公布AWS业绩:2015年1季度AWS收入15.7亿美元,年增速超40%  
Amazon首次公布AWS业绩:2014年收入51.6亿美元,2015年1季度AWS收入15.7亿美元,年增速超40%。微软的最新财报显示其企业云服务年度收入达到63亿美元!
 
  Intel李锐:Hive on Spark解析  
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce,受限于其自身的Map+Reduce计算模式,以及不够充分的大内利用,MapReduce的性能难以得到提升。
 

  联系我们  
 
  Hadoop与大数据周刊  
  由CSDN和《程序员》杂志编辑与社区共同打造,涵盖大数据及Hadoop领域,萃取最精华Hadoop与大数据技术内容,每周四发送。  
  
  CSDN 移动客户端   CSDN官方微信    
CSDN 移动客户端CSDN官方微信
 
查看Hadoop与大数据周刊往期回顾,更多精彩内容尽在Hadoop个性阅读。欢迎向您的朋友推荐订阅本邮列表。
如果不想再收到该邮件,可以取消订阅