Hadoop与大数据周刊-CSDN 第64期

如果邮件中的内容不能正常显示，请点击此处查看

如果不想再收此邮件，可取消订阅


		2015-04-24 第64期

	后Hadoop时代的大数据架构
			提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成“后Hadoop”平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。

	Apache Hadoop 2.7.0 发布
	日前，Apache Hadoop 社区正式宣布了 Apache Hadoop 2.7.0 到来！继去年年底 Hadoop 2.6.0 发布以来，这是2015年 Hadoop-2.x 第一次重大更新，带来很多功能改进，以及不再支持JDK6，仅支持 JDK 7+。

	系统管理员：容器时代下的“悲剧”
	没有人可以告诉你如何构建Hadoop吗？随意的下载无身份验证的Docker容器？容器简单易用，解放了系统管理员的双手，但这也让有些管理员过于依赖和信赖这项技术，忽视了对技术细节的把控能力，也忽视了安全。这是容器时代下的“悲剧”，还是系统管理员未尽其责？

	PaaS发展缓慢的原因究竟是什么？
	作者是Google App Engine的早期用户，对IaaS、PaaS的发展一直保持关注，作者分析了PaaS平台发展缓慢的原因，主要包括成本、lock-in以及用户习惯几个因素，但是作者认为这些都是暂时的，一个大规模PaaS的时代正在到来。

	14个最佳数据可视化工具
	如何学习应用数据可视化？这里是frrole联合创始人Nishith Sharma列举的14个最佳的数据可视化工具，无论你是准备制作简单的图表还是复杂的图谱或者信息图，这些工具都能满足你的需要。

	使用Spark和MemSQL Spark连接器运行实时应用
	Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势，但是它仍然需要将数据持久化存储，HDFS是最通用的选择，和Spark结合使用，因为它基于磁盘的特点，导致在实时应用程序中会影响性能（比如在Spark Streaming计算中）。而且Spark内置就不支持事务提交(commit transactions)。

	颠覆大数据分析之Spark弹性分布式数据集
	Spark中迭代式机器学习算法的数据流和Hadoop MR的迭代式机器学习的数据流想比，你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写，而在Spark中则要简单得多。

	Spark编程指南——Python版
	自开源之日至今，Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者，Spark一直保持着小而紧凑，使许多开发人员更容易理解，也让升级起来更加方便。快、通用让Spark如鱼得水，然而对于1个年仅5岁的开源项目来说，其远谈不上尽善尽美，就比如文档相关。近日@Cholerae从官网翻译了Spark编程指南Python版，并发布于其个人博客。

	Spark Streaming和Kafka整合开发指南(二)
	在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。

	如何使用Amazon Machine Learning构建机器学习预测模型
	本月上旬，AWS宣布推出亚马逊机器学习服务（Amazon Machine Learning）。AWS首席布道者Jeff Barr撰写了一篇博文，一步一步地介绍了如何使用亚马逊机器学习服务构建预测模型。

	让Kubernetes成为数据中心操作系统（DCOS）的一等公民
	在2015Container技术峰会上，Ray Tsang，Open Source Contributor，Sr. Developer Advocate at Google的演讲《Kubernetes: Hybrid Cloud Container Clusters》让我们对Kubernetes有了更深入的了解。而本文则在另一个层面对Kubernetes做了很好的解读。原文发于DockerOne公众号，作者是梁晓勇。

	亚马逊首次公布AWS业绩：2015年1季度AWS收入15.7亿美元，年增速超40%
	Amazon首次公布AWS业绩：2014年收入51.6亿美元，2015年1季度AWS收入15.7亿美元，年增速超40%。微软的最新财报显示其企业云服务年度收入达到63亿美元！

	Intel李锐：Hive on Spark解析
	Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce，受限于其自身的Map+Reduce计算模式，以及不够充分的大内利用，MapReduce的性能难以得到提升。

联系我们


	Hadoop与大数据周刊
	由CSDN和《程序员》杂志编辑与社区共同打造，涵盖大数据及Hadoop领域，萃取最精华Hadoop与大数据技术内容，每周四发送。

	CSDN 移动客户端		CSDN官方微信

查看Hadoop与大数据周刊往期回顾，更多精彩内容尽在Hadoop个性阅读。欢迎向您的朋友推荐订阅本邮列表。
如果不想再收到该邮件，可以取消订阅