|
Spark Streaming容错的改进和零数据丢失 |
|
在Spark 1.2版本中,我们已经在Spark Streaming中对预写日志(也被称为journaling)作了初步支持,改进了恢复机制,使得更多数据源零数据丢失有了可靠的保证。本文将详细地描述这个特性的工作机制,以及开发者如何在Spark Streaming应用中使用这个机制。 |
|
|
4月17-18日,OpenStack、Spark、Container齐聚OpenCloud 2015 |
|
OpenCloud 2015将于2015年4月16-18日在北京召开。大会将覆盖OpenStack、Spark、Container三大时下最热门的云计算大数据核心技术,主题聚焦技术创新与应用实践,来自Intel、微软、RedHat、HP、VMware、Kubernetes、百度、阿里、腾讯、华为、小米、京东、美团等机构的数十位超强影响力的嘉宾将发表重要演讲,深入分享他们各自的探索实践。 |
|
|
构建新一代容器云计算Big Data Platform最佳实践 |
|
Apache Mesos开源项目可以支持资源调度,以满足自动扩展Spark集群环境的需求。而使用Docker容器把Mesos/Spark包装起来,可以很好的解决资源隔离需求。本文介绍了Mesos框架及相关的实战,通过简单的辅助shell脚本,利用Docker快速的构建起了一套Mesos集群,并且成功部署了三个Mesos Framework(Marathon,Chronos,Spark)。 |
|
|
技术揭秘12306改造(二):探讨12306两地三中心混合云架构 |
|
本文首先描述12306系统与大型电商交易系统的主要差异和说明此差异为何需要巨大的计算资源来支撑; 再进一步探讨12306混合云设计的考量 - 安全性和系统资源扩展性,并说明为何只将“余票查询业务”放在阿里云提供服务。最后以论证的方式“推测”12306两地三中心的混合云架构设计。 |
|
|
CoreOS实践指南(八):Unit文件详解 |
|
Unit 文件具体的格式和可用的参数的知识正是通往 CoreOS 系统管理高手的必经之路。本文对 CoreOS 中的系统资源和服务起着管理作用的 Unit 配置文件做了比较深入的说明。特别是最后的 Unit 模板部分在一定程度上赋予了服务横向拓展的能力,在实际的项目环境中使用得相当普遍。 |
|
|
预测建模、监督机器学习和模式分类概览 |
|
本文全面地介绍了机器学习里的监督学习的主要概念,并对监督学习的典型工作流程进行了详细的解析,包括原始数据采集和特征提取、采样、交叉验证、规范化、特征选择则和降维、学习算法和超参数调整、预测误差指标和模型选择等,具有很好的实践指导意义。 |
|