|
整合Kafka到Spark Streaming——代码示例和挑战 |
|
作为一个实时大数据处理工具, Spark Sreaming近日广受关注,但Verisign实验室大规模数据分析基础设施的技术主管Michael认为,缺少与Kafka整合,任何实时大数据处理工具都是不完整的。本文中,作者详细介绍了如何将示例Spark Streaming应用程序添加到 kafka-storm-starter,并且示范如何从Kafka读取,以及如何写入到Kafka,还使用Avro作为数据格式,以及Twitter Bijection进行数据序列化。 |
|
|
CoreOS实践指南(二):架设CoreOS集群 |
|
作为一个操作系统,CoreOS 采用了高度精简的系统内核及外围定制,将许多原本需要复杂人工操作或者第三方软件支持的功能在操作系统级别进行了实现,同时剔除了其他对于服务器系统非核心的软件,比如GUI和包管理器。来自ThoughtWorks的软件工程师林帆将带来“漫步云端:CoreOS实践指南”系列文章,带大家了解CoreOS的精华和推荐的实践方法。本文为基础第二篇:架设CoreOS集群。 |
|
|
勿谈大,且看Bloomberg的中数据处理平台 |
|
中数据意味着数据体积已经超越单服务器处理的上限,但也无需使用数千台节点组成的集群——通常是TB级,而不是PB级的。这里,我们不妨走进Bloomberg的用例,着眼时间序列数据处理上的数据和体积挑战。 |
|
|
Google Kubernetes设计文档之Volumes |
|
Kubernetes是Google开源的容器集群管理系统,构建于Docker之上,为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等功能。Volume是一个能够被容器访问的目录,它可能还会包含一些数据,本文介绍了Kubernetes中Volumes的使用情况。 |
|
|
分布式存储与数据库选型问答整理分享 |
|
近日,在大数据基础设施微信群中,大家就存储系统选型的问题展开了讨论,CSDN在这里稍微将各位专家的问答总结了一下,分享给大家。参与讨论的专家有中国科学院软件研究所工程师,C3核心成员李明宇,国防科学技术大学教授,CCF大数据专家委员会委员李东升,云人科技联合创始人兼CEO吴朱华,Memblaze技术顾问刘爱贵等等。 |
|