|
“夫妻档”初创公司百万美元打造实时Hadoop系统 |
|
Hadoop变得更加重要。从Twitter、eBay到LinkedIn,再到Facebook,几乎所有互联网巨头都在想方设法将Hadoop平台推向应用的极致。但面对各类Hadoop批处理系统,如何使其变得更为实时与可操作?凭借着独特的创意理念,已经运营两年的云计算初创公司HStreaming成功筹得一百万美元,用以打造一个实时的Hadoop系统。有意思的是,HStreaming是不折不扣的“夫妻档”:CTO是Volkmar Uhlig,CEO是其夫人Jana Uhlig。 |
|
|
开源存储硬件:8000美元存储135TB数据 |
|
云存储初创企业Backblaze于2009年率先提出开源存储硬件的理念,并付诸实践。其代表性技术方案——第一代与第二代的Storage Pod,已经被数百家企业与机构,包括Netflix和Shutterfly所使用。第三代技术参数日前已经公布,核心为:将135TB数据放到一个4U机架中,所花费的成本少于8000美元,即每GB成本只有5美分左右。 |
|
|
Impala是如何提升3~90倍查询效率的? |
|
Impala团队工程师Nong Li在《Inside Cloudera Impala: Runtime Code Generatio》一文中详细介绍了Cloudera如何使用生成runtime代码来提升CPU效率,节省查询运行时间。尽管目前Impala 0.5版本中仍然还有部分执行路径没有被转化为本地代码,但大部分的代码补丁将会集成在即将推出的GA发行版中。 |
|
|
Facebook核心数据团队:开源工具与工程师同等重要 |
|
一次路透数据服务崩溃的经历,让Jeff Hammerbacher意识到数据管理工具与运维工程师同等重要。作为Facebook数据服务的奠基人,他和他的团队搜集并创建了许多处理数据的工具,如Scuba、Prism、Corona等。这些工具正管理着号称全球最大的Hadoop集群。有些已经开源,有些正在准备开源。 |
|