|
巧用MapReduce+HDFS,海量数据去重的五大策略 |
|
随着数据体积的激增,“去重”已经成为众多大数据玩家的必然选择。其中,相比数据压缩、单实例存储,在减少存储、降低网络带宽、增强扩展性方面有着显著优势的重复数据删除应用的更为广泛。在哈希、二进制比较和增量差分之外,本文提供了一套新方案:使用MapReduce和HDFS实现重复数据删除,达到去重的目的。 |
|
|
【Cloud Edge第12期】Concurrent:Java大数据框架获400万美元融资 |
|
开源项目Cascading的开发者Concurrent在A轮融资中获400万美元。领投者为True Ventures和Rembrandt Venture Partners。其核心是基于Java框架,帮助企业无需关注MapReduce就可以在Hadoop集群上开发和部署企业级应用。 |
|
|
Basho开源Riak CS,与AWS S3兼容的云存储架构 |
|
Riak CS是一个多用户、分布式并与S3相兼容的开源云存储平台,其在分布式对象存储系统之上提供了横向扩展、高持久性以及低运营成本支出的服务。多文件块上传、强化多租户环境控制能力、支持GET范围请求和图形化工具是Riak CS V1.3版本的最新技术特色。 |
|
|
2013中国云计算大调查,每周大奖等你拿! |
|
在“第五届中国云计算大会”召开之际,CSDN特别推出“2013中国云计算有奖大调查”活动。凡完整填写调研问卷的朋友们,都有机会参加每周一次的抽奖活动!8名特等奖,16名优秀奖,24名幸运奖,等你来拿! |
|