博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
英特尔段建钢:Spark将成为下一代大数据的标准
阅读量:6247 次
发布时间:2019-06-22

本文共 1002 字,大约阅读时间需要 3 分钟。

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用 Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。 Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀。

9月18日,在长沙举办的第九届政企信息化策略研讨会中,来自英特尔的高级技术经理段建钢带来了“大数据技术发展剖析”的主题演讲。Hadoop改变了处理数据方式,但相较于Hadoop,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越。

英特尔的高级技术经理 段建钢

段建钢指出,当前很多人都在谈论大数据,但如何落地这是个问题,用户关心的往往是如何用大数据解决业务上的问题。而如何运用大数据就需要从底层基础设施,到上面数据平台、分析能力和解决方案,这一系列环节的优化。

英特尔推出了Apache Spark,为Hadoop集群带来了速度极高的内存内分析能力,从而将大规模数据集的处理周期由几小时成功缩短为几分钟。目前英特尔和优酷合作,帮助优酷将传统业务迁移到Spark上,优化大数据分析,分析时间从40个小时缩短到3个小时以下。

“Spark会成为下一代大数据的标准。”段建钢说道。未来英特尔将与技术界、学术界一起推动生态系统的发展。

Cloudera解决方案架构师陈建忠指出,1980年代企业应用以流程为中心,并包含以结构化数据为主、只包含内部数据以及只包含“重要”的数据三大特点。而到了当今时代,数据变成信息为中心的企业使用的所有数据,以及包含内部和外部数据的所有类型的多层结构。

Cloudera解决方案架构师 陈建忠

Cloudera进入中国以来,在金融、高校、气象等领域拥有了多个成功应用案例,帮助客户实现基于统一的平台和数据进行多样化的自助分析,改善客户的服务能力和服务效率,大大节约了投资成本。此外,Cloudera致力于加速Spark的社区开发和提高企业部署,从管理、安全、规模和数据传输等方面让Spark和Hadoop生态进行更广更深的融合。  

原文发布时间为:2016-7-14

 

本文作者:孙博

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网

转载地址:http://mcvia.baihongyu.com/

你可能感兴趣的文章
一步一步理解Java企业级应用的可扩展性
查看>>
存储非结构化数据之利器-minio
查看>>
苹果个人开发者账号申请
查看>>
SSH双机互信及错误解决大全
查看>>
adb命令详解
查看>>
php网页如何运作
查看>>
学艺不精 - 记一次性能问题排查
查看>>
Provisioning Services 7.6 入门到精通系列之五:PVS控制台安装
查看>>
awk工具
查看>>
设计模式-代理模式(Proxy)
查看>>
Windows Sharepoint services 3.0部署体验
查看>>
[分享] Mac 键盘和Pc键盘对照表
查看>>
windows下批量杀死进程
查看>>
第七章:面向对象(三)
查看>>
android-ripple-background
查看>>
我的友情链接
查看>>
编译安装Apache服务要点
查看>>
Arrays.copy()和ArrayList.clone()
查看>>
mosquitto安装、配置、测试、paho.mqtt-spy安装
查看>>
我的友情链接
查看>>