Spark Relational Cache特点
阿里云EMR是一个开源大数据解决方案,目前EMR上面已经集成了很多开源组件,并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储,比如对象存储OSS、集群内部自建的HDFS以及流式数据等。用户可以利用EMR处理海量数据和进行快速分析,也能够支持用户在上面做机器学习以及数据清洗等工作。EMR希望能够支撑非常大的业务数据量,同时也希望能够在数据量不断增长的时候,能够通过集群扩容实现快速数据分析。
阿里巴巴的EMR Spark对于1T数据的构建时间只需要1小时。
JindoFS系列直播【Hadoop Job committer 的演化和发展】
Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,阿里云智能EMR团队高级技术专家司麟本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。
JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】
阿里巴巴计算平台事业部EMR团队技术专家辰石,在直播中向我们介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。
JindoFS系列直播【存储计算分离场景的计算适应优化】
阿里云EMR技术专家健身,会在本次分享中介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。
JindoFS使用文档
https://help.aliyun.com/document_detail/141542.html
JindoFS介绍
https://help.aliyun.com/document_detail/141534.html
https://help.aliyun.com/document_detail/141535.html
一张图看懂JindoFS

更多JindoFS系列直播请加入钉钉群观看。

EMR钉钉产品交流群:

Apache Spark技术交流社区公众号,微信扫一扫关注


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/67617.html