关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了Jindo 的由来 EMR Jindo 是阿里云基于 Apache Spark Apache Hadoop 在云上定制的分布式计算和存储引擎 Jindo 原是内部的研发代号 取自筋斗 云 的谐音 EMR Jindo 在开源基础上做了大量优化和扩展 深度集成和连接了众多阿里云基础服务 阿里云 EMR E MapReduce 在 TPC 官方提交的

大家好,我是讯享网,很高兴认识大家。




Spark Relational Cache特点
阿里云EMR是一个开源大数据解决方案,目前EMR上面已经集成了很多开源组件,并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储,比如对象存储OSS、集群内部自建的HDFS以及流式数据等。用户可以利用EMR处理海量数据和进行快速分析,也能够支持用户在上面做机器学习以及数据清洗等工作。EMR希望能够支撑非常大的业务数据量,同时也希望能够在数据量不断增长的时候,能够通过集群扩容实现快速数据分析。
阿里巴巴的EMR Spark对于1T数据的构建时间只需要1小时。




讯享网


JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,阿里云智能EMR团队高级技术专家司麟本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。


JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

阿里巴巴计算平台事业部EMR团队技术专家辰石,在直播中向我们介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。


JindoFS系列直播【存储计算分离场景的计算适应优化】

阿里云EMR技术专家健身,会在本次分享中介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。


JindoFS使用文档

https://help.aliyun.com/document_detail/141542.html

JindoFS介绍

https://help.aliyun.com/document_detail/141534.html

https://help.aliyun.com/document_detail/141535.html


一张图看懂JindoFS


更多JindoFS系列直播请加入钉钉群观看。

EMR钉钉产品交流群:

Apache Spark技术交流社区公众号,微信扫一扫关注

小讯
上一篇 2025-02-15 11:58
下一篇 2025-03-17 22:58

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/67617.html