通過JindoFS,您可以完成數據遷移、OSS訪問加速、緩存加速、AI訓練加速和JindoTable計算加速。本文為您介紹JindoFS實戰的詳細文檔和演示視頻。

注意 如果視頻斷鏈表明該視頻已過時,且已被下線。由于產品在不斷更新迭代,請以官方控制臺操作為準。

數據遷移

文檔鏈接 視頻鏈接 視頻發布時間 描述
高效遷移HDFS海量文件到OSS 高效遷移HDFS海量文件到OSS 2021-05-11 通過Hadoop DistCp將HDFS海量文件同步到OSS存在很多問題,例如文件數量太大造成內存溢出、同步效率慢、無法保證數據一致性、不支持傳輸時進行歸檔或冷存儲等。

本視頻為您介紹Jindo DistCp如何解決這些問題,以及如何通過Jindo DistCp將HDFS海量文件高效遷移到OSS。

使用Checksum遷移HDFS數據到OSS 使用Checksum遷移HDFS數據到OSS 2021-05-11 通過Checksum算法,你可以在大數據遷移場景中校驗數據的完整性、對比數據差異并實現增量遷移。

本視頻為您介紹如何使用Jindo Distcp遷移HDFS數據到OSS,以及在遷移過程中如何使用Checksum保證數據的一致性和完整性。

如何將HDFS海量文件歸檔到OSS 如何將HDFS海量文件歸檔到OSS 2021-05-18 如果您的數據存儲在HDFS集群內,隨著業務的發展,數據不斷增長,可能導致存儲空間不足、存儲成本不斷上升等問題,此時您可以將訪問頻率較低的HDFS數據歸檔到OSS中。

本視頻為您介紹如何使用Jindo DistCp將HDFS文件歸檔到OSS中,以及如何查看OSS數據的存儲類型。

如何將Hive數據按照分區歸檔到OSS 如何將Hive數據按照分區歸檔到OSS 2021-05-18 傳統集群架構存在很多問題,例如存儲量與計算量無法一直匹配、存儲無法水平擴展、存儲與計算競爭硬盤資源等。為了解決這些問題,您可以將HDFS中的熱數據保留,將冷數據歸檔到OSS中,實現存儲與計算分離。

本視頻為您介紹如何將HDFS中的文件載入Hive表,然后將Hive中的數據按照分區歸檔到OSS。

OSS訪問加速

文檔鏈接 視頻鏈接 視頻發布時間 描述
訪問OSS這類對象存儲最快的方式 訪問OSS這類對象存儲最快的方式 2021-05-25 JindoFS SDK是一個簡單易用,面向Hadoop或Spark生態的OSS客戶端,為阿里云OSS提供高度優化的HadoopFileSystem。通過JindoFS SDK,您可以在Hadoop環境中直接使用oss://bucket/的方式訪問阿里云OSS上的內容。

本視頻為您介紹JindoFS SDK的原理,以及相比開源Hadoop-OSS-SDK的優勢。

Hadoop/Spark訪問OSS加速 Hadoop/Spark訪問OSS加速 2021-05-25 與開源的Hadoop-OSS-SDK相比,JindoFS SDK具有更優異的性能表現。能夠兼容大部分的Hadoop版本、由阿里云EMR Hadoop專業團隊維護、可靠性高、能夠及時跟進OSS最新特性和優化、版本更新快。

本視頻為您介紹如何通過Hadoop或Spark,使用JindoFS SDK訪問OSS。

Flink高效sink寫入OSS Flink高效sink寫入OSS 2021-06-01 當您需要將流式數據寫入OSS,或者需要在線分析數據時,可能會遇到的問題:開源Apache Flink還不支持直接寫入OSS、Hadoop OSS SDK寫入性能不滿足需求。此時您可以使用JindoFS Flink Connector,解決這些問題。

本視頻為您介紹如何配置JindoFS Flink Connector,并在程序中使用JindoFS Flink Connector訪問OSS。

Flume高效寫入OSS Flume高效寫入OSS 2021-06-01 Flume是一個分布式、可靠、高可用的系統,支持從不同數據源高效地收集、聚合、遷移大量日志數據,聚合到中心化的數據存儲服務,被廣泛用于日志收集場景中。

由于OSS本身不支持Flush功能,而Flume通過調用flush()能夠保證事務性寫入。Flume使用JindoFS SDK寫入OSS,雖然不能讓Flush后的數據立刻可見,但是可以保證Flush后的數據不丟失。Flume作業失敗后,可以使用JindoFS命令恢復Flush過的數據。

本視頻為您介紹如何在Flume系統中,使用JindoFS SDK將數據寫入OSS。

Presto如何高效查詢OSS數據 Presto如何高效查詢OSS數據 2021-06-08 Presto是一個開源的分布式SQL查詢引擎,能夠在任何存儲介質上進行查詢,支持原地查詢,無需遷移數據。如果您已將HDFS數據遷移至OSS中,可通過在Presto中使用JindoFS SDK,高效查詢這部分數據。

本視頻為您介紹如何在Presto中使用JindoFS SDK查詢OSS中的數據。

Impala如何高效查詢OSS數據 Impala如何高效查詢OSS數據 2021-06-08 Apache Impala是一個開源的大數據查詢分析引擎,能夠快速查詢分析存儲在Hadoop集群的PB級數據。如果您已將HDFS數據遷移至OSS中,可通過在Impala中使用JindoFS SDK,高效查詢這部分數據。

本視頻為您介紹如何在Impala中使用JindoFS SDK查詢OSS中的數據。

打開OSS多版本-合規和分析兩不誤 打開OSS多版本-合規和分析兩不誤 2021-06-15 阿里云對象存儲OSS支持對象數據多版本管理,用于恢復已刪除的數據、找回某個時間點的版本數據。

本視頻為您介紹如何開啟OSS多版本、如何查看OSS對象的多版本。

JindoFS緩存加速

文檔鏈接 視頻鏈接 視頻發布時間 描述
Spark訪問OSS透明緩存加速 Spark訪問OSS透明緩存加速 2021-06-22 JindoFS支持緩存模式。Spark任務讀取OSS上的數據后,會自動緩存到JindoFS緩存系統中,后續訪問相同的數據就能夠命中緩存,大幅提高了查詢效率。

本視頻為您介紹如何開啟JindoFS SDK的緩存模式,使用Spark SQL高效訪問OSS中的數據。

Presto訪問OSS透明緩存加速 Presto訪問OSS透明緩存加速 2021-06-22 JindoFS支持緩存模式。Presto SQL讀取OSS上的數據后,會自動緩存到JindoFS緩存系統中,后續訪問相同的數據就能夠命中緩存,大幅提高了查詢效率。

本視頻為您介紹如何開啟JindoFS SDK的緩存模式,使用Presto SQL高效訪問OSS中的數據。

指定表和分區預先緩存,查詢分析更高效 指定表和分區預先緩存,查詢分析更高效 2021-06-29 在存儲分離架構中,計算節點剩余的磁盤、內存資源可以用于緩存加速。在通過JindoFS SDK訪問OSS數據前,可先指定表和分區預先緩存數據,在后續查詢分析時,可直接讀取緩存中的數據,提高效率。

本視頻為您介紹如何在Hadoop集群中部署緩存服務,并通過JindoFS SDK指定表和分區來預先緩存數據。

云上計算云下數據:HDFS緩存加速 云上計算云下數據:HDFS緩存加速 2021-06-29 隨著云計算越來越成熟,帶來彈性擴容、運維方便、節省成本等優點,越來越多企業開始將大數據平臺搬到云上。云下的HDFS集群存在歷史數據,其中可能包含敏感數據,您希望繼續將其保留于云下;或者因歷史原因保留在其他云廠商上。但是在云上訪問云下HDFS數據時可能存在網絡延時、帶寬限制、作業突發流量導致核心集群磁盤或網絡被打滿等問題,為解決這些問題,必須引入HDFS緩存加速。

本視頻為您介紹如何在Hadoop集群上部署緩存服務,以及如何通過JindoFS SDK快速訪問HDFS。

AI訓練加速

文檔鏈接 視頻鏈接 視頻發布時間 描述
Fluid+JindoFS對OSS上的數據進行訓練加速 Fluid+JindoFS對OSS上的數據進行訓練加速 2021-07-06 Fluid是一個開源的Kubernetes原生的分布式數據集編排和加速引擎,主要服務于云原生場景下的數據密集型應用,例如大數據應用、AI應用等。Fluid JindoRuntime提供對OSS和HDFS的訪問和緩存加速能力,并且可以實現像讀取本地磁盤一樣輕松使用OSS上的海量文件。

本視頻為您介紹如何使用Fluid JindoRuntime,通過JindoFS SDK快速訪問OSS上的數據。

Fluid+JindoFS對HDFS上的數據進行訓練加速 Fluid+JindoFS對HDFS上的數據進行訓練加速 2021-07-13 在AI訓練場景中處理HDFS數據面臨很多問題,例如計算存儲分離,數據讀取性能較差,無法滿足AI訓練作業的IO性能、很多深度學習訓練框架并不適配原生HDFS接口,大大增加了開發難度、HDFS集群壓力大,甚至存在穩定性問題。而Fluid JindoRuntime支持數據親和性調度、數據預加載和指定用戶訪問HDFS等功能,幫助您解決這些問題,實現HDFS訪問加速。

本視頻為您介紹如何使用Fluid JindoRuntime,通過JindoFS SDK快速訪問HDFS上的數據。

Fluid+JindoFS對海量小文件的訓練加速 Fluid+JindoFS對海量小文件的訓練加速 2021-07-13 在AI訓練場景中處理海量小文件面臨很多問題,例如遠程調用頻繁,NameNode壓力大 、訪問數據延時高、高頻訪問穩定性低。Fluid JindoRuntime提供了高效的元數據緩存機制,對小文件進行存儲優化,幫助您解決這些問題,提高小文件的處理速度。

本視頻為您介紹如何使用Fluid JindoRuntime,通過JindoFS SDK快速訪問HDFS上的海量小文件。

JindoTable計算加速

文檔鏈接 視頻鏈接 視頻發布時間 描述
Spark對OSS上的Parquet數據進行查詢加速 Spark對OSS上的Parquet數據進行查詢加速 2021-07-20 當前數據湖市場規模正在飛速增長,隨著數據規模的增長,基于高性能的數據湖分析場景也在逐漸增加。當前很多數據湖架構基于對象存儲,相對于本地存儲,其性能受到網絡帶寬和負載機器的影響,存在性能瓶頸和波動,同時因為遠端讀取OSS單次IO比較慢,在列存等一些隨機讀比較多的場景,性能差距尤其明顯(無法預讀)。在此背景下,穩定且高性能的數據讀取方案已經迫在眉睫。JindoFS通過Native Engine,配合filter push-down,能夠提升在Spark、Hive或Presto上查詢JindoFS或OSS上的Parquet或ORC文件的速度。

本視頻為您介紹如何在Spark上,使用JindoFS加速讀取OSS上的Parquet數據。

Spark對OSS上的OCR數據進行查詢加速 Spark對OSS上的OCR數據進行查詢加速 2021-07-20 當前數據湖市場規模正在飛速增長,隨著數據規模的增長,基于高性能的數據湖分析場景也在逐漸增加。當前很多數據湖架構基于對象存儲,相對于本地存儲,其性能受到網絡帶寬和負載機器的影響,存在性能瓶頸和波動,同時因為遠端讀取OSS單次IO比較慢,在列存等一些隨機讀比較多的場景,性能差距尤其明顯(無法預讀)。在此背景下,穩定且高性能的數據讀取方案已經迫在眉睫。JindoFS通過Native Engine,配合filter push-down,能夠提升在Spark、Hive或Presto上查詢JindoFS或OSS上的Parquet或ORC文件的速度。

本視頻為您介紹如何在Spark上,使用JindoFS加速讀取OSS上的OCR數據。

分層更高效,對Hive數倉進行熱度/冷度統計 分層更高效,對Hive數倉進行熱度/冷度統計 2021-07-27 傳統的Hadoop集群中,沒有對數據進行分層,導致數據量不斷增加的同時,存儲成本也在大幅增加,計算速度在不斷下降。此時,您可以對集群中的數據進行熱度和冷度的統計,將訪問頻率較低的冷數據遷移至低成本的OSS對象存儲中,從而降低成本,加速業務計算能力。

本視頻為您介紹Hive、Spark和Presto如何開啟熱度和冷度統計。

對Hive數倉表進行高效小文件合并 對Hive數倉表進行高效小文件合并 2021-07-27 業務運行過程中(例如動態分區插入數據、reduce 操作頻繁)會產生很多小文件,小文件太多會占用大量內存、嚴重影響集群性能。JindoTable提供表或分區級別的熱度統計、存儲分層和表文件優化的功能, 顯示表或者分區的狀態,如果表文件過小會進行提示,根據提示您可以合并這些小文件,提高集群性能。

本視頻為您介紹如何合并Hive數倉表中的小文件。