本文為您介紹Designer支持的組件列表。
組件類型 | 組件 | 描述 |
自定義組件 | 支持在AI資產管理中創建自定義組件,自定義組件創建成功后,您可以在Designer中將該組件與官方組件串聯使用進行模型訓練。 | |
源/目標 | 該組件用來讀取對象存儲OSS Bucket路徑下的文件或文件夾。 | |
該組件支持從OSS、HTTP、HDFS讀取CSV類型的文件數據。 | ||
該組件用于讀取MaxCompute表數據,默認讀取本項目的表數據。 | ||
該組件支持將上游數據寫入MaxCompute中。 | ||
數據預處理 | 該組件按照給定的比例或者數目,對輸入進行隨機獨立采樣。 | |
以加權方式生成采樣數據。 | ||
該組件可以對數據按照過濾表達式進行篩選,并且您可以修改輸出字段名稱。 | ||
給定一個分組列,該組件按照這些列的不同值,將輸入數據分成不同的組,并在每組中分別進行隨機采樣。 | ||
該組件將兩張表通過關聯信息,合成一張表,并確定輸出的字段,與SQL的JOIN語句功能類似。 | ||
該組件將兩張表的數據按列合并,需要表的行數保持一致,否則報錯。如果兩張表只有一張存在分區,則分區表需要連接第二個輸入端口。 | ||
該組件是將兩張表的數據按行合并,左表及右表選擇輸出的字段個數以及類型應保持一致。整合了UNION和UNION ALL的功能。 | ||
該組件是可以將任意類型特征轉成STRING、DOUBLE和INT特征,并支持轉換異常時的缺失值填充。 | ||
該組件是提供的增加序號列組件,您可以在數據表的第一列追加ID列。 | ||
該組件是對數據進行隨機拆分,用于生成訓練和測試集。 | ||
您可以通過可視化或PAI命令的方式,配置該組件參數。 | ||
該組件支持將稠密數據或稀疏數據進行歸一化處理。 | ||
該組件分為可分化方式和PAI命令方式生成標準化實例。 | ||
該組件可以將KV(Key:Value)格式的表轉換為普通表格式。 | ||
該組件分為可分化方式和PAI命令方式,可以轉化普通表為KV(Key:Value)格式的表。 | ||
特征工程 | 特征重要性過濾組件為線性特征重要性、GBDT特征重要性和隨機森林特征重要性等組件提供過濾功能,支持過濾TopN的特征。 | |
該組件是研究如何通過少數主成分揭示多個變量間的內部結構,考察多個變量間相關性的一種多元統計方法。 | ||
您可以通過該組件對稠密或稀疏的數值類特征進行常見的尺度變換。 | ||
該組件是將連續特征按照一定的規則進行離散化。 | ||
該組件可以將輸入特征中包含異常的數據平滑到一定區間,支持稀疏和稠密數據格式。 | ||
該組件是線性代數中一種重要的矩陣分解,是矩陣分析中正規矩陣求對角化的推廣。 | ||
該組件用于檢測連續值和枚舉值類特征的數據,幫助您挖掘數據中的異常點。 | ||
該組件包括線性回歸和二分類邏輯回歸,支持稀疏和稠密數據格式。 | ||
該組件用于統計離散特征的分布情況。 | ||
您可以通過該組件計算特征重要性。 | ||
該組件將根據您使用的不同特征選擇方法,從所有稀疏或稠密格式的特征數據中選擇并過濾出TopN的特征數據。 | ||
該組件是將非線性特征通過GBDT編碼成線性特征。 | ||
您可以通過該組件后數據會變成稀疏,輸出結果也是KV的稀疏結構。 | ||
統計分析 | 通過數據視圖組件,您可以可視化地了解特征與標簽列的分布情況及特征的特點,以便后續進行數據分析。 | |
該組件用于衡量兩個變量的總體誤差。 | ||
該組件是采用經驗分布和內核分布兩種算法。 | ||
該組件用于統計全表,或某些選中的列。 | ||
該組件用于變量為類別型變量的場景,旨在檢驗單個多項分類型變量在各分類間的實際觀測次數與理論次數是否一致,其零假設為觀測次數與理論次數無差異。 | ||
箱形圖是一種用作顯示一組數據分散情況的統計圖。它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。 | ||
散點圖是指在回歸分析中,數據點在直角坐標系平面上的分布圖。 | ||
相關系數算法用于計算一個矩陣中每列之間的相關系數,取值范圍為[-1,1]。系統計算時,count數按兩列間同時非空的元素個數計算,兩兩列之間可能不同。 | ||
該組件基于統計學原理用來檢驗兩個樣本的均值是否有顯著差異。 | ||
該組件旨在檢驗某個變量的總體均值與某個指定值之間是否存在顯著差異,其檢驗的樣本必須總體服從正態分布。 | ||
該組件通過觀測值判斷總體是否服從正態分布,是統計判決中重要的一種特殊的擬合優度假設檢驗。 | ||
通過該組件,您可以直觀地看到一個國家或地區收入分配狀況。 | ||
該組件是統計學術語,用于計算數據表列數據的百分位。 | ||
該組件是一種線性相關系數,用于反映兩個變量線性相關程度的統計量。 | ||
該組件(Histogram)又稱質量分布圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。 | ||
機器學習 | 該組件的輸入為訓練模型和預測數據,輸出為預測結果。 | |
該組件算法在Boosting算法的基礎上進行了擴展和升級,具有較好的易用性和魯棒性,被廣泛用在各種機器學習生產系統和競賽領域。當前支持分類和回歸。 | ||
該組件算法在Boosting算法的基礎上進行了擴展和升級,具有較好的易用性和魯棒性,被廣泛用在各種機器學習生產系統和競賽領域。當前支持分類和回歸。 | ||
該組件是基于統計學習理論的一種機器學習方法,通過尋求結構風險最小化,提高學習機泛化能力,從而實現經驗風險和置信范圍最小化。 | ||
該組件是一個二分類算法,支持稀疏及稠密數據格式。 | ||
該組件的原理是設置閾值,如果特征值大于閾值,則為正例,反之為負例。 | ||
參數服務器PS(Parameter Server)致力于解決大規模的離線及在線訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS實現的迭代算法。 | ||
該組件是經典的二分類算法,廣泛應用于廣告及搜索場景。 | ||
參數服務器PS(Parameter Server)致力于解決大規模的離線及在線訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS實現的迭代算法。 | ||
該組件進行分類的原理是針對預測表的每行數據,從訓練表中選擇與其距離最近的K條記錄,將這K條記錄中類別數量最多的類,作為該行的類別。 | ||
該組件是一個二分類算法,PAI提供的邏輯回歸可以支持多分類,且支持稀疏及稠密數據格式。 | ||
該組件是一個包括多決策樹的分類器,其分類結果由單棵樹輸出類別的眾數決定。 | ||
該組件是一種基于獨立假設的貝葉斯定理的概率分類算法。 | ||
該組件會首先隨機選擇K個對象作為每個簇的初始聚類中心,然后計算剩余對象與各簇中心的距離,將其分配至距離最近的簇,再重新計算每個簇的聚類中心。 | ||
您可以使用DBSCAN組件構建聚類模型。 | ||
您可以使用高斯混合模型訓練組件實現模型分類。 | ||
您可以使用DBSCAN預測組件基于DBSCAN訓練模型來預測新的點數據所屬的簇。 | ||
您可以使用高斯混合模型預測組件基于訓練好的高斯混合模型進行聚類預測。 | ||
該組件是一種迭代決策樹算法,適用于線性及非線性回歸場景。 | ||
該組件是分析因變量和多個自變量之間的線性關系模型。 | ||
該組件致力于解決大規模的離線及在線訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基于PS實現的迭代算法。 | ||
該組件是分析因變量和多個自變量之間的線性關系模型,參數服務器PS(Parameter Server)致力于解決大規模的離線及在線訓練任務。 | ||
該組件是通過計算AUC、KS及F1 Score指標,輸出KS曲線、PR曲線、ROC曲線、LIFT Chart及Gain Chart。 | ||
該組件是指基于預測結果和原始結果,評估回歸算法模型的優劣性,從而輸出評估指標及殘差直方圖。 | ||
該組件是基于原始數據和聚類結果,評估聚類模型的優劣性,從而輸出評估指標。 | ||
該組件適用于監督學習,與無監督學習中的匹配矩陣對應。 | ||
該組件是指基于分類模型的預測結果和原始結果,評估多分類算法模型的優劣性,從而輸出評估指標(例如Accuracy、Kappa及F1-Score)。 | ||
深度學習 | 阿里云機器學習平臺支持深度學習框架,您可以使用這些框架及硬件資源來使用深度學習算法。 | |
時間序列 | 該組件是基于開源X-13ARIMA-SEATS封裝的針對季節性調整的Arima算法。 | |
該組件包括自動ARIMA模型選擇程序,主要基于TRMO(1996)及后續修訂中實施的Gomez和Maravall(1998)的程序。 | ||
該組件對每一行的MTable數據,進行Prophet時間序列預測,給出下一時間段的預測結果。 | ||
該組件將Table按照分組列聚合成MTable。 | ||
該組件將MTable展開成Table。 | ||
推薦方法 | FM(Factorization Machine)算法兼顧特征之間的相互作用,是一種非線性模型,適用于電商、廣告及直播的推薦場景。 | |
交替最小二乘ALS(Alternating Least Squares)算法的原理是對稀疏矩陣進行模型分解,評估缺失項的值,從而得到基本的訓練模型。 | ||
該組件是一種Item召回算法,您可以使用swing訓練組件基于User-Item-User原理衡量Item的相似性。 | ||
該組件是swing的批處理預測組件,您可以使用該組件基于swing訓練模型和預測數據進行離線預測。 | ||
etrec是基于item的協同過濾算法,輸入為兩列,輸出為item之間的相似度TopN。 | ||
向量召回評估組件計算召回的hitrate結果。hitrate作為結果好壞的評價,hitrate越高表示訓練產出的向量去召回向量的結果越準確。 | ||
異常檢測 | 該組件是根據數據樣本的局部異常因子值(Local Outlier Factor, LOF)判斷樣本是否異常。 | |
該組件使用sub-sampling算法,降低了算法的計算復雜度,可以識別數據中的異常點,在異常檢測領域有顯著的應用效果。 | ||
該組件與傳統SVM不同,是一種非監督的學習算法。您可以使用One-Class SVM異常檢測通過學習邊界對異常點進行預測。 | ||
自然語言處理 | 該組件旨在從冗長、重復的文本序列中抽取、精煉或總結出其中的要點信息,新聞標題摘要是文本摘要的一個特例。您可以使用文本摘要預測組件,調用指定預訓練模型對新聞文本進行預測,從而生成新聞標題。 | |
使用該組件對生成的機器閱讀理解訓練模型進行離線預測。 | ||
該組件旨在從冗長、重復的文本序列中抽取、精煉或總結出其中的要點信息。新聞標題摘要是文本摘要的一個特例。您可以使用文本摘要訓練組件進行模型訓練,生成新聞標題,用來概括新聞的中心思想和重點信息。 | ||
使用該組件訓練機器閱讀理解模型,該模型針對給定的文檔及問題,進行快速理解與問答。 | ||
該組件基于AliWS(Alibaba Word Segmenter)詞法分析系統,對指定列的內容進行分詞,分詞后的各個詞語之間以空格分隔。 | ||
該組件用于將三元組表(row,col,value)轉換為kv表(row,[col_id:value])。 | ||
該組件是機器學習領域的一個基本操作,主要用于信息檢索、自然語言處理和生物信息學等領域。 | ||
該組件用于計算字符串相似度并篩選出最相似的Top N個數據。 | ||
該組件是文本分析中的一個預處理方法,用于過濾分詞結果中的噪聲(例如的、是或啊)。 | ||
該組件是語言模型訓練其中一個步驟。在詞的基礎上生成n-gram,并統計在全部語料集上,對應n-gram的個數。 | ||
該組件是文獻中簡單連貫的短文,能夠全面準確地反映該文獻的中心思想。自動文摘利用計算機自動從原始文獻中提取摘要內容。 | ||
該組件是自然語言處理中的重要技術之一,具體是指從文本中將與這篇文章意義相關性較強的一些詞抽取出來。 | ||
將一段文本按標點進行句子拆分。該組件主要用于文本摘要前的預處理,將一段文本拆分成一句一行的形式。 | ||
基于算法語義向量結果(如Word2Vec生成的詞向量),計算給定的詞(或者句子)的擴展詞(或者擴展句),即計算其中某一向量距離最近的向量集合。其中一個用法是,基于Word2Vec生成的詞向量結果,根據輸入的詞返回最為相似的詞列表。 | ||
您可以通過Doc2Vec算法組件將文章映射為向量。輸入為詞匯表,輸出為文檔向量表、詞向量表或詞匯表。 | ||
條件隨機場CRF(conditional random field)是給定一組輸入隨機變量條件下,另一組輸出隨機變量條件的概率分布模型,其特點是假設輸出隨機變量構成馬爾可夫隨機場。 | ||
文章相似度是在字符串相似度的基礎上,基于詞,計算兩兩文章或者句子之間的相似度。 | ||
該組件算法統計若干文章中所有詞的共現情況,計算兩兩之間的PMI(point mutual information)。 | ||
該組件是基于linearCRF在線預測模型的算法組件,主要應用于處理序列標注問題。 | ||
該組件基于AliWS(Alibaba Word Segmenter)詞法分析系統,根據參數和自定義詞典生成分詞模型。 | ||
該組件是指輸入一些字符串(手動輸入或者從指定的文件讀取),用程序來統計這些字符串中總共有多少個單詞,每個單詞出現的次數。 | ||
該組件是一種用于資訊檢索與文本挖掘的常用加權技術。通常在搜索引擎中應用,可以作為文件與用戶查詢之間相關程度的度量或評級。 | ||
在機器學習PAI平臺,您可以通過給PLDA組件設置topic參數值,從而讓每篇文檔抽象出不同主題。 | ||
Word2Vec算法組件利用神經網絡,通過訓練,將詞映射為K維度空間向量,且支持對表示詞的向量進行操作并和語義相對應。輸入為單詞列或詞匯表,輸出為詞向量表和詞匯表。 | ||
網絡分析 | 該組件能夠輸出每個節點的所處深度和樹ID。 | |
該組件用于在圖中找出符合指定核心度的緊密關聯的子圖結構,節點核數的最大值被稱為圖的核數。 | ||
該組件使用Dijkstra算法,給定起點,輸出該點和其他所有節點的最短路徑。 | ||
該組件起源于網頁的搜索排序,即使用網頁的鏈接結構計算每個網頁的等級排名。 | ||
該組件LPA(Label Propagation Algorithm)是基于圖的半監督學習方法,其基本思路是節點的標簽(community)依賴其相鄰節點的標簽信息,影響程度由節點相似度決定,并通過傳播迭代更新達到穩定。 | ||
該組件為半監督的分類算法,原理為用已標記節點的標簽信息去預測未標記節點的標簽信息。 | ||
該組件是一種評估社區網絡結構的指標,用來評估網絡結構中劃分出來社區的緊密程度,通常0.3以上是比較明顯的社區結構。 | ||
在無向圖G中,若從頂點A到頂點B有路徑相連,則稱A和B是連通的。在圖G中存在若干子圖,如果其中每個子圖中所有頂點之間都是連通的,但在不同子圖間不存在頂點連通,那么稱圖G的這些子圖為最大連通子圖。 | ||
該組件是在無向圖G中,計算每一個節點周圍的稠密度,星狀網絡稠密度為0,全聯通網絡稠密度為1。 | ||
該組件算法是指在無向圖G中,計算每一條邊周圍的稠密度。 | ||
該組件是指在無向圖G中,輸出所有三角形。 | ||
金融板塊 | 通過該組件您可以對數據進行歸一化、離散化、Index化或WOE轉換。 | |
該組件是信用風險評估領域常用的建模工具,其原理是通過分箱輸入將原始變量離散化后再使用線性模型(邏輯回歸或線性回歸等)進行模型訓練,其中包含特征選擇及分數轉換等功能。 | ||
該組件是對原始數據根據評分卡訓練組件產出的模型結果進行預測打分。 | ||
該組件可以進行特征離散化,即將連續的數據進行分段,使其變為多個離散化區間。分箱組件支持等頻分箱、等寬分箱及自動分箱。 | ||
該組件是衡量樣本變化所產生的偏移量的一種重要指標,通常用于衡量樣本的穩定程度。 | ||
視覺算法 | 如果您的業務場景涉及圖像分類,則可以通過圖像分類訓練(torch)組件構建圖像分類模型,從而進行模型推理。 | |
您可以使用視頻分類訓練算法組件對其進行模型訓練,從而獲得用于推理的視頻分類模型。 | ||
通過該組件構建目標檢測模型,對圖像中的某些高風險實體進行框選檢測。 | ||
您可以通過該組件將原始的尚未標注的圖像直接進行訓練,從而獲得用于圖像特征提取的模型。 | ||
您通過該組件構建度量學習模型,從而進行模型推理。 | ||
如果您的業務場景涉及人體相關的關鍵點檢測,則可以通過圖像關鍵點訓練組件構建關鍵點模型,從而進行模型推理。 | ||
該組件提供主流的模型量化算法,您可以使用模型量化對模型進行壓縮提速,實現高性能推理。 | ||
該組件提供主流的模型剪枝算法AGP(taylorfo),您可以使用模型剪枝對模型進行壓縮提速,實現高性能推理。 | ||
工具 | 該組件是存儲在MaxCompute中的一種數據結構,基于PAICommand框架的傳統機器學習算法生成的模型會以離線模型格式存儲在對應的MaxCompute項目中,您可以使用離線模型相關組件獲取離線模型做離線預測。 | |
您可以使用通用模型導出組件,將在MaxCompute中訓練得到的模型導出到指定的OSS路徑。 | ||
自定義腳本 | 該組件是自定義SQL組件,您可以通過SQL腳本編輯器編寫SQL語句,并提交至MaxCompute執行。 | |
該組件定義安裝依賴包及運行自定義的Python函數。 | ||
該組件可以進行調用Alink的分類算法做分類、 調用回歸算法做回歸、調用推薦算法做推薦等。PyAlink腳本也支持與其他Designer的算法組件無縫銜接, 完成業務鏈路的搭建及效果驗證。 | ||
該組件在普通SQL腳本組件基礎上增加了多日期循環執行功能,用于并行執行某段時間內天級別SQL任務。 | ||
Beta組件 | 該組件是一種壓縮估計算法。 | |
該組件支持稀疏、稠密兩種數據格式。您可以使用該組件做一些數值型變量的預測,比如貸款額度預測、溫度預測等。 | ||
該組件進行做數值型變量的預測,包括房價預測、銷售量預測、濕度預測等。 | ||
該組件是對不適定問題進行回歸分析時,最常用的正則化方法。 |