日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-Copyright信息移除(MaxCompute)

LLM-Copyright信息移除組件主要用于大語言模型(LLM)的文本數據預處理工作,用于刪除文本中的Copyright信息,多用于去除代碼文本中的頭部Copyright注釋。

使用限制

僅支持MaxCompute計算引擎。

算法簡介

去除文本中的Copyright信息或者注釋信息,分為以下兩個步驟。

  1. 首先檢測文本中是否有符合正則表達式'/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'(注釋字符)的字符串。

    • 如果匹配到對應字符串,則檢測字符串中是否包含copyright字段,如果包含,則刪除整段字符串并返回;否則不做刪除,直接返回。

    • 如果匹配不到該正則表達式,則進入步驟2繼續處理。

  2. 將文本用換行符分隔,按行遍歷文本是否以//#、--注釋符號開頭,一旦匹配到符合條件的某行,繼續統計連續的注釋行,直到注釋符號終止,則遍歷終止。最后刪除文本中的連續注釋片段并返回。

以上步驟均檢測第一次匹配到的注釋片段,即默認檢測文本的頭部,剩余部分不做處理。例如:

  • 處理前:

    image.png

  • 處理后:

    image.png

可視化配置參數

您可以在Designer中,通過可視化的方式配置組件參數。

頁簽

參數

是否必選

描述

默認值

字段設置

選擇目標處理列

選擇要處理的列,支持選擇多個列。

設置輸出表生命周期

正整數,單位為天。默認28天,28天后該組件產生的臨時表被回收。

28

執行調優

每個實例的cpu數目

設定map task每個instanceCPU數目,取值范圍為[50,800]。

100

每個實例的memory大小,單位M

設定map task每個instancememory大小,單位為MB,取值范圍為[256,12288]。

1024

每個實例處理的數據大小,單位M

設定map task每個instance的最大處理數據量,用戶可以通過控制該變量,實現對map端輸入的控制。單位為MB,取值范圍為[1,Integer.MAX_VALUE]。

256

相關文檔

關于Designer組件更詳細的內容介紹,請參見Designer概述