日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

Java SDK

本文介紹如何使用阿里云智能語音服務提供的Java SDK,包括SDK的安裝方法及SDK代碼示例。

前提條件

  • 在使用SDK之前,請先閱讀接口說明,詳情請參見接口說明

  • 從2.1.0版本開始原有nls-sdk-long-asr更名為nls-sdk-transcriber。升級時需確認已刪除nls-sdk-long-asr,并按編譯提示添加相應回調方法。

下載安裝

  1. 從Maven服務器下載最新版本SDK。

    <dependency>    
          <groupId>com.alibaba.nls</groupId>  
          <artifactId>nls-sdk-transcriber</artifactId>   
          <version>2.2.1</version>
    </dependency>

    Demo解壓后,在pom目錄運行mvn package,會在target目錄生成可執行JAR:nls-example-transcriber-2.0.0-jar-with-dependencies.jar,將JAR包拷貝到目標服務器,用于快速驗證及服務壓測。

  2. 服務驗證。

    運行如下代碼,并按提示提供相應參數。運行后在命令執行目錄生成logs/nls.log。

    java -cp nls-example-transcriber-2.0.0-jar-with-dependencies.jar com.alibaba.nls.client.SpeechTranscriberDemo
  3. 服務壓測。

    運行如下代碼,并按提示提供相應參數。其中阿里云服務URL參數為: wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1 ,語音文件為16k采樣率PCM格式文件,并發數根據您的購買情況進行選擇。

    java -jar nls-example-transcriber-2.0.0-jar-with-dependencies.jar
    重要

    自行壓測超過2路并發將產生費用。

關鍵接口

  • NlsClient:語音處理客戶端,利用該客戶端可以進行一句話識別、實時語音識別和語音合成的語音處理任務。該客戶端為線程安全,建議全局僅創建一個實例。

  • SpeechTranscriber:實時語音識別類,通過該接口設置請求參數,發送請求及聲音數據。非線程安全。

  • SpeechTranscriberListener:實時語音識別結果監聽類,監聽識別結果。非線程安全。

更多介紹,請參見Java API接口說明。

重要

SDK調用注意事項:

  • NlsClient使用了Netty框架,NlsClient對象的創建會消耗一定時間和資源,一經創建可以重復使用。建議調用程序將NlsClient的創建和關閉與程序本身的生命周期相結合。

  • SpeechTranscriber對象不可重復使用,一個識別任務對應一個SpeechTranscriber對象。例如,N個音頻文件要進行N次識別任務,創建N個SpeechTranscriber對象。

  • SpeechTranscriberListener對象和SpeechTranscriber對象是一一對應的,不能在不同SpeechTranscriber對象中使用同一個SpeechTranscriberListener對象,否則不能將各識別任務區分開。

  • Java SDK依賴Netty網絡庫,如果您的應用依賴Netty,其版本需更新至4.1.17.Final及以上。

示例代碼

說明
  • 下載nls-sample-16k.wav

    示例中使用的音頻文件為16000Hz采樣率,請在管控臺中將appkey對應項目的模型設置為通用模型,以獲取正確的識別結果;如果使用其他音頻,請設置為支持該音頻場景的模型,關于模型設置,請參見管理項目

  • 示例中使用了SDK內置的默認外網訪問服務端URL,如果您需要使用阿里云上海ECS內網訪問服務端URL,則在創建NlsClient對象時,設置內網訪問的URL:

    client = new NlsClient("ws://nls-gateway-cn-shanghai-internal.aliyuncs.com/ws/v1", accessToken);
  • 調用接口前,需配置環境變量,通過環境變量讀取訪問憑證。智能語音交互的AccessKey ID、AccessKey Secret和AppKey的環境變量名:ALIYUN_AK_ID、ALIYUN_AK_SECRET、NLS_APP_KEY

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriber;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberListener;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
 * 此示例演示了:
 * ASR實時識別API調用。
 * 動態獲取token。獲取Token具體操作,請參見:http://bestwisewords.com/document_detail/450514.html
 * 通過本地模擬實時流發送。
 * 識別耗時計算。
 */
public class SpeechTranscriberDemo {
    private String appKey;
    private NlsClient client;
    private static final Logger logger = LoggerFactory.getLogger(SpeechTranscriberDemo.class);

    public SpeechTranscriberDemo(String appKey, String id, String secret, String url) {
        this.appKey = appKey;
        //應用全局創建一個NlsClient實例,默認服務地址為阿里云線上服務地址。
        //獲取token,實際使用時注意在accessToken.getExpireTime()過期前再次獲取。
        AccessToken accessToken = new AccessToken(id, secret);
        try {
            accessToken.apply();
            System.out.println("get token: " + ", expire time: " + accessToken.getExpireTime());
            if(url.isEmpty()) {
                client = new NlsClient(accessToken.getToken());
            }else {
                client = new NlsClient(url, accessToken.getToken());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static SpeechTranscriberListener getTranscriberListener() {
        SpeechTranscriberListener listener = new SpeechTranscriberListener() {
            //識別出中間結果。僅當setEnableIntermediateResult為true時,才會返回該消息。
            @Override
            public void onTranscriptionResultChange(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //狀態碼“20000000”表示正常識別。
                    ", status: " + response.getStatus() +
                    //句子編號,從1開始遞增。
                    ", index: " + response.getTransSentenceIndex() +
                    //當前的識別結果。
                    ", result: " + response.getTransSentenceText() +
                    //當前已處理的音頻時長,單位為毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            @Override
            public void onTranscriberStart(SpeechTranscriberResponse response) {
                //task_id是調用方和服務端通信的唯一標識,遇到問題時,需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onSentenceBegin(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());

            }

            //識別出一句話。服務端會智能斷句,當識別到一句話結束時會返回此消息。
            @Override
            public void onSentenceEnd(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //狀態碼“20000000”表示正常識別。
                    ", status: " + response.getStatus() +
                    //句子編號,從1開始遞增。
                    ", index: " + response.getTransSentenceIndex() +
                    //當前的識別結果。
                    ", result: " + response.getTransSentenceText() +
                    //置信度
                    ", confidence: " + response.getConfidence() +
                    //開始時間
                    ", begin_time: " + response.getSentenceBeginTime() +
                    //當前已處理的音頻時長,單位為毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            //識別完畢
            @Override
            public void onTranscriptionComplete(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onFail(SpeechTranscriberResponse response) {
                //task_id是調用方和服務端通信的唯一標識,遇到問題時,需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() +  ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());
            }
        };

        return listener;
    }

    //根據二進制數據大小計算對應的同等語音長度。
    //sampleRate:支持8000或16000。
    public static int getSleepDelta(int dataSize, int sampleRate) {
        // 僅支持16位采樣。
        int sampleBytes = 16;
        // 僅支持單通道。
        int soundChannel = 1;
        return (dataSize * 10 * 8000) / (160 * sampleRate);
    }

    public void process(String filepath) {
        SpeechTranscriber transcriber = null;
        try {
            //創建實例、建立連接。
            transcriber = new SpeechTranscriber(client, getTranscriberListener());
            transcriber.setAppKey(appKey);
            //輸入音頻編碼方式。
            transcriber.setFormat(InputFormatEnum.PCM);
            //輸入音頻采樣率。
            transcriber.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
            //是否返回中間識別結果。
            transcriber.setEnableIntermediateResult(false);
            //是否生成并返回標點符號。
            transcriber.setEnablePunctuation(true);
            //是否將返回結果規整化,比如將一百返回為100。
            transcriber.setEnableITN(false);

            //設置vad斷句參數。默認值:800ms,有效值:200ms~6000ms。
            //transcriber.addCustomedParam("max_sentence_silence", 600);
            //設置是否語義斷句。
            //transcriber.addCustomedParam("enable_semantic_sentence_detection",false);
            //設置是否開啟過濾語氣詞,即聲音順滑。
            //transcriber.addCustomedParam("disfluency",true);
            //設置是否開啟詞模式。
            //transcriber.addCustomedParam("enable_words",true);
           //設置vad噪音閾值參數,參數取值為-1~+1,如-0.9、-0.8、0.2、0.9。
            //取值越趨于-1,判定為語音的概率越大,亦即有可能更多噪聲被當成語音被誤識別。
            //取值越趨于+1,判定為噪音的越多,亦即有可能更多語音段被當成噪音被拒絕識別。
            //該參數屬高級參數,調整需慎重和重點測試。
            //transcriber.addCustomedParam("speech_noise_threshold",0.3);
            //設置訓練后的定制語言模型id。
            //transcriber.addCustomedParam("customization_id","你的定制語言模型id");
            //設置訓練后的定制熱詞id。
            //transcriber.addCustomedParam("vocabulary_id","你的定制熱詞id");

            //此方法將以上參數設置序列化為JSON發送給服務端,并等待服務端確認。
            transcriber.start();

            File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                transcriber.send(b, len);
                //本案例用讀取本地文件的形式模擬實時獲取語音流并發送的,因為讀取速度較快,這里需要設置sleep。
                //如果實時獲取語音則無需設置sleep, 如果是8k采樣率語音第二個參數設置為8000。
                int deltaSleep = getSleepDelta(len, 16000);
                Thread.sleep(deltaSleep);
            }

            //通知服務端語音數據發送完畢,等待服務端處理完成。
            long now = System.currentTimeMillis();
            logger.info("ASR wait for complete");
            transcriber.stop();
            logger.info("ASR latency : " + (System.currentTimeMillis() - now) + " ms");
        } catch (Exception e) {
            System.err.println(e.getMessage());
        } finally {
            if (null != transcriber) {
                transcriber.close();
            }
        }
    }

    public void shutdown() {
        client.shutdown();
    }

    public static void main(String[] args) throws Exception {
        String appKey = System.getenv().get("NLS_APP_KEY");
        String id = System.getenv().get("ALIYUN_AK_ID");
        String secret = System.getenv().get("ALIYUN_AK_SECRET");
        String url = System.getenv().getOrDefault("NLS_GATEWAY_URL", "wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1");
      
        //本案例使用本地文件模擬發送實時流數據。您在實際使用時,可以實時采集或接收語音流并發送到ASR服務端。
        String filepath = "nls-sample-16k.wav";
        SpeechTranscriberDemo demo = new SpeechTranscriberDemo(appKey, id, secret, url);
        demo.process(filepath);
        demo.shutdown();
    }
}

常見問題

實時流識別模式,Java SDK中如何觸發回調onTranscriptionComplete?

onTranscriptionComplete可以通過stop觸發,狀態為STATE_STOP_SENT,回調處理完狀態為STATE_COMPLETE。

在測試實時語音識別和語音合成功能時,對應JAR包在哪里?

在測試實時語音識別和語音合成功能時對應JAR包位置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<parent>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-java-examples</artifactId>
<version>2.0.0</version>
<relativePath>../pom.xml</relativePath>
</parent>

<groupId>com.alibaba.nls</groupId>
<artifactId>nls-example-tts</artifactId>

<dependencies>
<dependency>
<groupId>ch.qos.logback</groupId>
<artifactId>logback-classic</artifactId>
<version>1.0.13</version>
</dependency>
<dependency>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-tts</artifactId>
<version>${sdk.version}</version>
</dependency>
</dependencies>

<build>
<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<version>3.0.0</version>
<configuration>
<archive>
<manifest>
<mainClass>com.alibaba.nls.client.SpeechSynthesizerMultiThreadDemo</mainClass>
</manifest>
</archive>

<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>

</configuration>
<executions>
<execution>
<id>make-assembly</id> <!-- this is used for inheritance merges -->
<phase>package</phase> <!-- bind to the packaging phase -->
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>

Java SDK實時識別NlsClient類去連接server報錯, 提示ERROR NlsClient:102 - failed to connect to server after 3 tries,error msg is :hostname can't be null如何解決?

如果您不再使用Demo,需要指定hostname,即請求阿里語音服務側的接口。

接口詳情請參見wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1實時語音識別Java SDK。

使用Java Demo識別錄音文件沒有識別結果,使用文檔中的語音文件識別可以正常識別,該如何解決?

您可以使用file命令查看語音格式,檢查該格式是否符合產品要求。模型支持的標準8K數據格式為8 kHz采樣率、16 bit采樣位數、單聲道WAV格式;16k語音數據標準格式為16 kHz采樣率、16 bit采樣位數、單聲道WAV格式。如果測試使用,可以使用Sox或者ffmpeg等工具轉成標準工具測試;如果線上使用,請參考相關產品說明。

下圖以實時語音識別的接口說明為例。使用Java Demo識別錄音文件沒有識別結果

一句話識別、實時語音識別SDK中,send接口參數含義及使用方式?

以Java為例。java SDK中,一句話識別和實時語音識別分別提供了三個重載的send()接口。如下:

public void send(InputStream ins);
public void send(InputStream ins, int batchSize, int sleepInterval);
public void send(byte[] data);

三個接口使用時要保證持續、實時地向服務端發送語音數據。

demo是用語音文件模擬實時語音流的速度發送語音,通常一次發送間隔時間為100 ms或200 ms(sleepInterval)的語音數據,數據量(batchSize)和采樣率有關:發送間隔過大,會導致延遲較大,容易斷連;發送間隔過小,會消耗服務端和網絡資源??梢赃m當實驗調整到合適數值。

第2個接口中ins為模擬語音流,需要控制發送速率。ins中的數據每間隔100 ms,發送3200字節(16000采樣率)。調用示例:

public void send(ins, 3200, 100); // 16 kHz語音

第3個接口中data為一次性發送的數據,控制循環調用的間隔,調用示例:

recognizer.send(data); // 100 ms語音數據
try {
 Thread.sleep(100);
} catch (InterruptedException e) {
 e.printStackTrace();
}

如何結合SDK日志分析延遲問題?

以Java SDK日志為例。

  • 一句話識別的延遲為一句話說完開始,到收到最終識別結果為止,消耗的時間。

    在日志中搜索關鍵字StopRecognition以及RecognitionCompleted,分別找到語音發送完畢時的日志,以及一句話識別結束的日志。記錄的時間差即為SDK端記錄的一句話延時,如下日志延遲為:984-844=140(ms)。

    14:24:44.844 DEBUG [           main] [c.a.n.c.transport.netty4.NettyConnection] thread:1,send:{"header":{"namespace":"SpeechRecognizer","name":"StopRecognition","message_id":"bccac69b505f4e2897d12940e5b38953","appkey":"FWpPCaVYDRp6J1rO","task_id":"8c5c28d9a40c4a229a5345c09bc9c968"}}
    14:24:44.984 DEBUG [ntLoopGroup-2-1] [  c.a.n.c.p.asr.SpeechRecognizerListener] on message:{"header":{"namespace":"SpeechRecognizer","name":"RecognitionCompleted","status":20000000,"message_id":"2869e93427b9429190206123b7a3d397","task_id":"8c5c28d9a40c4a229a5345c09bc9c968","status_text":"Gateway:SUCCESS:Success."},"payload":{"result":"北京的天氣。","duration":2959}}
  • 語音合成關注首包延遲,即從發送合成請求開始,到收到第一個語音包為止,消耗的時間。

    日志中搜索關鍵字send,找到這條日志和緊隨其后的一條收到語音包的日志。記錄的時間差即為SDK端記錄的首包延時。如下日志延時為1035-813=222(ms)。

    14:32:13.813 DEBUG [           main] [c.a.n.c.transport.netty4.NettyConnection] thread:1,send:{"payload":{"volume":50,"voice":"Ruoxi","sample_rate":8000,"format":"wav","text":"國家是由領土、人民、文化和政府四個要素組成的,國家也是政治地理學名詞。從廣義的角度,國家是指擁有共同的語言、文化、血統、領土、政府或者歷史等的社會群體。從狹義的角度,國家是一定范圍內的人群所形成的共同體形式。"},"context":{"sdk":{"name":"nls-sdk-java","version":"2.1.0"},"network":{"upgrade_cost":160,"connect_cost":212}},"header":{"namespace":"SpeechSynthesizer","name":"StartSynthesis","message_id":"6bf2a84444434c0299974d8242380d6c","appkey":"FWpPCaVYDRp6J1rO","task_id":"affa5c90986e4378907fbf49eddd283a"}}
    14:32:14.035  INFO [ntLoopGroup-2-1] [  c.a.n.c.protocol.tts.SpeechSynthesizer] write array:6896
  • 實時語音識別SDK日志類似一句話識別,可以從日志中計算語音末尾處延遲(關鍵字:StopTranscriptionTranscriptionCompleted)。

  • RESTful形式訪問,客戶端自帶日志中沒有體現延遲。需要用戶自己編寫代碼,或者查看服務端日志。

Java SDK找不到com.alibaba的JAR包,如何安裝Alibaba Cloud SDK for Java?

請參見V1.0 Java SDK安裝Alibaba Cloud SDK for Java。

Java SDK通過傳入阿里云賬號的AccessKey ID和AccessKey Secret,調用阿里云Java SDK得到client提示錯誤org.json.JSONArray.iterator()Ljava/util/Iterator如何解決?

請確認依賴包是否完整,查找并添加如下兩個依賴JAR包。

<dependency>
<groupId>org.json</groupId>
<artifactId>json</artifactId>
<version>20170516</version>
</dependency>

<dependency>
<groupId>com.google.code.gson</groupId>
<artifactId>gson</artifactId>
<version>2.8.2</version>
</dependency>