Home 经济 “我們在它成為主流之前就已經建立了它”

“我們在它成為主流之前就已經建立了它”

4

「如今,我們正處於一個擁有支援 14 種印度語言的語音到語音模型的階段,」我們發表了文章。

請注意,此 ChatGPT 使用者產生的插圖僅出於代表性目的而發布。

Gnani(發音:Gyani)發布了一個 50 億參數的人工智慧模型,作為計劃很快發布的 700 億參數多模式人工智慧模型的預算版本。

它對語音優先人工智慧和領先模型的關注使其成為在 IndiaAI Mission 下建立印度人工智慧堆疊的開端之一。

在 2016 年印度人工智慧影響力高峰會上, 阿南特納·納加拉吉Gnani.ai 共同創辦人兼技術長接受採訪。 商業標準哈立德·安扎爾硬濕婆 關於該公司從早期語音識別系統到新的語音到語音模型的歷程、政府如何制定其路線支持,以及為什麼它相信較小的、以領域為中心的模型將與最廣泛的邊界相關。

語音轉語音 AI 模型指南

Gnani.ai 到底是什麼?

Gnani 的意思是知識。我們在 2017 年創辦了這家公司,當時人工智慧還沒有「火爆」。

我們想,為什麼不將公司命名為 Gnani.ai,意思是知識。

我們在人工智慧成為主流之前就開始研究它。

我們是印度最早建構印度語言語音系統的公司之一。卡納達語、泰盧固語、泰米爾語、印地語等其他語言都推出了它。

從語音到文本,我們正在將智慧發展為語音,然後發展為聯絡中心的自動化。

如今,我們正處於部署支援 14 種印度語言的語音到語音模型的階段。

這趟旅程始於 2017 年,當時還沒有限量型號。這對你的工作有何影響?

當時的研究是關於雙向表示編碼器轉換器 (BERT) 和早期語言模型等模型。

我們使用時間識別、文字轉語音和 BERT 等範例來理解所說內容並做出回應。

這時候 Alexa、Bixby 和 Google Assistant 就出現了。

然後是帶有第一個電子系統的邊緣模型,現在這些模型正在轉向多模式系統。

我們已經致力於理解和處理語音,現在我們正在接近語音系統的模型極限。

我們還建構了一個包含約 140 億個參數的大型語言模型,其中 500 億個參數的模型現已在預覽版中提供。

IndiaAI 使命下的 AI 先生

前沿模式的興起是否改變了社會的軌跡?

所以我想說這個進程已經加速了兩三年。

以前,我們必須讓某些企業相信科技是可能的。

今天,正如我們所知,這是可能的。現在的問題是它的開發速度有多快。

以前是什麼,現在又是什麼?

我們之前也做過語音自動化,但我們將其用於更具體的情況。

例如,使用基於規則或基於 NLP 的系統進行貸款催收。

如今,這些系統可以變得更加高效,並且處理業務的方式更接近人類的操作方式。

之前我們處理了更多 L1 類型的查詢。它移動 L2 和 L3。時不時地,超出這個範圍。

專注於印度語言和語音優先

公司是否始終以產業為重點?

不是以部門為中心,而是以產業為中心。我們將呼叫中心視為語音的最大用例。

我們透過入站服務、出站收款和電話行銷來做到這一點。

我們的一些早期客戶包括保險公司、催收公司和塔塔汽車等汽車公司。

例如,當有人對塔塔汽車網站表現出興趣時,自動語音通話、確定潛在客戶資格、回答問題、交易、結帳,甚至從睪丸中書籍。這為這個過程帶來了更多的結構和理由。

大約在這個時候,三星也成為了策略投資者,Bixby 在我們的演講中使用了印度語言,儘管產品本身並沒有像預期那樣獲得加入。

今天,這種情況進一步擴大。人們使用這些系統來預約面試、入站支持,甚至透過語音預訂飯店房間,就像我們與 OYO 的合作一樣。

塔塔和LG還在路上嗎?

塔塔汽車仍然是我們的客戶。他們的第一個客戶是 TVS Credit,現在他們仍然和我們在一起。

Bajaj Insurance 是我們的第一個人壽保險客戶,現在仍然是我們的客戶。

我們的客戶群不到百分之一或百分之二。

觸發因素不是孩子們,而是 Hendrerit 的開發者。他們正在開發印度語言的 Bixby。

截至目前,三星仍是投資者。

700 億多式聯運模式路線圖

政府什麼時候開始使用 Gnani.ai?

IndiaAI 的使命是在 2024 年左右。我們被選為第一批該計劃下的邦之一。

早些時候,我們所在的印度的人工智慧有一個白皮書流程。

我們在人工智慧類別下申請並完成了選擇過程。

您從政府得到什麼樣的支持?

我們可以使用 GPU – 每個 Mission India AI 最多可使用約 1,500 個 GPU。這對於學習這些模型至關重要。

例如,AI對Kosh有貢獻嗎?

混合起來。有些例子是商業的,有些是開源的。最終的語音到語音模型將開源。

較小領域優先的人工智慧範例

你動搖了語音到語音模型。這在很多方面有何不同?

在印度,幾乎還沒有人在做多模式梯。在全球範圍內,他們可能創建了四到五家公司。

我們目前的模型接受音訊和文字。原因是許多印度人可以說自己的母語,但不能輕鬆地閱讀或書寫。

印度仍擁有大量功能手機用戶。那麼如何授予人工智慧存取權限呢?語音優先系統可以在那裡發揮作用。

還有更多的計劃嗎?

是的。今天我們使用語音和文字進行工作。下一個方法是

在我們的演示中,您可以看到一個化身係統,例如,某人可以出示 Aadhaar 卡,系統會讀取該卡,識別臉部,透過語音填寫表格並完成註冊。

這個想法是隨著時間的推移將文字、語音和視訊整合到一個系統中。

那麼如何定義現代模型呢?

我們推出的是語音到語音的模式,但我們也有正在開發的多模態能力。

最終的模型將由文字、語音和視訊組成。今天,影片以級聯方式處理,但稍後這三個方式將被合併。

模型尺寸方面的路線圖是什麼?

我們有一個包含 50 億個參數的範例作為預覽。

下一個參數是140億,然後我們就計畫到320億,最後明年大約700億。

您計劃如何部署如此大型的模型,特別是在低收入地區?

我們建立了各種各樣的模型 – 從可以在手機或筆記型電腦上運行的小型模型到需要伺服器的大型模型。

您可以擁有一個幾百兆位元組的十億參數規模下的兆位元組模型供口頭使用,並在基礎設施允許的情況下擴展到更大的模型。

這些都是太子的例子嗎?

是的。所有產品均由印度人使用專有資訊在印度製造。

我們擁有大約 1450 萬小時的音訊資料。

我們什麼時候可以期待更多型號?

140 億模式模型應該在大約六個月內準備就緒。 700 億個參數大約是每年一個。

這些建構的模型是誰?

我們開放我們已經在進行的專案(大約 100 到 200 個組織)的存取權限,並根據他們的用例進行開發。

政府部署取決於機構流程,所以我不會對此發表評論。

您提到您從使用模型的地方刪除了多個樣本。有用例或部門下降的例子嗎?

是的。我們已經在為特定領域建立更小的語言模型。

例如,我們有用於商業和電信的 SLM。

有低於 300 的模組型號可以進一步下降並運行到路邊。

如果您有機會在沒有可靠互聯網的村莊中部署它,它可以有一個固定的農業模型,可以處理公民或農民的任務,並提供語音和文字支持,運行筆記型電腦甚至電話。這在全國幾乎所有地方都可以解釋。

因此,我們的想法是根據用例和限制,將模型從可以安裝在手機上的模型到需要伺服器基礎設施的更大模型。

所有這些的例子已經很多了。您如何看待 Gnani.ai 的觀點?

這些全球性的例子表明,用英語也可以做得很好。但當你使用印度語言時,效能就會下降。

我們為印度語言和印度用例建立模型。還有機會為有類似需求的其他國家提供服務。

並非每個用例都需要一兆參數模型。許多工業和高端應用可以用200億、500億甚至更小的模型來解決。

更多型號會增加基礎設施和隨之而來的成本。

我們相信世界將轉向更專業、更小、更高效的模型,而不是只依賴一種大型基礎模型。

現在有止痛產品嗎?

ChatGPT 風格的智慧型應用程式。但我們有文字轉語音、語音辨識和翻譯的工具。

例如,您上傳了各種印度語言的音訊。它可以透過我們的 Inya 平台獲得。

重點

  • 語音 AI 預覽版發布:Gnani.ai 發布了支援 14 種印度語言的 50 億參數語音 AI 語音模型。
  • 即將推出更大的模型:該新創公司計劃推出 14B、32B,最終推出 70B 多參數人工智慧模型。
  • IndiaAI 任務支援:Gnani.ai 是 IndiaAI 治理和存取關鍵 GPU 基礎設施任務的一部分。
  • 專注於人工智慧技術:所有型號均在印度製造,使用印度專有的語音數據。
  • 語音優先策略:Gnani.ai 僅適用於擁有可從手機到伺服器運行的專門人工智慧模型的企業和農村用戶。

專題介紹:Ashish Narsale /雷迪夫

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here