谷歌使用哪些數據來訓練 Gemini?

你聽過谷歌雙子座嗎? Google Gemini 是 Google Bard 的新名稱,這是其首次嘗試建立像 ChatGPT 這樣的大型語言模型 (LLM)。該項目並沒有真正按預期啟動,由於 LLM 拒絕生成白人圖像,該項目出現問題,導致其股價下跌 70 億美元。儘管如此,它現在已經可以使用了,客戶每月需要支付 19,99 美元才能使用這項服務。但Google要用什麼資料來訓練 Gemini 呢?請仔細閱讀,找出答案。

全面的數據收集

Gemini 的訓練利用了從 Google 龐大的數位生態系統收集的龐大且多樣化的資料集。如果您不希望 Gemini 使用您的訊息,則必須從 Google 刪除您的資料。這包括

  • 文字資料:來自 Google 搜尋引擎和數位圖書館上的網頁、書籍和科學文章的文字。文字訊息幫助 Gemini 理解並產生類似人類的文字回應。
  • 視覺數據:來自公開網路資源的圖像和影片使模型能夠有效地識別和解釋視覺內容。
  • 音訊資料:來自各種來源的聲音和口語增強了雙子座理解和生成語音的能力。
  • 谷歌雲端:Google使用了大量谷歌雲端的個人資料——據報道,Google有一個許多人不知道的選擇加入條款。

來自多個來源的這些類型的資料使 Gemini 能夠處理和理解複雜的多模式查詢。但你認為它會像 ChatGPT 一樣優秀、先進嗎?

提高多式聯運能力

Gemini 的與眾不同之處在於它能夠在訓練的最初階段整合並綜合來自不同資料集的資訊——這是 ChatGPT 無法做到的,因為該技術仍在開發中。但它為 Gemini 等技術奠定了基礎。

這種基本的多模式訓練對於創建人工智慧至關重要,它不僅能模仿人類交互,還能以情境和物質方式理解和交互。例如,Gemini 可以分析醫學影像、參考相關醫學文獻並撰寫綜合答案。當然其他形式的人工智慧也可以做到這一點,但 Gemini 聲稱做得更好。

道德考量和安全措施

谷歌制定了健全的協議,以確保 Gemini 的培訓符合高道德標準(道德標準是人工智慧的主要關注點)。培訓過程包括以下要素

  • 偏差和安全測試:旨在識別和減輕人工智慧回應中的偏差的程序。這有助於確保雙子座的互動是公平的,不會延續刻板印像或傳播錯誤訊息。
  • 對抗性測試:用於使人工智慧能夠抵禦操縱其結果的嘗試的技術。這提高了模型的安全性和可靠性。
  • 與外部專家合作:與產業專家合作,審查和完善人工智慧行為。目標是維持 Gemini 營運的透明度和問責制。

影響和未來方向

Gemini 使用的訓練資料影響其當前的能力,並為未來人工智慧的發展奠定了基礎。

隨著 Gemini 不斷發展並從新數據中學習,它會適應變化並發展對人類互動的理解,這將使其近乎完美。人工智慧有一天能夠完美地再現人類的行為和理解嗎?那些告訴我們人工智慧將接管世界並引發機器人毀滅的陰謀論者希望不會。

Gemini 代表了人工智慧訓練的重大進步。它展示了跨多種模式利用不同數據集的力量。它的表現會和其他人工智慧模型一樣嗎?未來會告訴我們答案。

照片來源:unsplash.com/photos

閱讀更多指南:

發表評論

您的電子郵件地址將不會被發表。 必填字段標 *