OpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭


9 月 25 日早,Google 發布兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
在谷歌的系列模型中,Gemini Pro 屬于中號模型,付費用戶可以使用。而 Gemini Flash 則由 Gemini Pro 蒸餾而來,在今年 5 月的 Google I/O 上第一次亮相,目前用戶可以免費在 Gemini 中使用,開發者也有一定免費的 api 使用配額。
模型升級的重點主要為 1.5 Pro 價格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了約 3 倍、輸出速度提高 2 倍,延遲降低 3 倍;過濾器切換為選擇加入。
不過,似乎 Google 今天的宣傳節點再一次被 OpenAI 提前知曉。OpenAI 同日宣布,OpenAI 的高級語音模式,將今日起開始對 Plus 和 Team 用戶推出。
5 月,Google 發布 Gemini 模型的大更新前,OpenAI 就曾提前搶開發布會,宣布很快會帶來高級語音模式,登上媒體頭條「個人助理 Her 就要來了嗎?」
接下來半年,高級語音模式的發布一再推遲,直至今日 Google 更新模型,OpenAI 立刻表示,本周內將推出語音模型。
除了之前已經劇透過的語音模式與人類在對話中的反應時間相近,會變換語調之外,還增加了個性化指令功能——可以直接指令模型說話說慢點,或者用一個特定的口音,同時可以記住你的名字和提前提供的信息給出更個性化的回復。
X 上有用戶不禁感嘆,OpenAI 已經養成了一個新愛好。等著 Google 發布一個更新,幾個小時后馬上發布一個更新。

01.Google Gemini Pro 價格下降一半
從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一個大版本的更新,更多的是一次整體模型的升級。
降低價格是一個重要的更新重點。
Gemini 1.5 Pro 的輸入 token 價格降低 64%,輸出 token 價格降低 52%,增量緩存 token 價格降低 64%,適用于小于 128K token 的提示語,自 2024 年 10 月 1 日起生效。再加上上下文緩存,這將繼續降低使用 Gemini 構建應用的成本。
此外,1.5 Flash 的速率限制從 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制從 360 RPM 提高到 1000 RPM。在接下來的幾周內生效。
Google 1.5 Flash 得到了 2 倍輸出速度和 3 倍更低延遲。
同時,Google 表示,發布的 Gemini 模型,默認不會應用過濾器,開發者可以根據其用例自行決定最佳的配置。Gemini 將繼續提供一系列安全過濾器,開發者可以根據需要為 Google 的模型應用這些過濾器。
Google 還表示,此次模型在數學、長上下文窗口和視覺方面取得了一定的進步。
在更具挑戰性的 MMLU-Pro 基準測試中,看到大約 7% 的性能提升。而在數學和 HiddenMath(一個內部保留的數學競賽問題集)基準測試中,兩個模型都取得了約 20% 的顯著進步。對于視覺和代碼使用場景,兩個模型在評估視覺理解和 Python 代碼生成的測試中表現也更好,提升范圍在約 2-7% 之間。

8 月份發布的 Gemini-1.5-Flash-8B 實驗模型也得到了新的更新。
Gemini 模型本身的亮點包括長上下文和多模態功能。由于 Gemini Flash 對開發者有部分免費額度,新更新可能對于開發某些應用有著很好的效果。
X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 構建了一個應用,能夠在 1 分鐘內轉寫 13 分鐘的長音頻,且準確度很高(且免費)。在另一個應用中,他表示目標探測功能的表現也很不錯。

02.OpenAI 高級語音功能今日起推出
轉頭看 OpenAI 這邊。
凌晨兩點,OpenAI 宣布高級語音模式今日起開始向訂閱用戶推出,周內會全量進行推送。
根據 OpenAI 的宣傳片,與標準語音模式進行區分(黑色旋轉球),高級語音將以藍色旋轉球表示,并增加 5 個新語音。
此次發布的一個重要亮點是,OpenAI 表示,高級語音模式可以提供個性化定義。
在視頻中,OpenAI的研究員表示,用戶可以自定義指令,以讓模型以某種口音發音、記住事件以及用戶想要如何被稱呼等。
「你可以讓模型用特定的語速說話,也許是非常清晰地發音,慢慢地說話,用你的名字或你喜歡的稱呼來稱呼你。」研究員表示。
另一位研究員提供了一個例子,對模型輸入名字和所在城市,在向模型尋求周末的計劃時,模型會根據所在城市,進行更個性化的規劃。
高級語音對話目前僅適用于 ChatGPT Plus 和 Team 帳戶的用戶。免費用戶仍然可以訪問標準語音模式。
不過,Plus 和 Team 用戶每天仍然有高級語音的使用限制,并且每日限制可能會發生變化。當一天的高級語音還剩 15 分鐘時,OpenAI 會向用戶發出通知。
同時,使用高級語音模式無法使用 GPTs,即用戶設計的 OpenAI 的智能體。
高級語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。
最后,OpenAI 還用高級語音模式搞了一個活,表示 ChatGPT 目前可以用五十多種語言表示「對不起,我遲到了,我不是故意讓你等這么久的?!?span style="display:none">52Z知多少教育網-記錄每日最新科研教育資訊
一個很有趣的點是,此次 Gemini 的發布,是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。
而 Logan Kilpatrick,正是 OpenAI 前開發者關系負責人。2024 年跳槽 Google。
而轉頭,此次 Google 發布新模型,OpenAI 就卡點發布高級語音模式。
OpenAI 此次宣布的時間點或許還有另外一個意義——此前外媒報道稱,Meta 公司本周將在 Meta AI 中推出名人語調的音頻對話功能。
在硅谷,AI 的戰爭還在熱火朝天的繼續。
本文鏈接:http://m.albanygandhi.com/news-23-1894.htmlOpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
全球首個!遺傳性耳聾基因療法獲重要突破
關于開展國家中小企業公共服務示范平臺服務情況檢查工作的通知
北京市2024年度建設用地供應計劃
北京市新型冠狀病毒感染監測預警工作方案
接近金牌水平,AI向人類奧數“下手”
關于政協第十四屆全國委員會第一次會議第02948號(科學技術類135號)提案答復的函
2023年度科技部《政府網站監管年度報表》
關于進一步提升不動產登記便利度促進營商環境優化的通知(自然資發〔2024〕9號)
《北京國際科技創新中心建設條例》
《北京市綠色制造單位培育管理暫行辦法》
夜以繼日:拼多多先用后付怎樣套出來-最新6個操作方法
眉清目秀:杭州上城區代還信用卡取現,分享四大方法,最新操作秒到方法
熱門的方法:DY月付怎么套出來秒到賬?
通報:京東白條如何自己套出來(最完美實用的6種變現技巧)-知者
實測:蘋果id貸款口子2024實測對策手法有多種
驚呀:西安周至縣套花唄信用購當面支持線下真香,秒收藏!
通報:京東白條怎么套安全(大家記得收藏好的方法)-知者
方法分享:DY月付怎么找變現商家
分享操作:京東白條的錢怎么提出來