我認為 2025 年我們會看到更多的一件事是 Gemini 如何控制你的 Android 手機。五月份有一個演示和一些其他基礎工作,但我們仍然沒有對 Google 的全面了解。
在 5 月的 I/O 2025 上,Google 公佈了該項目的最新研究原型,該原型可以從網絡/Chrome 檢索內容、搜索和播放 YouTube 視頻、搜索電子郵件、撥打電話以及代表您提出請求。
近 2 分鐘的演示展示了 Gemini 在 Android 版 Chrome 中滾動瀏覽 PDF,以及打開 YouTube 應用程序到搜索結果頁面、滾動並選擇/單擊視頻。 Google 正在努力將這些功能引入 Gemini Live。
10 月份,Google 為開發人員提供了計算機使用模型的預覽版,該模型允許 Gemini 像人類一樣與用戶界面進行交互(通過滾動、單擊和打字)。目前可用的是“針對網絡瀏覽器進行了優化”,但谷歌已經對移動用戶界面控制任務表示了“強烈承諾”。
谷歌將這些功能描述為“構建強大的通用代理的重要下一步”,因為“許多數字任務仍然需要與圖形用戶界面直接交互”。

一個 未來版本 Siri 將允許您使用語音“對應用程序和應用程序執行操作”。蘋果 2024 年的願景是,原本需要你跳過多個應用程序的任務可以通過一些語音命令“在幾秒鐘內糾正”。蘋果概述了應用程序開發人員需要做什麼 支持這個。到目前為止,如果類似的系統或方法即將推出,我們還沒有從谷歌(特別是 Android 團隊)那裡得到任何信息。

…Siri 可以對應用程序執行操作;因此,在要求 Siri 通過說“使這張照片流行起來”來為您增強照片後,您可以要求 Siri 將其放入 Notes 中的特定註釋中,而無需動一根手指。
相反,谷歌所展示的內容是高度通用的,並且似乎不需要事先集成。從很多方面來說,這是一種務實的方法,特別是如果 Android 開發人員不急於在他們的應用程序中支持這一點的話。
這並不是谷歌第一次為此做出努力。 2019 年新版 Google Assistant 的前提是該設備的語音處理(當時的一項突破)“使得通過點擊來使用手機……顯得很慢”。
這款下一代助手將立即通過語音操作您的手機,在應用程序中執行多任務,並以接近零延遲的方式完成複雜的操作。
該功能在 2019 年並沒有真正流行起來,也從未成為 Pixel 獨占產品,它遇到了與之前的助手相同的問題,比如受限制的語音命令。
法學碩士應該讓你在面試中說出你的命令。幸運的是,它還解決了功能限制,允許您在不事先暴露的情況下在任何應用程序或網站上執行操作,這似乎是蘋果系統的限制。
生成式人工智能似乎解決了人們對谷歌過去做法的所有抱怨,但我想知道這一次人們會如何看待它。
一些非常有用的場景是非常明顯的,比如免提使用,正如穀歌希望在 Astra 演示中展示的那樣。保守地說,我預計它將成為明年主流採用的衡量標準。
智能眼鏡(甚至手錶)的影響是深遠的。畢竟,您短期內不會在屏幕眼鏡上運行手機大小的應用程序。想像一下,當口袋裡的屏幕關閉時,能夠控制您的手機並從包括耳機在內的第二個設備獲取信息。
除此之外,我的一個大問題是,這種語音控制(假設完美的準確性)是否有一天會成為智能手機(如果不是筆記本電腦)通過觸摸進行用戶交互的主要方法。


FTC:我們使用附屬鏈接來賺取收入。 更多的










