AI NEWS LETTER - 第018期

本期重點摘要

Nano Banana 2 發布：高品質圖像生成全面免費開放，精準支援繁體中文渲染，API 成本砍半。
Gemini 3.1 Pro 發布：推理能力翻倍，帶來 SVG 動畫生成、太空站儀表板、椋鳥群模擬等四大突破應用。
Gemini 3.1 Flash-Lite：速度最快、成本最低的輕量 AI，支援思考等級調控，輸入每百萬 token 僅 0.25 美元。
Claude Sonnet 4.6 登場：支援百萬詞元上下文，無需特殊 API 即可直接操控電腦，定價維持不變。
AI 深度功能大更新：ChatGPT Deep Research 導入 GPT-5.2；Gemini 3 Deep Think 推理力強壓各大競品。
陸 AI 影片雙雄：Seedance 2.0 與 Vidu Q3 引爆全球熱潮，一人電影公司時代正式來臨。
Gemini × Lyria 3：用一張圖也能生成帶人聲的 30 秒原創音樂，同步上線 YouTube Shorts。
AI 工具推薦：Antigravity 全代理開發平台實戰教學，從 Skills 到 MCP 一次看懂。
AI 精選新聞：收錄 23 則最新動態，涵蓋 Yahoo Scout、Chrome Auto Browse、Anthropic Cowork 等重磅消息。

Google Nano Banana 圖像生成

Nano Banana 2 發布！高品質生圖免費開放　支援文字翻譯、繁中更穩了

Nano Banana 2 登場。( 圖 / 翻攝自 Google Blog)

繼 Nano Banana 圖片生成編輯功能風靡全球後，Google 日前正式發表最新圖像生成模型 Nano Banana 2（Gemini 3.1 Flash Image）。過去需付費訂閱的 Nano Banana Pro 專屬功能，如今對所有 Gemini 用戶免費開放，且 API 生成成本僅前代的一半（每百萬 token 只需 60 美元），能以更快的速度帶來更好的影像品質。

1. 精準文字渲染（支援繁體中文）

大幅強化圖片中的文字生成與圖像中定位（in-image localization）的能力，支援生成或翻譯多種語言文字，還能將其加到圖片裡。台灣用戶只需在「快捷模式」輸入繁體中文提示詞，即可一鍵快速生成高品質的社群素材或早安圖，無需額外調整排版。

2. 更優的畫質與角色一致性

提供更鮮明的光影與細節，並能嚴格遵循複雜指令。在單一工作流程中，最高可穩定維持 5 名角色與 14 個物件的外觀一致性，讓連貫性創作變得更簡單。

3. 高度彈性的圖像控制權

使用者可完全掌控圖像規格，解析度支援從最低 512px 到 4K 高畫質輸出，並新增 4:1、1:4、8:1 和 1:8 等多種長寬比設定，滿足各類專案的排版需求。

4. 進階動態推理與資訊圖表

除了能結合 Google 搜尋生成內容豐富的資訊圖表外，新模型加入「調控模型推理等級」功能，使用者可根據需求選擇「預設最小」或「高／動態推理」等級，搭配思考模式，模型可在生成前進行邏輯推理，藉此創作出具備雙關寓意或情緒張力的複雜視覺作品。

Nano Banana 2 已取代 Gemini 應用程式中的 Nano Banana Pro，並將陸續整合至 Google 搜尋 AI 模式、Google 智慧鏡頭、桌機與手機版 Chrome、Google Ads 等工具。開發人員與企業客戶現已可透過 Google AI Studio 及 Google Cloud 的 Vertex AI 平台存取使用。

官方完整介紹 →

Google Gemini AI 推理

Gemini 3.1 Pro 正式發布！推理能力翻倍　四大突破應用一次看

Gemini 3.1 Pro 發布。( 圖 / 翻攝自 Google Blog )

Google 正式推出最新 AI 模型 Gemini 3.1 Pro，專為解決需要多重轉折與思考的複雜任務而生。本次重大更新不僅大幅提升了邏輯推理能力，更將高階推理能力轉化為極具視覺張力與實用性的實戰功能，為開發者與各界用戶帶來四大突破性應用。

Gemini 3.1 Pro 推理效能翻倍

在測試邏輯推理力的 ARC-AGI-2 基準測試中，Gemini 3.1 Pro 取得 77.1% 驗證分數，是前代 Gemini 3 Pro（31.1%）的兩倍多。在跨學科領域的 Humanity's Last Exam 測試上，3.1 Pro 以 44.4% 分數領先 Gemini 3 Pro（37.5%）及 GPT-5.2（34.5%）。

四大突破性應用

1. 純程式碼動態圖像生成（Code-based animation）
Gemini 3.1 Pro 能夠直接根據文字指令，生成網頁專用的 SVG 向量動畫。這些動畫完全由純程式碼構成，不僅檔案體積極小、不佔用頻寬，更具備在任何高畫質螢幕下放大皆不失真的優勢，為網頁設計與開發帶來極大便利。

2. 複雜系統整合與視覺化（Complex system synthesis）
該模型展現了橋接複雜技術數據與直覺介面的強大實力。例如，它能精準解析公開的遙測 API 數據流，自動構建出一個追蹤國際太空站（ISS）軌道的即時儀表板，成功將深奧的航太數據轉化為一般人也能看懂的科技感視覺介面。

3. 沉浸式互動設計（Interactive design）
在多模態資訊處理上，模型可編寫出複雜的 3D 椋鳥群飛（Murmuration）模擬器。這項功能結合了手勢追蹤技術與生成式音效，使聲音能隨著鳥群的移動與使用者的操作產生動態變化，打造出結合視覺、聽覺與觸覺的沉浸式體驗。

4. 氛圍理解與文學轉化（Creative coding）
Gemini 3.1 Pro 具備細膩的「氛圍感推理」能力。以經典名著《咆哮山莊》為例，模型能深度理解小說中壓抑、荒野的抽象情感，並將其轉化為充滿藝術氣息且具備功能性的現代感網站設計，突破了過往模型僅能單一抓取字面關鍵字的限制。

Google 表示，Gemini 3.1 Pro 預覽版目前已於多個平台陸續釋出。一般消費者可透過 Gemini App 與 NotebookLM（Pro 與 Ultra 訂閱用戶）體驗；開發者與企業則可經由 Gemini API (Google AI Studio)、Vertex AI、Android Studio 等工具進行存取。

官方完整介紹 →

Google Gemini 輕量模型

極速＋低成本！Google 釋出 Gemini 3.1 Flash-Lite　主攻海量任務處理

Google 推出 Gemini 3.1 Flash-Lite。( 圖 / 翻攝自 Google Blog )

繼 Gemini 3.1 Pro 推出後，Google 緊接著又推出 Gemini 3 家族中速度最快、成本最低的輕量級 AI 模型 Gemini 3.1 Flash-Lite。此模型有著每秒高達 363 至 388.8 tokens 的超快輸出速度，首字回應延遲（TTFT）也比前代快 2.5 倍；在定價上，輸入每百萬 token 僅需 0.25 美元，輸出 1.50 美元，更是低於其他公司推出的輕量模型，成本創新低。

1. 導入「思考等級（Thinking Levels）」功能

開發者可依據任務需求，在最低、低、中、高四個推理深度間自由切換。針對大量翻譯或資料分類等高頻任務可選用「淺層思考」以極致壓縮時間與成本；面對產生 UI 介面或系統模擬等複雜指令，則可調高推理資源以達到旗艦級模型的精準度。

2. 瞬時多模態轉換

具備 128K 上下文視窗，能將使用者上傳的 PDF、文字、圖片、影片或音訊，以幾乎「瞬時」的速度極速轉換為 Markdown 格式。

3. 即時介面與視覺生成

僅需輸入指令，就能在數秒內產出包含數百款商品的完整 UI 介面，也能結合外部 API 或歷史數據，即時生成動態的資料視覺化看板。內建的「粒子鍛造器」更能迅速模擬出驚豔的動態視覺效果。

4. SaaS AI 智能體應用

憑藉低延遲與低成本優勢，建立能處理多步驟任務的 SaaS 智能體，協助企業自動化處理客戶工單，並快速分析圖文等非結構化的海量資料。

目前，Gemini 3.1 Flash-Lite 預覽版已於 Google AI Studio 的 Gemini API 及企業版 Vertex AI 正式上線。

官方完整介紹 →

Anthropic Claude AI 模型

Claude Sonnet 4.6 登場！沒 API 也能操作電腦　支援百萬詞元處理

Claude Sonnet 4.6 登場。( 圖 / 翻攝自 Anthropic 官網 )

Anthropic 日前正式推出全新中階 AI 模型 Claude Sonnet 4.6。此次更新以維持前代平易定價為基礎，全面升級自動化流程與開發輔助能力，重點功能特色如下：

突破性電腦操控能力

Sonnet 4.6 能在不依賴特殊 API 的情況下，以接近人類操作滑鼠與鍵盤的方式，自主跨軟體（如 Chrome、VS Code、LibreOffice）完成導航試算表或跨分頁填寫表單等複雜任務，有效解決老舊系統自動化的痛點。

高階程式開發與美學生成

在內部評測中，高達 70% 用戶偏好 Sonnet 4.6 勝過前代。它能精準理解既有程式脈絡、減少過度設計與幻覺；同時，生成的網頁前端代碼與數據報告更具備專業設計美感，大幅降低生產修改成本。

100 萬詞元（Token）上下文視窗

首度支援單次容納大型程式庫、數百頁合約或數十份論文。模型展現了卓越的長程策略規劃能力，且處理繁雜企業文件（OfficeQA）的深度推理表現較前代提升 15%。

四大彈性工作流功能

1. 適應性與擴展思考：模型可依任務難度自動調整推理深度，開發者亦能手動控制思考深度以解決艱難難題。

2. 上下文壓縮：當對話逼近長度上限時，系統會自動摘要舊內容，確保長程任務不中斷。

3. 動態過濾機制：API 網路搜尋能自動撰寫程式碼來篩選結果，僅保留高相關性內容以節省詞元消耗。

4. 支援 MCP 串接：支援直接於 Excel 中調用 S&P Global、Moody's 等外部專業金融數據，不需再切換視窗。

此外，Sonnet 4.6 對抗惡意指令注入（Prompt Injection）的資安防護水準已提升至與旗艦模型 Opus 4.6 齊平。該模型 API 定價維持每百萬輸入 3 美元、輸出 15 美元，目前已於所有 Claude 方案及主要雲端平臺全面上線。

官方完整介紹 →

OpenAI Google 深度功能

AI 輔助功能再進化！ChatGPT Deep Research、Gemini 3 Deep Think 更新亮點一次看

ChatGPT 與 Gemini 的深度功能更新。（示意圖／由 AI 生成）

近期 AI 領域迎來兩項深度功能的大更新，分別是 OpenAI 旗下 ChatGPT 的 Deep Research（深度研究），以及 Google 旗下的 Gemini 3 Deep Think（深度思考），為使用者帶來更強大的輔助功能。

● ChatGPT Deep Research

ChatGPT 的 Deep Research 功能導入了 GPT-5.2 模型支援運作，主要提供三項重點功能更新：

1. 指定精準來源：可連接特定應用程式（如 LSEG），並要求 AI 僅針對特定網站或資料庫進行搜尋，確保資訊的精準度。

2. 動態追蹤與干預：使用者能即時追蹤 AI 的研究進度，並隨時中斷以提出後續問題或要求新增特定的資料來源。

3. 全螢幕檢視與匯出：新增全螢幕檢視介面，方便快速對照左側目錄與右側資料來源，完成的報告可直接下載為 Markdown、Word 或 PDF 格式。

ChatGPT Deep Research 官方介紹 →

● Google Gemini 3 Deep Think

Google 官方部落格指出，Gemini 3 Deep Think 本次的重大升級，目的在推動 AI 輔助解決現代科學、研究與工程領域的挑戰，更新重點如下：

1. 頂尖邏輯演算法：在 Codeforces 競賽取得 3455 分的世界冠軍級別（全球僅 7 人能超越），並在多項數理化奧林匹克測試中達金牌水準。

2. 糾正專家疏漏：具備與頂尖科學家協作的深度推理能力，例如曾協助數學家找出人類同行評審未能察覺的高能物理論文微小邏輯漏洞。

3. 硬核工程應用：在材料科學上能協助優化複雜的晶體生長薄膜配方；在物理建模上，更可將手繪草圖直接轉化為可供 3D 列印的實體模型文件，使建模速度提升十倍。

Gemini 3 Deep Think 官方介紹 →

影片生成 ByteDance AI 影音

一人也能拍電影？陸 AI 影片生成技術大突破　Seedance 2.0 與 Vidu Q3 亮點介紹

Seedance 2.0 與 Vidu Q3 在全球掀起熱潮。（示意圖 / 由AI生成）

中國大陸 AI 影片生成技術日前迎來新突破，字節跳動的 Seedance 2.0 與生數科技的 Vidu Q3 近期在全球掀起影片生成熱潮，憑藉顛覆性技術大幅降低創作門檻。

● Seedance 2.0

Seedance 2.0 能在約 60 秒內生成多鏡頭、連貫且帶音訊的短片，特色如下：

1. 四重模態輸入：全面支援圖片、影片、音頻與文本輸入，讓用戶能精準掌控畫面風格、運鏡變化與節奏氛圍。

2. 首創「導演思維」：獨創的分鏡解析演算法能自動辨識情緒轉折並適配劇情，在多角色互動中，視線匹配準確率高達 92%。

3. 專屬數位分身：提供用戶個人的真人錄音錄影校驗，能安全地生成可用於 AI 影片創作的數位人分身。

4. 高效渲染與編輯：具備每秒 80 幀的即時渲染能力，支援影片延長等進階編輯，實測中能生成具備快慢鏡頭切換、極具真實感的高質感廣告。

Seedance 2.0 官方介紹 →

● Vidu Q3

Vidu Q3 是全球首個支援 16 秒高清聲音影像影片直出的模型，特色如下：

1. 四維聲畫引擎：打造全感知劇場，首次實現環境音、動作特效與畫面幀的毫秒級同步。

2. 多語種表演系統：具備極強的語音對齊能力，在西班牙語商務演示場景測試中，虛擬人物唇形匹配度高達 98.7%，足以媲美專業影視配音。

3. 參數解耦（Decoupling）技術：允許創作者在不影響整體構圖的前提下，單獨調整光影、色彩等高達 236 項視覺參數，賦予前所未有的創作自由。

4. 一鍵多模態生成：專為商業打造，可一鍵同時生成影片、3D 模型與互動 H5；生數科技自主研發的 TurboDiffusion 底層框架，視訊生成效率更較傳統方法快 200 倍。

Vidu Q3 官方介紹 →

參考資料：
人人都是導演的時代來了！中國AI視頻雙雄Seedance 2.0與Vidu Q3組團席捲全球
字節跳動Seedance 2.0正式上線火到海外也有註冊教程了
Seedance 2.0 是甚麼？一人電影公司成真？台美 3 大族群概念股全解析

Google Gemini 音樂生成

Gemini 加入音樂生成模型 Lyria 3　用一張圖也能生成音樂

Gemini 加入音樂生成模型 Lyria 3。（圖 / 翻攝自 Google Blog ）

Google 近日宣布為 Gemini 平台導入全新的音樂生成模型 Lyria 3。這項更新讓 AI 創作不再侷限於文字與圖像，用戶只需輸入提示詞，即可一鍵生成長達 30 秒、包含人聲與歌詞的高品質原創音樂，還能自動附上專屬的歌曲封面，讓音樂創作變得更簡單。

功能特色

1. 多媒體互動與情境生成
除了傳統的文字提示詞（例如描述特定音樂風格、情緒或童年回憶），Gemini 更支援用戶上傳照片或影片作為參考素材，系統會自動根據影像的氛圍，生成風格相符的專屬配樂與歌詞。

2. 高自由度的提示詞控制提升質感
使用者若想擺脫生硬的「機器味」，可透過優化提示詞來精細控制音樂細節。只要針對音樂類型、年代、節奏韻律、歌詞結構、人聲特質（如指定中文女聲）及樂器層次進行精準描述，就能大幅提升音樂的情感與複雜度，生成貼近專業錄音室質感的作品。

3. 完整的音樂輸出與社群分享體驗
生成的 30 秒歌曲將自動搭配由 Nano Banana 設計的專屬歌曲封面。用戶不僅能將作品下載為 MP3 格式，也可透過分享連結，呈現帶有動態歌詞效果的音樂片段，與親朋好友輕鬆分享。

4. 內建 SynthID 浮水印與版權保護機制
系統內建 Google SynthID 數位浮水印技術以標示 AI 創作身分，並具備過濾機制以避免產出與既有版權作品過度相似的內容。

支援 8 種語言　同步導入 YouTube Shorts

Lyria 3 音樂生成功能即日起向全球推出，使用資格限年滿 18 歲以上的 Gemini 用戶，目前首波支援英語、日語、韓語、法語、德語、西班牙語、印地語及葡萄牙語等 8 種語言。除了在 Gemini 平台開放外，Google 也同步將 Lyria 3 導入 YouTube 的「Dream Track」工具中，讓創作者可以更輕鬆地為 Shorts 短影音製作 AI 配樂。

官方完整介紹 →

🛠️ AI 工具推薦

Google

Google Antigravity

下一代「全代理開發」

Google Antigravity：AI Agent 寫程式再進化 (圖 / 翻攝自 Google Antigravity )

Antigravity 是 Google 旗下的新一代開發者平台，被定位為專為 AI 代理（AI Agent）而生的全新整合開發環境（IDE）。它不只是一個聊天機器人，其核心目標是改變人類與 AI 的合作方式，讓流程從「AI 協助」進化為「AI 執行」，實現所謂的「全代理開發」。無論是撰寫程式、企劃報告或是資料整理，Antigravity 都能展現出遠超傳統 AI 工具的生產力。

Antigravity 被形容為一個「任務控制中心」。不同於傳統 IDE 僅是寫程式的地方，它讓使用者像指揮官一樣，在任務層級上委派工作給 AI 代理。它支援多種大語言模型，包括 Gemini 3.1 Pro、Claude Sonnet 4.6 以及 OpenAI 的模型，強調「可驗證的產出」，AI 會提交計畫、測試截圖與任務清單，甚至可自行調用 Chrome 瀏覽器向使用者顯示執行過程以及結果。

🚀

功能亮點一：檔案導向的直覺協作

Antigravity 徹底改變了對話式 AI 的繁瑣流程：

直接生成檔案：當提出需求時，AI 會直接在左側建立新的檔案（如文章草稿或程式碼），而非僅在對話框輸出文字。
精準段落修改：檔案中會出現藍色符號，點擊後可針對單一段落提出修改建議，系統會自動更新該處，無需重新生成整篇內容。
多檔案處理：單一指令即可根據需求同時創建多個相關檔案（例如文章草稿與執行計劃）。

🛠️

功能亮點二：Agent Skills（AI 的行動手冊）

Skills 是 Antigravity 最受矚目的功能之一，被定義為「可重複使用的知識包」：

SOP 規範化：開發者可以透過簡單的 Markdown 文件（SKILL.md），將特定的領域知識、最佳實踐或公司規範傳授給 AI。
智慧自動調用：AI 會根據對話的上下文自動判斷並啟用對應的技能（如寫社群貼文或進行 Code Review），無需手動指定。
漸進式揭露：技能包可以包含參考文件或腳本（Python/Node.js），讓 AI 在執行時能自主調用相關資源。

→ 延伸閱讀：什麼是 Agent Skill？

🔗

功能亮點三：MCP 外部工具整合

透過模型上下文協議（MCP），Antigravity 能輕易外掛各種外部程式與服務：

自動化儲存至 Notion：設定好 Notion MCP 後，AI 能直接將生成的文檔上傳到指定的頁面，完全省去複製貼上的動作。
多樣化工具連接：支援讀取資料庫、發送 Slack 訊息、甚至調用 Google Maps 等服務，將 AI 的能力延伸至外部世界。

→ 延伸閱讀：什麼是 MCP？

⚡

進階控制功能

亮點四：Agent Manager（多工管理模式）
提供特殊的「管理者介面」，讓開發者能同時監控多個 AI 代理平行處理任務。在背景執行大型專案時，使用者可以隨時觀察進度，並接收 AI 提交的結案報告。

亮點五：Workflows（自動化流程）
可定義一系列步驟（如：編譯程式 → 測試 → 部署到 GitHub），讓 AI 像執行指令碼一樣一步步完成複雜的連鎖任務。

亮點六：Global & Workspace Rules（規則設定）
可自定義全域或專案規則，例如強制 AI 始終以繁體中文輸出、遵循特定的程式碼格式，或指定特定的口氣風格，確保所有專案的產出品質一致。

💰 Pricing

Antigravity 費用方案比較

目前提供免費版、AI Pro 及 AI Ultra 三種方案

功能 / 資源	🎁 免費版	🚀 Google AI Pro	⭐ Google AI Ultra
速率限制	基礎額度	高額、寬鬆	最高、最寬鬆
配額刷新頻率	每週更新一次	每 5 小時刷新	每 5 小時刷新
使用彈性	適合嘗鮮體驗	適合高需求但非極端密集使用者	適合需要最大資源、最高頻率的使用者
定位	入門體驗	提供「高效能」級別的資源	提供「頂級」級別的資源