AI 做的簡報總是很醜?改用 Codex 把每頁當 16:9 資訊圖生成,再組成 PPT
☰ 目錄 table-of-contents.md
上週要把一份 Codex 教學整理成能直接發給客戶的簡報。先試了 NotebookLM,一鍵就生出一份投影片,但中文標題擠成兩行、想把重點從「功能」換成「流程」得整段 prompt 重講一次,匯出的 .pptx 套版味很重,改起來綁手綁腳。接著乾脆叫 AI 直接寫程式產檔,版面卻是標準的工程師審美:灰底方塊配項目符號,資訊都對,就是談不上好看。問題卡在同一個地方,AI 很會整理內容,但「把內容排得好看」這件事,目前的工具都差一口氣。
後來換了個思路才打通。簡報之所以醜,是因為我們一直要 AI 去做「排版」,而排版恰好是它最弱的一環;可是「畫一張好看的圖」這件事,OpenAI 在 2026 年四月推出的 gpt-image-2(介面上常被稱作 Images 2.0)已經做得很好,連中文字都能渲染。於是把問題反過來:讓 Codex 把每一張投影片當成一張 16:9 的資訊圖直接「畫」出來,再用程式把五張圖組成一個 .pptx 檔。這篇就完整拆解這條流程,從提示設計、圖像生成、中文字修正到打包交付,並對照 NotebookLM 和直接產檔兩種常見做法,說明什麼時候該用哪一種。
為什麼「叫 AI 做簡報」總是差一口氣
市面上把資料變成簡報的 AI 工具不少,但真正拿去交付時,會撞到三個結構性的限制。把它們講清楚,才看得懂後面那條路為什麼繞得有道理。
- NotebookLM 這類一鍵生成:快,但版型是它的、不是你的。它能把來源文件一鍵變成投影片,自動配好版面、icon 與配色,2026 年二月起還能直接匯出可編輯的 .pptx。但生成當下的結構與強調點主要靠 prompt 引導,想精細調整某一頁的標題斷行、某個重點的視覺權重,往往只能整份重新生成,做品牌化客製更是卡。
- 叫 Antigravity 或 Claude 直接產 .pptx:能跑,但版面是工程師審美。這些 coding agent 會老實地用 python-pptx 之類的函式庫拼出投影片,文字方塊、項目符號、表格都對位,但設計感止步於「能看」。要它排出有層次、有呼吸感的版面,等於要求一個寫程式的工具去做平面設計,先天不對盤。
- 共同的根:把投影片當「排版問題」解。不管哪條路,AI 都在試著把文字、色塊、圖示擺進格子裡,而版面美感正是大型語言模型最不穩定的能力。只要還在拼版面,產出就很難跳出「資訊正確但不好看」的天花板。
我們在〈Antigravity、Claude Code、Codex 三大 AI Coding Agent 完整比較〉裡比過這幾個工具的強項,它們擅長的是理解需求、寫對程式、跑通流程,而不是視覺設計。認清這點,下一步就清楚了。
換個思路:把投影片當「圖」生成,而不是當「版面」拼
關鍵的轉念是:與其要 AI 排版,不如讓它畫圖。gpt-image-2 是 OpenAI 第三代旗艦圖像模型,於 2026 年四月二十一日發表,本文相關規格查證於 2026 年六月十五日。它最大的突破是首度把 O 系列的推理能力放進圖像模型,生成前會先規劃整張圖的結構,並支援 2K 解析度與多語言文字渲染,這也是它能把含中文標題的資訊圖畫得像樣的原因。
所以新做法是:把一頁投影片,整頁當成一張 16:9 的資訊圖交給 gpt-image-2 生成。版面、配色、圖示、文字層次全都在「畫圖」這一步由模型一次處理好,徹底跳過「拼版面」這個它最弱的環節。生成出來的五張圖,再用程式塞進一個 .pptx,每張投影片就是一張滿版圖。這正是社群專案 codex-ppt-skill 在做的事:每張投影片都是一張完整的 16:9 生成圖,最後用腳本組裝成 .pptx。OpenAI 官方也把這列為 Codex 的標準用途之一,見 Codex 官方 generate slide decks 使用案例。
這個思路跟我們之前在〈WordPress AI 圖像生成整合實作〉裡談的方向一致:把 AI 圖像模型當成生產線的一個工序,而不只是玩具。
這條流程長什麼樣:Codex × gpt-image-2 × python-pptx
整條流程由 Codex 當總指揮:它負責規劃內容、呼叫圖像模型、寫好組裝程式並執行。實際下指令時就是一句話的事,把要做的教學主題、張數、比例與「最後組成 ppt」講清楚即可。
從截圖可以看到 Codex 把它當成一個完整交付物在處理,先盤點「影像成品優先」的工作型態(用圖像生成流程產圖,再把圖搬進工作區,避免 PPT 只引用到暫存路徑),接著把教學內容定稿成五張投影片的骨架,才開始生成圖片。下面把這條流程拆成五個可複製的步驟。
實戰拆解:五步做出一份圖像式簡報
第一步:讓 Codex 定稿五張投影片的骨架
先不要急著生成圖。讓 Codex 把教學內容收斂成固定張數的大綱,每一頁定下標題、要點與視覺主題。以這份《Codex 教學手冊》為例,五頁的骨架依序是封面、概念(Codex 是什麼)、操作步驟、進階工作流、上手指引。這一步的價值在於先把「內容」鎖死,後面生成圖時才不會每張風格與資訊量各走各的。
第二步:用 gpt-image-2 生成 16:9 資訊圖
骨架定稿後,Codex 逐頁呼叫 gpt-image-2 生成 1536×864 這類 16:9 比例的圖。提示設計是這一步的靈魂,要把四件事講清楚:版面類型(封面頁、概念圖、步驟流程圖)、要顯示的中文文字內容、配色與風格(例如深藍科技風、霓虹藍青光)、以及「保持留白、文字不要溢出」這類排版約束。下面這張就是第二頁「概念」的成品。
第三步:本機排版修正中文字
這一步是整條流程最容易被忽略、卻最關鍵的地方。gpt-image-2 的中文字渲染已經大幅進步,但圖像模型本質上是「畫」字而不是「排」字,偶爾仍會出現缺筆、錯字或斷行不理想。處理方式有兩種:一是把錯字當成編輯指令,請模型針對該頁重繪修正;二是對少數關鍵文字,在本機用 Pillow 之類的工具在圖上重新疊一層乾淨的文字。重點是建立一個校稿環節,逐頁檢查每個字,不要假設模型一次就對。
第四步:用 python-pptx 組裝成 .pptx
五張圖都校好後,Codex 寫一段 python-pptx 腳本,把投影片尺寸設成 16:9,逐頁建立空白投影片,再把對應的圖片以滿版方式貼上去。因為每張投影片就是一張滿版圖,這段程式非常單純,不需要處理文字框與版面配置。產出的就是一個能直接用 PowerPoint 開啟、可播放的 .pptx 檔。
第五步:品質檢查與交付
最後做一輪整體檢查:五頁風格是否一致、文字有沒有殘留錯字、圖片解析度在投影時夠不夠清楚、檔案大小是否合理(滿版圖會讓檔案偏大,必要時壓縮)。確認無誤再交付。這套「先批內容、再生成、後校稿、最後打包」的節奏,跟我們在〈把同事煉化成技能包〉裡談的 SKILL.md 工作流可以無縫接起來,把這整條流程封裝成一個可重複呼叫的技能。
三種做法對照
同樣是讓 AI 做簡報,三條路的取捨差很多:
| 做法 | 版面美感 | 文字可編輯性 | 客製彈性 | 最適場景 |
|---|---|---|---|---|
| NotebookLM 一鍵生成 | 中等,套用內建模板 | 高,匯出 .pptx 可逐字改 | 低,受模板限制 | 內部快速整理、可接受制式版型 |
| Antigravity/Claude 直接產 .pptx | 偏低,工程師審美 | 高,原生文字框 | 中,能寫死樣式但要工 | 需要大量資料表、之後常改字 |
| Codex + gpt-image-2 圖像式 | 高,整頁由圖像模型設計 | 低,圖上文字要重繪才能改 | 高,風格由提示自由控制 | 對外發布、重視視覺、改字頻率低 |
看得出來這是一組明確的取捨:圖像式做法用「文字不好改」換來「版面好看」。所以它不是萬用解,而是特定情境下的最佳解。
什麼情境用哪一種
- 要對外發布、重視第一眼質感的簡報(提案、課程、產品介紹):用 Codex + gpt-image-2 圖像式。視覺到位最重要,文字定稿後不太會動。
- 內部快速消化大量資料、版型可接受制式:用 NotebookLM。五分鐘出稿,重點是把內容看懂。
- 資料密集、上線後還要頻繁改數字改文字:用 Antigravity 或 Claude 產原生 .pptx。可編輯性優先,醜一點之後再美化。
- 想把流程自動化、反覆產出同風格簡報:把 Codex 這條流程寫成腳本或 SKILL.md 技能,之後一句話就能再產一份。
如果你還在猶豫整個團隊該押哪個 coding agent,我們在〈Claude Code、Google Jules、Devin 比較〉與〈AI Coding Agent 價值決策指南〉裡有更完整的選型討論。
這套流程的限制與注意事項
圖像式簡報很適合特定場景,但有幾個先天限制必須先知道,免得交付後才發現:
- 文字不能直接改:投影片上的字是「畫」在圖裡的點陣內容,不是文字框。要改一個字,原則上得重新生成那一頁或在本機重疊文字。對「定案後不再動」的簡報沒問題,對「天天改」的就不適合。
- 無法當大綱編輯:你拿到的是五張圖,不是有層級結構的內容,沒辦法像一般 PPT 那樣折疊大綱、搬動條目。
- 檔案偏大:每頁滿版高解析圖會讓 .pptx 體積上升,寄送或上傳前可能要壓縮。
- 規格與費用會變:gpt-image-2 的開放範圍、解析度與計費在 2026 年仍在演進,API 約於 2026 年五月起對開發者開放。生成大量高解析圖會產生實際費用,正式導入前請以 OpenAI 官方圖像生成 API 公告與 gpt-image-2 模型文件為準。
資料來源與延伸連結
本文所有產品規格與日期查證於 2026 年六月十五日,模型能力與計費變動頻繁,使用前請以官方頁面為準:
- OpenAI:圖像生成 API 公告
- OpenAI:gpt-image-2 模型文件
- OpenAI Codex:generate slide decks 使用案例
- codex-ppt-skill(圖像式簡報的開源 Skill)
- Google NotebookLM:產生簡報官方說明
- Google:NotebookLM 簡報功能的八種用法
延伸閱讀
- 把同事「煉化」成技能包:用 Claude、Antigravity、Codex 留住老鳥的經驗
- Antigravity、Claude Code、Codex 三大 AI Coding Agent 完整比較與企業選型指南
- WordPress AI 圖像生成整合實作
- Google Antigravity 2.0 與 Gemini 3.5 Flash 實測
如果你想把這類「AI 生產線」搬進公司日常,從簡報、文件到內容自動化都交給 AI 跑,這正是我們在做的事。歡迎跟浪花科技聊聊,或先看看我們的 AI 自動化開發服務。
常見問題
Q1: gpt-image-2 和 Images 2.0 是同一個嗎?
Q2: 為什麼不直接叫 AI 輸出可編輯的 PPT 就好?
Q3: 圖片生成的投影片,之後還能改文字嗎?
Q4: 這跟 NotebookLM 做簡報差在哪?
Q5: 需要會寫程式才能做嗎?
訂閱免費電子報
把 AI 自動化、企業系統設計與 WordPress / Laravel 開發的真實案例和可直接照做的技巧,整理成電子報寄給你。只寄精選內容、不灌垃圾信,一鍵就能退訂。