使用Gemini 3 Pro进行Vibe编码:只需两个提示即可实现屏幕截图转代码的代理

使用Gemini 3 Pro进行Vibe编码:只需两个提示即可实现屏幕截图转代码的代理

文章目录

  • 我为什么选择Gemini 3 Pro
  • 我们正在构建什么?
  • 实践操作:构建智能体
  • 第一阶段:“上帝提示”
  • 第二阶段:“白屏”事件
  • 最终润色
  • 我的看法:应用开发的未来
  • 小结

使用Gemini 3 Pro进行Vibe编码

Gemini 3 终于来了,它迅速引爆网络。人们纷纷讨论 Gemini 的前端功能。于是,我也决定亲自体验一番。试想一下,如果你提供一张截图,AI 就能自动编写代码来模拟图片中的 UI,那该有多棒?这种级别的前端开发需要极高的精准度和耐心。开发者常常要花费数小时才能将静态设计转化为响应式代码。我希望借助 Gemini 3 Pro 的 Vibe 编码功能来加速这一过程。

为此,我构建了一个 AI 代理,用于自动将设计转换为代码。本项目旨在测试 Gemini 3 Pro 的多模态 AI 和 Vibe 编码功能。我的目标是创建一个只需两个提示即可完成截图到代码转换的工具。

我为什么选择Gemini 3 Pro

谷歌在 Grok 4.1 发布仅一天后就推出了 Gemini 3 Pro,两者都声称进行了重大升级。然而,谷歌的模型在推理和技术任务方面领先业界。它在 WebDev Arena 的代码准确率排行榜上名列前茅。我选择它的原因在于它在“感觉编码”(vibe coding)方面的优势。这种方法让开发者能够专注于应用的“感觉”,而由 AI 处理语法。

Gemini 3 Pro 为这个特定项目提供了显著优势:

  • 多模态 AI:该模型能够以开发者级别的洞察力解读像素。它比纯文本模型更能理解布局层级、内边距和组件关系。
  • 智能体功能:它能够管理多文件架构。它可以跨不同文件跟踪状态,而不会丢失上下文。
  • 上下文窗口:该模型将整个代码库保存在内存中。这可以防止在更新特定组件时出现逻辑错误。

我们正在构建什么?

我需要一个强大的原型工具。目标是将静态屏幕截图转换为可编辑的实时 React 项目。为此,AI 智能体需要构建以下核心功能:

  • 一键解析:用户上传图片,系统即可生成结构化代码。
  • 实时预览:界面必须并排显示代码和视觉效果。
  • 隐私:应用程序必须在浏览器中处理数据,不得将图像存储在服务器上。
  • 导出:用户必须能够将最终项目下载为 ZIP 文件。

我担任产品经理。Gemini 3 Pro 担任高级工程师。

将静态屏幕截图转换为可编辑的实时 React 项目

实践操作:构建智能体

我分两步构建了这个复杂的应用程序。我依靠模型来做出架构决策。

首先,访问 https://aistudio.google.com/apps

现在,选择 Gemini 3 Pro 作为您的模型。

第一阶段:“上帝提示”

许多开发者编写简单的提示。他们要求构建一些独立的组件,例如导航栏。我采取了不同的方法,向 Gemini 3 Pro 提供了一份完整的产品需求文档 (PRD)。

为此,我详细描述了截图转代码工具,并列出了主要用户,例如设计师和前端工程师。然后,我明确定义了安全需求,并告诉 AI 智能体:“这是规范。构建整个应用程序。”

别担心,这也不是我自己写的。我借助了 ChatGPT,向它解释了整个应用程序,然后让它生成一份简短的 PRD。

第一个提示:

Screenshot→Code is a rapid prototyping tool that converts a single app screenshot into a live, editable UI and downloadable React+Tailwind project. Users upload a PNG/JPG, the system analyzes the layout and components, generates clean HTML/React code, and renders a faithful preview in a device frame. Users can edit visually (text, images, color, reposition) or edit source code; changes sync immediately to the preview. Final artifacts can be exported as an edited screenshot and a runnable code ZIP for local development.

Core capabilities

  • One-click screenshot parsing → structured UI model (components + styles).
  • Auto-generated HTML (Tailwind CDN) for instant preview + full React+Tailwind project for download.
  • Two editing modes: Visual (WYSIWYG) and Code (live editor). Edits sync both ways.
  • Export: edited high-fidelity PNG and downloadable project archive (ZIP).
  • Lightweight, privacy-first defaults: work in browser by default; persistent cloud storage optional with explicit consent.

Primary users

  • Designers who want to extract UI into code.
  • Frontend engineers accelerating component creation.
  • Product teams making quick interactive prototypes.

Security & privacy

Uploaded images remain in user session by default; explicit opt-in required for server storage. PII warning and purge controls provided.

第一个提示

结果:

Gemini 3 Pro 生成了完整的文件结构。它创建了主应用程序逻辑和预览窗口组件。它选择了一套现代技术栈,包括 React、Tailwind CSS 和用于图标的 Lucide React。AI 代理正确实现了在“代码”和“可视化”选项卡之间切换的逻辑。

Gemini 3 Pro 生成了完整的文件结构

第二阶段:“白屏”事件

我使用以下屏幕截图测试了我们的应用程序,并将其放在应用程序的“Upload a Screenshot”页面中。

使用以下屏幕截图测试了我们的应用程序

第一次测试效果不错,但并不完善。我加载了应用程序并上传了同一应用程序的屏幕截图,但可视化选项卡仍然空白。这是动态应用程序中 iframe 渲染的常见问题。代码逻辑没有问题,但浏览器无法执行。

可视化选项卡仍然空白

我没有手动修复此问题。我使用 Gemini 3 Pro 来诊断此错误。

第二提示:

Why can’t I see anything on the Visual tab and it is white even after GeneratedComponent.tsx is generated. FIx it

修复方案:

模型立即识别出了缺失的依赖项。iframe 需要特定的数据预设才能解析 TypeScript。

Gemini 3 Pro 更新了 PreviewWindow.tsx 文件,修复了以下问题:

  • 添加了 env、react 和 typescript 的数据预设。
  • 改进了代码清理逻辑,移除了 export default 语句。
  • 添加了全局错误处理程序,用于捕获父窗口中的脚本错误。
  • 实现了回退机制。

此修复方案立即生效。截图转代码工具渲染 UI 时没有出现任何错误。

截图转代码工具渲染 UI 时没有出现任何错误

最终润色

应用功能已经可以正常使用,但我想要一些个性化的元素。最初的输出包含一个通用的“由 Gemini 2.5 Flashi 提供技术支持”徽章。我希望能够真正表明这是我的作品。

我指示 AI 代理更新“描述更改”文本字段中的文本。它将徽章更改为显示“Powered by Harsh Mishra”,并带有一个黄色闪电图标。

由 Gemini 2.5 Flashi 提供技术支持

最终的 UI 界面非常专业。它采用深色主题,对比度很高。上传区域使用虚线边框和清晰的字体。渐变效果符合我要求的现代美学风格。这种细节处理充分证明了 Gemini 3 Pro 的动态编码功能强大。

最终的 UI 界面非常专业

我的看法:应用开发的未来

构建这个屏幕截图到代码的工具改变了我的视角。通常,如此复杂的项目需要几天时间才能完成。而我只用了几分钟就完成了。Gemini 3 Pro 与其说像一个聊天机器人,不如说更像一个动态编码的合作伙伴。

动态编码改变了开发者的角色。我们现在管理的是智能体,而不是编写语法。您只需提供愿景,多模态 AI 即可执行逻辑。这种转变使我们能够专注于用户体验和产品价值。

Gemini 3 Pro 证明了 AI 工具能够处理生产级别的复杂性。它能够保持上下文信息,修复隐蔽的错误,并交付流畅的用户界面。

您可以在这里试用截图转代码应用:https://ai.studio/apps/drive/1PfOYRLP-QAAepG128DvJIt18Vofbbrx2

小结

我使用 Gemini 3 Pro 仅用了两个提示就成功构建了一个 React 应用。AI 智能体负责架构、样式和调试。该项目展示了多模态 AI 在实际工作流程中的高效性。像截图转代码这样的工具仅仅是个开始。软件开发的门槛正在降低。Vibe 编码让任何拥有清晰想法的人都能构建软件,而像 Gemini 3 Pro 这样的 AI 模型则可按需提供技术专长。

编程的未来不在于编写冗长的代码,而在于操控智能体。现在,前往 AI Studio,免费构建您自己的应用程序。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2025-12-08 06:34:00

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: