从一言到万象：多模态、数据与应用生成

不积跬步，无以至千里。

前面几篇谈的是如何认识 AI、如何准备上下文、如何引导思考，以及如何把 AI 用在写作里。到这一篇，事情继续往外走：AI 不只在文字方面擅长，它还能看图、听音频、读表格、写代码、生成图像，甚至帮你把一个想法做成可以点击的小工具。

这并不意味着提示词技巧失效了。恰恰相反，越接近真实作品，越要把目标、材料、约束和评价标准说清楚。多模态和应用生成不是“随便一句话变出万物”的魔法，仍然离不开前面学过的方法：先把问题说清楚，再把材料备好，再让 AI 一步步帮你研究、生成、验证和改进。

同时也要记住，媒介越复杂，成本和风险通常越高。文本生成最快，图像和语音更慢，视频往往更慢也更贵；语音克隆、人物视频和仿真内容还会带来身份冒用、版权和职业影响等伦理问题。能做的事情越多，越要先想清楚哪些能做、哪些不该做。

一、博观而约取：AI 不再只会写字

现代 AI 的一个重要变化，是能吃进去的材料更多，吐出来的结果也更多。过去我们主要给它一段文字，让它再返回一段文字；现在，你可以把截图、照片、录音、表格、PDF、代码文件夹交给它，也可以让它输出文字方案、图片、图表、代码、网页应用，甚至语音和视频素材。

这件事的意义不在炫技，而在于AI 能看到更多现场材料。很多事情用文字描述很费劲，直接给材料反而清楚。你想让 AI 分析一个网页设计哪里别扭，与其写十句话描述按钮位置，不如上传截图；你想让它整理一次头脑风暴，与其回忆白板上写过什么，不如拍照给它看；你想分析家庭开支，与其说“感觉这个月花多了”，不如上传账单表格。

因此，多模态真正改变的是协作方式。你不再只是在聊天框里“问问题”，还可以把现实里的材料带进来，让 AI 一起整理、理解和生成。提示词的重点也不再是“写一句漂亮口令”，而是把任务现场交代清楚：这份材料是什么，想解决什么问题，哪些信息可信，哪些地方需要复核，最后希望得到什么形式的结果。

需要注意的是，媒介变多并不等于判断可以放松。图片会看错，音频会转写错，表格会读错列名，代码会有漏洞。越是接近实际产物，越要记住一句话：AI 可以扩大你的处理能力，但不能替你承担最终责任。

二、横看成岭侧成峰：图片输入与视觉上下文

图片是最容易上手的多模态输入。它适合交代场景、结构和证据：收据、白板、便签墙、课堂板书、产品截图、手写草图，都可以成为 AI 理解任务的材料。

比如一群朋友聚餐后，收据上有十几道菜、服务费和优惠券。你可以上传收据，再补充“张三没有喝酒，李四单独点了甜品，其余菜品均摊”，让 AI 帮你计算 AA。再比如开会后白板上写满了箭头、圈点和便利贴，你可以拍照，让 AI 先整理出讨论主题、已达成结论、待确认问题和负责人。课堂板书也是类似场景：拍下推导过程，让 AI 根据图片总结知识点，再标出哪些公式需要你自己核对。

图片输入的好处，是省掉很多说不清的描述。一个页面布局、一个手绘流程、一张设备面板，有时用自然语言讲半天也讲不清；上传图片后，再用一两句话说明任务，AI 往往能更快明白你要做什么。

但图片理解也有短板。OCR 可能把数字 8 识别成 3，把小数点漏掉，把手写字看成另一个词；图像模型也可能对细节过度自信。医疗影像、法律文件、财务票据、精密设备型号这类场景，尤其不能只靠它下判断。比较稳妥的做法是：让 AI 先整理和提取，再由人复核关键数字、名称和结论。如果结果会影响付款、诊断、合同、报销或安全操作，复核就是必选项。

三、胸中有丘壑：图像生成与视觉语言

让 AI 生成图像时，很多人一开始只写“画一只猫”、“做一张海报”，结果常常很普通。原因和写作一样：要求太空洞，AI 只能按最常见的视觉套路往里填。想写出更好的图像提示词，先要学会一点简单的视觉语言。

一个可用的图像 Prompt，通常至少包含四类信息：主体、场景、细节和风格。主体是画面中最重要的对象；场景说明它在哪里、什么时间、什么环境；细节决定动作、物品、构图和光线；风格则限定摄影、插画、水彩、电影感、国风、产品渲染等方向。

比如下面这句就比“画一只猫”清楚得多：

一只猫在夜晚秘密经营咖啡馆，木质桌椅，暖色灯光，窗外有细雨，电影感构图，柔和阴影。

这里的重点不在堆砌形容词，而在先把画面框住。你也可以继续修改：“保持猫和咖啡馆主题不变，把构图改成从窗外往里看”“减少杂物，让桌面更干净”“把色调改得更像儿童绘本”。图像生成很少一次到位，更稳妥的做法，是先确定方向，再针对具体问题修改。

如果已有参考图，编辑图像通常比从零开始做图更容易把控。比如你要做一张活动海报，可以先上传现有版式，让 AI 调整色调、替换背景、增加留白，别让它凭空猜你的品牌气质。只是要记住，图像、视频和语音生成成本通常高于文本，随机性也更强，不适合无限试错。开始前先确定用途、尺寸、风格和不可改变的元素，会比反复“再来一张”更有效。

图像生成本身也带有随机性。同一个提示词，多次生成可能得到不同构图；手指、文字、连续多帧中的角色一致性，也仍然是容易出错的地方。更稳妥的办法，是先多生成几张，从里面挑一个方向，再围绕明确问题做少量修改，不要指望第一张就完全满意。

四、析毫剖厘：数据分析让 AI 写代码替你算

AI 做数据分析时，比较可靠的方式是让它读取数据、理解问题、编写代码、运行计算、生成图表，再解释结果，少让它口头猜。最关键的是中间那一步：用代码把数据算出来，少让模型凭印象编结论。

生活里有很多适合这种方式的任务。你可以上传跑步记录，让 AI 统计每月的距离、配速变化和休息间隔；上传家庭开支表，让它按餐饮、交通、住房、娱乐重新分类，并找出异常增长项；上传店铺销售数据，让它画出月度趋势，比较销量变化最大的产品；上传调查问卷，让它汇总选择题、归纳开放回答，再指出高频反馈。

提示时要把“算什么”和“怎么解释”分开。例如：

请读取这份销售数据，找出销量变化最大的产品，画出月度趋势图，并说明可能原因。请区分计算结果和你的推测。

这句提示里最重要的是最后一句。数据分析里，计算结果、图表观察和原因推测不是一回事。销量下降 18% 是计算结果；下降集中在 7 月和 8 月是图表观察；可能与促销结束、缺货或竞争对手活动有关，则是推测。请 AI 明确区分事实和解释，能减少很多看似严谨的误导。

当然，让 AI 使用代码做计算也并不总是可靠。表头可能理解错，缺失值可能处理不当，单位可能混用，日期格式可能被误读。涉及财务、经营、医学实验、合规报表这类重要场景，最好要求 AI 展示关键计算逻辑，并抽查几行原始数据。AI 可以替你提高分析效率，但重大决策仍要有人复核。

五、运斤成风：用 Prompt 构建小应用

当 AI 能写代码之后，Prompt 就不只用来生成文本，也可以用来生成工具。简单网页、小游戏、账单分摊器、单词卡、配色工具、番茄钟、预算仪表盘，都可以从一段清楚的需求开始。

构建小应用时，最基础的提示至少要讲清三件事：目标、输入和输出。目标说明这个应用解决什么问题；输入说明用户如何操作；输出说明应用返回什么结果。比如：

请做一个番茄钟网页应用。
目标：帮助用户进行 25 分钟专注和 5 分钟休息。
输入：用户可以开始、暂停、重置，并切换专注/休息时长。
输出：显示倒计时、当前状态和完成提示。

如果想让结果更可用，还可以补充约束：在手机上也能使用，按钮要足够大，状态切换要明确，刷新页面后是否保留设置，完成时是否播放提示音。你会发现，写应用 Prompt 和做产品需求很像。区别只是，AI 能很快把模糊想法变成第一版原型，而你要负责判断它是否真的符合使用场景。

这里也要控制预期。AI 很适合从零做一个小工具原型，或者在现有项目里实现一个清楚的功能；但多人在线游戏、实时协作系统、支付流程、复杂权限、长期维护的数据库产品，通常不适合一句话一步到位。更好的做法是先把最小功能跑通，再一点点加东西：先让账单计算器能正确分摊，再加保存记录；先让单词卡能翻面，再加复习计划；先让仪表盘能读本地数据，再考虑登录和云端同步。

应用生成的关键，不该是让 AI 一次写出“完整产品”。更实际的做法，是让它帮你尽快验证一个想法值不值得继续做。哪怕只是一个烟花小动画、配色工具或单词卡，只要能在浏览器里打开、发给朋友试用，它就已经不只是聊天记录，而是一个可以被别人使用的小作品。

六、行远自迩：从想法到作品

把多模态、数据分析和应用生成放在一起看，AI 已经不只是在“回答一句话”，也可以帮你“做出一个东西”。但这件事通常不是一步完成的，而是一步一步往前推：先头脑风暴，再查资料，再构建，再分享，再根据反馈修改。

比如职业选择。你可以先让 AI 帮你头脑风暴可能的职业路径，再搜索各行业的岗位要求、薪资区间和发展趋势；接着整理成对比表，最后做一个自测小工具，让自己按兴趣、能力、风险偏好和学习成本打分。这个过程中，AI 既是资料员，也是分析助手，还是原型工程师。

语言学习也类似。先明确目标：是为了旅游交流、考试，还是工作会议；再让 AI 生成分级词表、例句和听说练习；最后做一个简单单词卡应用，记录掌握程度。家庭预算则可以先分析账单数据，找出支出结构，再生成月度预算仪表盘，让每个月的变化更直观。

这些例子共同说明一件事：AI 的价值不只体现在某一次回答有多惊艳，也体现在它能参与从想法到作品的多个环节。Brainstorm、Research、Build、Share、Iterate，每一步都可以用提示词往前推一点，但每一步也都需要人来定方向、看结果、做取舍。

所以，千里之行仍从跬步开始。不要一上来就要求 AI “做一个完美产品”，先让它帮你澄清问题，整理材料，生成第一版，再拿真实反馈继续改。会问只是起点；能把 AI 放进真实流程里反复使用，才算真正把它用起来。

返回文章列表返回首页

从一言到万象：多模态、数据与应用生成

从一言到万象：多模态、数据与应用生成

一、博观而约取：AI 不再只会写字

二、横看成岭侧成峰：图片输入与视觉上下文

三、胸中有丘壑：图像生成与视觉语言

四、析毫剖厘：数据分析让 AI 写代码替你算

五、运斤成风：用 Prompt 构建小应用

六、行远自迩：从想法到作品

同主题继续阅读

文章千古事：如何用 AI 写出不像 AI 的文字

不做应声虫：让 AI 成为真正的思维伙伴

巧妇难为无米之炊：上下文工程入门

知己知彼，方能善用 AI

人人都能学会的 AI 提示词技巧：序章