从一言到万象:多模态、数据与应用生成
不积跬步,无以至千里。
前面几篇谈的是如何认识 AI、如何准备上下文、如何引导思考,以及如何把 AI 用在写作里。到这一篇,事情继续往外走:AI 不只在文字方面擅长,它还能看图、听音频、读表格、写代码、生成图像,甚至帮你把一个想法做成可以点击的小工具。
这并不意味着提示词技巧失效了。恰恰相反,越接近真实作品,越要把目标、材料、约束和评价标准说清楚。多模态和应用生成不是“随便一句话变出万物”的魔法,仍然离不开前面学过的方法:先把问题说清楚,再把材料备好,再让 AI 一步步帮你研究、生成、验证和改进。
同时也要记住,媒介越复杂,成本和风险通常越高。文本生成最快,图像和语音更慢,视频往往更慢也更贵;语音克隆、人物视频和仿真内容还会带来身份冒用、版权和职业影响等伦理问题。能做的事情越多,越要先想清楚哪些能做、哪些不该做。
一、博观而约取:AI 不再只会写字
现代 AI 的一个重要变化,是能吃进去的材料更多,吐出来的结果也更多。过去我们主要给它一段文字,让它再返回一段文字;现在,你可以把截图、照片、录音、表格、PDF、代码文件夹交给它,也可以让它输出文字方案、图片、图表、代码、网页应用,甚至语音和视频素材。
这件事的意义不在炫技,而在于AI 能看到更多现场材料。很多事情用文字描述很费劲,直接给材料反而清楚。你想让 AI 分析一个网页设计哪里别扭,与其写十句话描述按钮位置,不如上传截图;你想让它整理一次头脑风暴,与其回忆白板上写过什么,不如拍照给它看;你想分析家庭开支,与其说“感觉这个月花多了”,不如上传账单表格。
因此,多模态真正改变的是协作方式。你不再只是在聊天框里“问问题”,还可以把现实里的材料带进来,让 AI 一起整理、理解和生成。提示词的重点也不再是“写一句漂亮口令”,而是把任务现场交代清楚:这份材料是什么,想解决什么问题,哪些信息可信,哪些地方需要复核,最后希望得到什么形式的结果。
需要注意的是,媒介变多并不等于判断可以放松。图片会看错,音频会转写错,表格会读错列名,代码会有漏洞。越是接近实际产物,越要记住一句话:AI 可以扩大你的处理能力,但不能替你承担最终责任。
二、横看成岭侧成峰:图片输入与视觉上下文
图片是最容易上手的多模态输入。它适合交代场景、结构和证据:收据、白板、便签墙、课堂板书、产品截图、手写草图,都可以成为 AI 理解任务的材料。
比如一群朋友聚餐后,收据上有十几道菜、服务费和优惠券。你可以上传收据,再补充“张三没有喝酒,李四单独点了甜品,其余菜品均摊”,让 AI 帮你计算 AA。再比如开会后白板上写满了箭头、圈点和便利贴,你可以拍照,让 AI 先整理出讨论主题、已达成结论、待确认问题和负责人。课堂板书也是类似场景:拍下推导过程,让 AI 根据图片总结知识点,再标出哪些公式需要你自己核对。
图片输入的好处,是省掉很多说不清的描述。一个页面布局、一个手绘流程、一张设备面板,有时用自然语言讲半天也讲不清;上传图片后,再用一两句话说明任务,AI 往往能更快明白你要做什么。
但图片理解也有短板。OCR 可能把数字 8 识别成 3,把小数点漏掉,把手写字看成另一个词;图像模型也可能对细节过度自信。医疗影像、法律文件、财务票据、精密设备型号这类场景,尤其不能只靠它下判断。比较稳妥的做法是:让 AI 先整理和提取,再由人复核关键数字、名称和结论。如果结果会影响付款、诊断、合同、报销或安全操作,复核就是必选项。
三、胸中有丘壑:图像生成与视觉语言
让 AI 生成图像时,很多人一开始只写“画一只猫”、“做一张海报”,结果常常很普通。原因和写作一样:要求太空洞,AI 只能按最常见的视觉套路往里填。想写出更好的图像提示词,先要学会一点简单的视觉语言。
一个可用的图像 Prompt,通常至少包含四类信息:主体、场景、细节和风格。主体是画面中最重要的对象;场景说明它在哪里、什么时间、什么环境;细节决定动作、物品、构图和光线;风格则限定摄影、插画、水彩、电影感、国风、产品渲染等方向。
比如下面这句就比“画一只猫”清楚得多:
一只猫在夜晚秘密经营咖啡馆,木质桌椅,暖色灯光,窗外有细雨,电影感构图,柔和阴影。
这里的重点不在堆砌形容词,而在先把画面框住。你也可以继续修改:“保持猫和咖啡馆主题不变,把构图改成从窗外往里看”“减少杂物,让桌面更干净”“把色调改得更像儿童绘本”。图像生成很少一次到位,更稳妥的做法,是先确定方向,再针对具体问题修改。
如果已有参考图,编辑图像通常比从零开始做图更容易把控。比如你要做一张活动海报,可以先上传现有版式,让 AI 调整色调、替换背景、增加留白,别让它凭空猜你的品牌气质。只是要记住,图像、视频和语音生成成本通常高于文本,随机性也更强,不适合无限试错。开始前先确定用途、尺寸、风格和不可改变的元素,会比反复“再来一张”更有效。
图像生成本身也带有随机性。同一个提示词,多次生成可能得到不同构图;手指、文字、连续多帧中的角色一致性,也仍然是容易出错的地方。更稳妥的办法,是先多生成几张,从里面挑一个方向,再围绕明确问题做少量修改,不要指望第一张就完全满意。
四、析毫剖厘:数据分析让 AI 写代码替你算
AI 做数据分析时,比较可靠的方式是让它读取数据、理解问题、编写代码、运行计算、生成图表,再解释结果,少让它口头猜。最关键的是中间那一步:用代码把数据算出来,少让模型凭印象编结论。
生活里有很多适合这种方式的任务。你可以上传跑步记录,让 AI 统计每月的距离、配速变化和休息间隔;上传家庭开支表,让它按餐饮、交通、住房、娱乐重新分类,并找出异常增长项;上传店铺销售数据,让它画出月度趋势,比较销量变化最大的产品;上传调查问卷,让它汇总选择题、归纳开放回答,再指出高频反馈。
提示时要把“算什么”和“怎么解释”分开。例如:
请读取这份销售数据,找出销量变化最大的产品,画出月度趋势图,并说明可能原因。请区分计算结果和你的推测。
这句提示里最重要的是最后一句。数据分析里,计算结果、图表观察和原因推测不是一回事。销量下降 18% 是计算结果;下降集中在 7 月和 8 月是图表观察;可能与促销结束、缺货或竞争对手活动有关,则是推测。请 AI 明确区分事实和解释,能减少很多看似严谨的误导。
当然,让 AI 使用代码做计算也并不总是可靠。表头可能理解错,缺失值可能处理不当,单位可能混用,日期格式可能被误读。涉及财务、经营、医学实验、合规报表这类重要场景,最好要求 AI 展示关键计算逻辑,并抽查几行原始数据。AI 可以替你提高分析效率,但重大决策仍要有人复核。
五、运斤成风:用 Prompt 构建小应用
当 AI 能写代码之后,Prompt 就不只用来生成文本,也可以用来生成工具。简单网页、小游戏、账单分摊器、单词卡、配色工具、番茄钟、预算仪表盘,都可以从一段清楚的需求开始。
构建小应用时,最基础的提示至少要讲清三件事:目标、输入和输出。目标说明这个应用解决什么问题;输入说明用户如何操作;输出说明应用返回什么结果。比如:
请做一个番茄钟网页应用。
目标:帮助用户进行 25 分钟专注和 5 分钟休息。
输入:用户可以开始、暂停、重置,并切换专注/休息时长。
输出:显示倒计时、当前状态和完成提示。
如果想让结果更可用,还可以补充约束:在手机上也能使用,按钮要足够大,状态切换要明确,刷新页面后是否保留设置,完成时是否播放提示音。你会发现,写应用 Prompt 和做产品需求很像。区别只是,AI 能很快把模糊想法变成第一版原型,而你要负责判断它是否真的符合使用场景。
这里也要控制预期。AI 很适合从零做一个小工具原型,或者在现有项目里实现一个清楚的功能;但多人在线游戏、实时协作系统、支付流程、复杂权限、长期维护的数据库产品,通常不适合一句话一步到位。更好的做法是先把最小功能跑通,再一点点加东西:先让账单计算器能正确分摊,再加保存记录;先让单词卡能翻面,再加复习计划;先让仪表盘能读本地数据,再考虑登录和云端同步。
应用生成的关键,不该是让 AI 一次写出“完整产品”。更实际的做法,是让它帮你尽快验证一个想法值不值得继续做。哪怕只是一个烟花小动画、配色工具或单词卡,只要能在浏览器里打开、发给朋友试用,它就已经不只是聊天记录,而是一个可以被别人使用的小作品。
六、行远自迩:从想法到作品
把多模态、数据分析和应用生成放在一起看,AI 已经不只是在“回答一句话”,也可以帮你“做出一个东西”。但这件事通常不是一步完成的,而是一步一步往前推:先头脑风暴,再查资料,再构建,再分享,再根据反馈修改。
比如职业选择。你可以先让 AI 帮你头脑风暴可能的职业路径,再搜索各行业的岗位要求、薪资区间和发展趋势;接着整理成对比表,最后做一个自测小工具,让自己按兴趣、能力、风险偏好和学习成本打分。这个过程中,AI 既是资料员,也是分析助手,还是原型工程师。
语言学习也类似。先明确目标:是为了旅游交流、考试,还是工作会议;再让 AI 生成分级词表、例句和听说练习;最后做一个简单单词卡应用,记录掌握程度。家庭预算则可以先分析账单数据,找出支出结构,再生成月度预算仪表盘,让每个月的变化更直观。
这些例子共同说明一件事:AI 的价值不只体现在某一次回答有多惊艳,也体现在它能参与从想法到作品的多个环节。Brainstorm、Research、Build、Share、Iterate,每一步都可以用提示词往前推一点,但每一步也都需要人来定方向、看结果、做取舍。
所以,千里之行仍从跬步开始。不要一上来就要求 AI “做一个完美产品”,先让它帮你澄清问题,整理材料,生成第一版,再拿真实反馈继续改。会问只是起点;能把 AI 放进真实流程里反复使用,才算真正把它用起来。