ChatGPT出来这么久,一直在用,也一直想写点什么。但这个深不可测的工具,似乎总也摸不清他的能力边界。从技术和应用的角度分析的文章已经太多了,这里想从一些日常使用经验出发,思考一下多模态AI的未来可能性。
聊天,是ChatGPT的基本交互模式。本质上,这是一种自然语言交互,而自然语言的能力几乎是无限的,人类所有的知识,几乎都是靠用自然语言描述世界来传播和传承的。 而在数字空间或者说元宇宙中,从描述世界到创造世界可能并没有严格的界限 。
第一层,简单工作:知识搜索、提取与结构化处理
(相关资料图)
在几乎消化了人类的所有存量知识之后形成的千亿参数大模型,知识的提取和结构化处理是其最基本的应用。这方面也是大家最熟悉的,包括各种prompt技巧也有无数的教程,其实不必多说。本文仅从个人日常使用的一些经验中挑一些有趣的使用方式来举例说明。
表格生成
请ChatGPT查询数据并生成表格是基本操作,他可以代替我们的大量信息检索和综合工作。
但是即便是New Bing已经给出了数据出处,我们也许还是会不太相信其数据来源。那么也可以给他一段描述性文字,请其用表格的方式结构化整理。比如你可以把描述苏轼生平或者谷爱凌的经历的大段文字输入。
无论什么内容,我们几乎都会看到里面会出现一些理解的小错误或者遗漏,需要人工干预和调整,但这已经不妨碍其作为工具的高效性了。
图表
图表是相对于表格更为复杂的数据加工方式,需要对信息更充分的理解和加工。虽然ChatGPT并不支持直接输出图片,但可以用各种脚本语言对图表进行输出。虽然看起来相对简陋,但其实可以用来驱动更为复杂的软件工具来生成更加复杂和漂亮的图表。
Quickchart是比较常见的开源的图表控件库,只要要求ChatGPT按这一格式输出,就会返回一个web地址,粘贴到浏览器中即可解析为图表,包括饼图、柱状图、折线图等。如以下两个例子:
用全球前三个人口大国的历年人口数据,生成基于QuickChart的Markdown格式的折线图。
对比世界前五大云计算厂商历年的云计算收入,生成基于QuickChart的Markdown格式的折线图代码。
Mermaid是一种另一种基于Javascript的绘图工具,同样也可以要求ChatGPT输出,而且除了统计图表外,还可以支持更丰富的流程图、关系图和思维导图,需要在Mermaid.live等编辑器中粘贴并渲染。例如:
用Mermaid格式绘制饼图,表现全球云计算市场份额。
用Mermaid格式代码绘制智慧城市顶层设计方法的思维导图。
领域知识理解
未来大模型会提供与各种应用和领域知识的接口,ChatPDF是目前比较典型的应用。其功能就是投喂PDF文件,由ChatPDF的API阅读理解并摘要,用户可以针对文章提各种问题。这种方式目前还有很多局限性,但未来以类似的方式可以训练领域小模型,提供某方面的针对性问答能力。
三维模型
用自然语言描述三维世界是比较终极的体验。基于ChatGPT的理解能力,其实已经具备了理解需求并用三维场景描述的初步能力,只是近期还需要借助一些第三方工具来呈现。网上已经有基于Unity插件或者英伟达Omniverse实现自然语言建模甚至场景生成的视频。
我主要通过更加简单的openSCAD格式来测试其基本能力。比如生成一个原子核的模型,或者一个太阳系的模型,这些都是基于其知识理解的再创造过程。甚至它还可以生成一些基于简单几何图形的杯子、手办的简单设计并3D打印。虽然请它反复修改创作一个企鹅的过程,最终还是比较幼稚,但未来与文生图等能力结合后,相信可以胜任更复杂的场景生成。
(这是个网上的范例视频,是要求ChatGPT反复修改并有部分人工干预的成果)
这里还有个问题,似乎能上网以后,ChatGPT变懒了,以前自己会思考生成的东西,现在bing更倾向于直接扔过来一个教程或者类似的范例。
个人助理
虽然openai和微软并未强调这方面的能力,但与ChatGPT沟通的过程中,有时也会感觉到其对用户的分析和适应,所以我也请其分析过我的个人特点,可以看出其非常细腻的个人画像方法,相信未来作为每个人的个人助理,是可以提供类似真人的体验的。但这件事背后的隐私和伦理风险,明显是细思恐极,这里就不展开了。
响应同事的需求,我也模仿自闭症患者对其求助,返回的信息也非常专业和得体。
第二层,复杂工作:编程
相对于表格和图表,对于更加复杂的工作,ChatGPT往往需要用到编程工具和代码来实现。我也正在其帮助下学习一些简单的python代码,从软件安装到代码调试,可谓不厌其烦。但如果没有真正的专家支持,恐怕目前想编写像样的代码还是存在很多问题的。
在这个案例里,我请它检索各省的GDP,并用一段python代码来生成专题地图。在调用绘图库的过程中出了很多问题,它尝试了一些过时的库之后,最后我还是人工指定了echarts来完成。但代码中还是出现一些小问题,最终还是请教同事解决。当然,生成的框架和逻辑是基本可用的,这很大程度上可以证明,未来没有编程基础的素人,也可以通过自然语言让AI完成复杂的工作,甚至包括对机器人的控制。
第一步:给出中国各省2020年GDP,并生成CSV表格
第二步:通过读取中国各省GDP数据,用python和pyechart生成地图的代码
第三层,高维工作,描述世界与创造世界
建筑设计:扩充描述的ChatGPT咒语
建筑设计是我遥远的本行,这是一个绝对复杂高维的工作,以前往往认为是对AI有一定抵抗力的领域。然而最近以Stable Diffusion和Midjourney为代表的文生图工具的快速进化,已经有大量建筑师在实验新的方案阶段工作流。这个过程更像用自然语言描述你的设计思想、概念和表现手法,其实与方案草图的逻辑相当类似,然而差别就是几乎不需要所谓的“基本功”和漫长的表现时间,就可以直接呈现效果图。虽然很多专人人士仍然质疑其可用性,但作为快速辅助生成创意的工具,个人认为其必定会深刻改变行业的工作模式,当然也包括学校的教学模式。正如本科时学院为保证“基本功”训练,禁止多年的电脑出图,后来终成了基本功的一部分。
虽然数字空间里的建筑物逻辑并不应该与现实中相同,但近期的元宇宙形态中,大多数建筑物应该还是与物理空间类似的逻辑,所以建筑设计对创造数字世界仍然是重要的技能。
在使用文生图工具的设计流程中,ChatGPT通常被施加咒语,并成为Prompt的生成器,简而言之就是把简单的设计要求和思路,变成更加充实丰富的提示词文本。这个环节其实并非必须,不过文字和图像工具对设计描述的两次加强过程,对高质量产出是更好的保证。
文生图
DALL·E 2, Stable Diffusion 和 Midjourney这些工具各有特点,对于建筑设计来说,后两者都在广泛使用,也各有优势。MJ更容易生成像样的图像,而SD则发挥了建筑师的显卡能力,可以本地部署,甚至训练专门的领域模型。虽然目前输出的只是效果图,但将其三维重建甚至生成施工图,目前也看不到任何技术障碍,只是时间问题了。希望近期能做些基于SD的行业工具和活动,这里就不展开说了。
图生图控制要素
Controlnet是一个基于 Stable Diffusion的轻型预训模型,在网上更多是用来通过骨骼形态生成特定动作的小姐姐的,不过被有想象力的建筑师们大量用于基于草图生成更可控的建筑造型。 这个网上教程也很多,同样不多说了。 这一能力的加入,包括与传统建模工具和参数化技术的结合,相信将加速这一工作流的快速普及。
多模态大模型的创世未来
正在写这篇文章时,多模态的GPT4.0已经发布了,号称已经具备了从音频、图像到视频的多模态交互能力,甚至可以驱动机器人,真正成为了全面连接数字和物理空间的交互纽带。
有人在质疑,大模型和AIGC会不会与之前的元宇宙和web3一样昙花一现,仅是资本阶段性炒作的筹码。但其实 这几种技术并不能分开理解,而是共同代表着未来数实一体的新文明形态。元宇宙之所以阻力重重,正是因为内容生产效率和质量存在的瓶颈,而AIGC的多模态能力,显然有助于实现这种创世级别的计算能力,帮助我们生成沉浸式的全息数字场景体验。web3的分布式机制,也恰恰是匹配这种无门槛的海量内容生成能力,每个人都可以创造内容,并用区块链来确权和流转。所以,这几样技术的同步涌现,是历史的必然,也是技术革命发生的真正拐点。
除此之外, 与前几次技术革命一样,物质、能量和信息的生产和转移方式同时发生变化时,才会推动城市形态和文明形态的改变。在机器人和自动驾驶(物质生产与转移)、可再生能源(能量生产与转移)技术都即将成熟的时点。AI技术的跃迁,即将彻底重构信息生产与转移的方式,也确立了物质和能量精确供需匹配的新范式。
标签: