沃卡logo

为什么说生成式AI需要新的设计方式?

2023-10-31来源:

在面谈会中讨论生成式AI,与会者们从担忧到惊奇可谓反应不一。而风险投资者——特别是像我这样在公司始创之初就与创始人合作的风险投资者——总会强调我们正处于技术生命周期的“起始阶段”。但随着过去一年来AI技术的飞速发展,从去年11月ChatGPT的推出到多模态模型的亮相,这个起始阶段似乎即将过去。其中蕴藏的可能性既令人兴奋、又让人隐隐感到不安,特别是面对种种不确定性和尚未实现的目标。

如今,最流行的生成式AI应用大多依赖于开放式对话框,但这样的聊天式交互几乎无法提示底层系统到底有哪些局限、又具备怎样的潜能空间。用户需要自行表达意图、记住所有相关上下文,并评估AI给出的答案。但套用德国著名工业设计师Dieter Rams的话说,好的设计应该揭示出产品的正确用途,如同手指可以轻易滑进手套一样。通过采取以人为本的方法,设计师们可以勾勒出直观的操作界面、增强可用性、培养信任,并允许用户有意识地浏览模型那庞大的内部概念,而不再像现在这样漫无目的地徘徊摸索。

为什么说生成式AI需要新的设计方式?

借助生成式AI,计算机获得了一组前所未有的能力:理解和生成语言、代码、图像及声音;学习和表达知识;甚至是进行逻辑推理。这些能力共同成为一组创新基石,并有望随时间推移而让一切变得更加高效。但是,当谈到将AI融入我们的生活和职业追求时,这些都只能算是一个个“构建块”,还远称不上实际成型的构造成品。要想充分利用AI的力量,并确保其与我们的价值观和追求目标保持一致,关键就是将精心策划的设计和产品思维引入其中。

乔布斯曾经将计算机比喻成“思维自行车”:一种能够增强和扩展人类智力的工具。生成式AI则把这辆自行车变成了超音速喷气式飞机。通过加速模仿那些曾经被视为只有人类才能掌握的复杂创造力,最新一波AI模型正迫使我们重新思考自己与计算机之间的本质关系。换句话说,现在的重要问题已经不再是“AI能不能帮我补全这句对话?”,而是“我要怎样才能与这种新兴智能开展合作,让它书写、阅读、聆听、表达,并且越来越理解我的想法?”

为了解答这个问题,Designer Fund在旧金山组织了两场炉边谈话,汇聚到来自AI和设计领域的50多位创始人和发明者。第一场的主题是Figma产品设计副总裁Noah Levin对话Designer Fund联合创始人Enrique Allen;第二场则是我自己与Databricks产品管理副总裁Nadim Hossain之间的讨论。本次活动共聚焦于四大核心议题,下面我们就来一一揭晓。

1.降低门槛的同时,提升天花板

以Midjourney、DALL-E 3和GPT-4为代表的各类生成式AI工具已经引发了不少设计师的思考:“这项技术对我的职业生涯意味着什么?”为了结合背景展开讨论,Noah带来一个有趣的比喻。一方面,AI降低了准入门槛,让非专家们也能轻松参与到设计中来。通过简单的提示词,任何人都可以把自己的灵感转化为可供团队重复使用的视觉原型。虽然还远称不上完美,但这些AI模型解决了最困难的起步工作,成功破解了普通人在创作过程中的头号障碍。

与此同时,AI也拉高了天花板、也就是创作上限,拓展了专家们的实现范围。通过自动执行单调、重复的任务(例如移动框体、调整角半径、去除背景等),它能让专业人员腾出时间来应对更高阶的挑战,例如设定愿景和战略、构思系统与框架,以及打造更完善的端到端体验。通过将设计师的注意力从狭隘的执行转移至更宏观的概念建立,AI能够帮助从业者们将工作提升到以人为本设计方案的水平。而这正是设计创作的真正核心所在,也是许多人被吸引到行业中来的首要原因。

2.从元素到模式

设计师们经常关系孤立的元素,例如按钮、文本字段和下拉菜单,因为这些才是他们在工作当中所能操作的实际元素。但相比之下,模式才是用户在产品和服务当中所经历的完整旅程,而且需要考虑到各个步骤之间的联系和转换。导航系统、搜索交互和新手教程都是很好的例子:每个系统都需要把这些离散的元素组成成直观的模式,并努力与用户的意图、需求和目标保持一致。

AI有助于顺利过渡至以用户为核心的全面设计方法。设想一下,当我们拥有一套由现有设计系统训练而成的AI模型时,设计师就能在概念、模式等层面描述自己的想法,之后由模型处理元素组合等繁琐的具体工作。这是AI真正实现设计大众化与水平提升的典型例子,有望改变设计师的职能定位和设计工作的实现过程。

3.超越文本框

聊天界面为我们与AI之间的交互提供了一个实用的入口。它能够实现类似于日常对话般的轻松和即时特性,同时可以快速解决模型中经常出现的错误。在大语言模型(LLM)上构建会话用户界面也很简单:只需扩展模型的内置文本补全界面即可。

然而,虽然聊天允许快速、自由的交互形式,但直接提供一个空白的文本框还是会令不少用户感到手足无措。首先,它没有提供有效的人机交互功能选项,因此用户往往很难理解自己要如何表达意图、并确定怎样更好地引导模型生成所需的输出。更重要的是,提示词只能以间接、不透明的方式影响模型。这就类似于操作一台带有大量二进制“开关”的复杂科幻机器,整个使用感受与试错无异。相反,真正影响模型响应的关键元素(例如权重、激活和温度)对用户是完全隐藏的。

早期的软件界面更倾向于用最直接的方式呈现新的计算功能。但随着时间推移,界面设计开始将功能包裹起来,只强调更好地与人类思维和导航空间产生共鸣。例如,第一台个人计算机就通过命令行界面把微服务器和内存的底层设计直接摆在用户面前;但在后续的发展当中,Windows和MacOS带来了更多用户友好的抽象元素,用桌面、文件夹和垃圾桶等力量真正让机器为人类习惯服务。

虽然文本框相较于当初的打孔卡已经是个巨大的进步,但在现代图形用户的眼中其仍然是类似于命令行的原始存在。命令行倒是非常适合技术爱好者和早期采用者,但对普通公众来说则不然。随着AI技术的发展,特别是向着多模态的发展,我们无疑需要更直观、更多维的界面设计。与之相应,目前这种跟大模型直接对话的方式看似简单,但实际上将更多成为一种负担。

未来的AI界面将以我们目前还无法想象的方式与人类协作。聊天框虽然也是获取信息的门户,但却并不能帮助我们思考。我们可以设想这样一种界面,它能引导用户穿过模型的潜在空间,突出不同概念之间的某些隐含关联,并积极参与构思而不只是简单执行命令。此外,界面中还将提供调节滑块、仪表板和过滤器等工具,借此增加额外的细微差别,允许用户访问并操控可影响模型输出的参数。

随着AI功能变得愈发流畅,相信未来会给普通用户带来更多实用性和娱乐性的体验。在最理想的产品体验中,AI将能够全面实现无缝集成,甚至彻底消除“我们正在使用AI”的感觉。

4.解决AI的“最后一英里”问题

尽管生成式AI模型的能力令人印象深刻,但对于大多数现实应用来说,其可靠性还远远无法满足需求。这种差距,往往集中体现在厂商公布演示版本时的惊艳、与实际部署时的“最后一英里”问题之间。正如自动驾驶汽车经常会在繁忙的街道上出错一样,AI模型也面临着不一致、偏见和输出幻觉等倾向。在创作环境中,这些功能也许无伤大雅,甚至颇受欢迎。但在商业、金融、医学和其他高风险用例当中,任何低于99.9%的实际准确率都将使模型失去实用意义。

人类-AI系统的创新设计也许有助于管理这最后一英里的风险。而随着技术的不断成熟,提示词确认(即要求用户验证所生成的内容是否准确)及不确定性评估(由模型给出在特定输出中的置信度)将共同迎来人工监督的加持。另外,可解释性功能也将进一步提高AI“黑箱”的内部可见性:例如,使用热图可视化来判断哪些输入对于模型的输出影响最大,包括对外部来源的引用,并显示模型还想到了哪些替代答案。这样,用户就能在界面中调整提示词和参数,并实时观察效果以进一步提高模型工作流程的透明度。

诸如此类的设计元素将共同作用,优化“信任周期”——即用户在充分信任、愿意依靠AI系统来完成关键性复杂任务的累积时长。

边行动,边完善

从平面印刷到3D打印,设计始终与技术保持着同步发展。与之前的突破一样,AI不会取代设计师;相反,它不仅将深刻扩展并重塑我们的设计内容,更会影响到由谁设计、如何设计等底层逻辑。为了实现这个美好的未来,我们必须针对人类-AI系统做出更多前所未有的创新探索。

关于大型企业和初创公司能否从当前的AI浪潮中获得助益,业界已经进行过大量讨论。大型企业的核心优势在于多年积累的数据、业务分布以及雄厚的资金储备,而初创公司则可以凭借速度、专注度和更轻的遗留技术债打造出颠覆性的AI原生产品。

抛开种种负面因素不谈,我给各位胸怀抱负的AI初创者们的建议非常简单:放手去干。任何预先思考和规划,都无法像真正的原型设计那样能够揭露问题、带来启发。谁能以更快的速度交付和迭代实际方案,谁就能在新时代的竞争中胜出。正如我经常提到的,正确的路径应该是“边行动,边完善”。首先提出正确的问题,然后优先回答那些最困难的部分。未来永远由行动者缔造,而非源自所谓精打细算下的“万无一失”。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。