(字长文)狂奔,体验助推人工智能对用户体验设计的影响分析
哲学家奥托·纽拉特(OttoNeurath)说:“即便没有救生艇,我们也不能白白淹死在一片模糊之中。”懒于思考只会加剧问题的严重性,我们需要作出理性的努力,并且在游泳前为自己建造一艘救生艇。——《第四次革命》
随着ChatGPT在23年初的火热,AI热潮已经开始席卷各行各业,人们对于AI的热情就像是看着第一款iPhone发布或者蒸汽机的发明,期待着它带来一场信息时代的工业革命。同时,AI替代60%岗位的口号也足以让相关从业者感到前所未有的压力与焦虑。在各大设计网站上,关于AI的内容肉眼可见的占据了越来越多的比重,包括AI在设计流程中的应用、各种AI最新工具等介绍、AI的使用技巧、AI生成的海报/插画等作品……一瞬间,似乎全民都投入到了AI的浪潮之中。
反过头来看,对于用户体验设计而言,由于产品的底层逻辑被AI改写,产品的生态、单个产品的形态、使用方式等都将发生翻天覆地的变化。连带着的,由于生产工具的变革,产品的设计、开发流程也将随之发生变化,进一步提高效率,对于从业人员的能力要求也在实时更新。
对于这样一种浪潮,埋头当个鸵鸟或者嗤之以鼻是没有意义的,我们需要看到、认识、拥抱它。所以有人笑称:打不过就加入。同时,对于各种所谓干掉各个岗位的宣传,也吸引着、推动着我们去了解将被什么干掉以及怎么被干掉。
从另一方面讲,只有在技术变革的时候,弯道超车才有可能。如果只是沿用之前的经验与技术,那么成熟的企业就会有先发优势。但是当面对新的技术变革时,大家被拉回到同一起跑线上,这个时候,就看谁能够找到正确的方向,率先突围。
所以,不管是被动也好,还是主动也好,面对着新一轮的技术变革,也希望从AI能力本身、所带来的变化、以后的发展等方面全面了解一下这个新的时代宠儿。
本文结构:
01AI相关概念与术语1.1AI&AIGC
人工智能或者说AI,ArtificialIntelligence。是用机器来模拟人的智能或者思维模式来完成各项任务目标。
从其工作的机制而言,目前主要分为两种:决策式人工智能,生成式人工智能。
决策式人工智能。根据已有数据进行分析、判断、预测,比如我们常见的抖音、头条、淘宝等的推荐算法。
生成式人工智能。通过分析现有数据来生成模仿、拼合、创造新的内容。比如当下最热的chatGPT、Midjourney、Sora等。
从能力角度而言,人工智能也可以分为强人工智能和弱人工智能。
强人工智能。通用型人工智能(AGI,ArtificialGeneralIntelligence)。能够像人类一样对不同领域进行记忆、推理和解决问题。领域间的知识与经验可以迁徙、借鉴,是“通才”。既可以写诗画画,又可以诊断疾病,还可以进行数学计算。
弱人工智能。在某一领域具备专业能力、解决特定问题,能力没法泛化,是专才。比如下围棋的AlphaGo,可以打败人类围棋世界冠军,但是没法回答你“白毛浮绿水”的下一句是什么。
AIGC(ArtificialIntelligenceGenerativeContent)
人工智能生成的内容,包括文本、语音、图片、视频等多种形式。
1.2AIAgent
1.2.1人类与AI协作的三种模式:
嵌入(Embedding)模式:类似于L2级别的自动驾驶。人类占据主导,AI作为工具,执行某条具体的命令。
副驾驶(Co-pilot)模式:类似于L3级别的自动驾驶。人与AI共同参与,与人类之间互相协商、沟通,实现某一目标。
智能体(Agent)模式:类似于L4级别的自动驾驶。人类作为指挥者、监督者、评估者。AI作为独立的行动者,自主分析目标、拆解任务、尝试执行、对比结果与目标、优化执行步骤与方式并最终实施完成人类设立的目标。
AI与人类协作模式
1.2.2AIAgent是什么
AIAgent是有能力主动思考和行动的智能体。让任务自动化,主要包括感知、记忆、规划与决策、行动/使用工具。
就像吴恩达在TED演讲中提到的:“许多工作包含不同的任务,AI自动化的是任务而不是工作。”与直接使用大语言模型相比,AIAgent能够依据目标分解复杂的工作流程,从而实现大语言模型的自我对话与运转,而不是简单地执行单一任务或者由人类来驱动任务的每一步。
AIAgent=感知(Perceive) LLM(记忆(Memory) 规划(Planning)) 工具使用(Tooluse)/行动(Action)
AIAgent
感知是AIAgent使用传感器与周围环境交互,感知真实的物理世界,这个部分涉及到多模态的信息解析与处理。
记忆让AIAgent可以存储关于某些方向的专业知识以及交互过程中产生的信息,从而利用这些经验来支持、优化后续的决策与行动。
规划和决策就像是通过大脑进行分析,包含事前规划和事后反思。LLM在这里就类似于大脑。AIAgent让AI不再是执行单一的任务,而是自动将复杂的任务拆解为一个个可执行的子任务步骤,然后按照顺序执行,并结合感知与记忆信息在过程中不断试错、优化,最终得到满足目标的结果。
工具的使用就像是能力集成/封装,类似于APP将能力打包的逻辑(比如修图类app可以提高亮度、裁剪画面、改变色彩等等)。通过利用外部的资源或工具来执行任务,从而拓展AIAgent的能力边界。
同时各个AIAgent之间还能够彼此沟通、协作,通过不同能力之间的配合来发挥最大的效用。
AIAgent本质而言是一个更好发挥大模型能力的技术框架,是围绕LLM搭建的一套程序。让用户不再只是与LLM进行对话,而是根据场景,借助LLM的分析、推理能力,制定解决思路并调用不同的工具的能力,从而解决问题或者达成既定目标。简单理解为一个会使用大语言模型能力以及各类工具来帮助人类解决问题的助理。
1.3AI的算法
1.3.1AI的三大流派
1.3.1.1符号主义:
基于统计方法,通过建模预测让机器通过计算来模拟人的智能,实现识别、预测等任务
主要代表算法有:朴素贝叶斯,逻辑回归,决策树,支持向量机。
1.3.1.2连接主义:
认为生物智能是由神经网络产生的,可以通过人工方式构造神经网络,训练神经网络产生智能。也就是模拟人的脑部神经系统,通过构建神经元与他们之间的连接,来构建一个可以学习、推理的神经网络。
主要代表就是神经网络算法。
1.3.1.3行为主义:
认为生物的智能来自对外界的复杂环境进行感知和适应,通过与环境和其他生物之间的相互作用,产生更强的智能。也就是通过尝试与反馈来强化学习、改进系统自身的行为。
主要代表算法是强化学习。
1.3.2目前主流的算法:
目前主流的算法都是基于神经网络和机器学习,在此基础上创新与结合。
1.3.2.1神经网络(NeuralNetwork)
人工智能三大流派中的连接主义的代表算法,通过人工方式构造神经网络,训练神经网络产生智能。最早起源于麦卡洛克-匹兹模型/M-P神经元模型(McCulloch-Pittsmodel)。
简单来说就是模仿人脑的神经元结构,构建一个函数集合作为基本单元,然后再互相之间加权拼接形成神经网络。一个神经元就是一个函数/规则,前一个神经元的输出作为后一个神经元的输入。
循环神经网络(RecurrentNeuralNetworks,RNN)
神经网络的一种。关键在于多一个隐藏层,可以将上一次的输出产生的输出作为这一次输入的一部分。简单来说就是能够记住上下文信息。
在此基础上演变出来的长短期记忆(Longshort-termmemory,LSTM),让模型可以去选择记住什么信息、忘掉什么信息,而不是越早的信息记忆得越少,或者无差别地全部记住前文的信息,避免短期记忆、梯度爆炸、梯度消失等问题。(梯度可简单理解为变化率)
主要用于语音分析、文字分析、时间序列分析。
卷积神经网络(ConvolutionalNeuralNetwork,CNN)
基本机构包含输入层、卷积层、池化层、全联接层、输出层。
卷积层的主要目的是识别与提取不同的局部特征。
池化层也叫降采样层,其本质是采样共享。简单来说就是通过用同一个采样值(最大值或者平均值之类)来代替那些差别不大的采样值,以便减少数据量。
主要用于图像识别、人脸识别等。
1.3.2.2生成式对抗网络(GenerativeAdversarialNetworks,GAN)
主要包含生成器(Generator)、判别器(Discriminator)。
生成器用于生成内容,判别器用于判断生成网络中产生的内容是真实数据还是生成的数据。
生成器要不断优化自己的生成数据让判别器判别不出来;判别器也要优化自己的判断能力,使其更准确;通过互相之间的对抗、制约来实现训练过程。
1.3.2.3Transformer模型:
谷歌的论文《AttentionIsAllYouNeed》中提出一种神经网络模型架构。主要特点在于加入自注意力(Self-attention)机制来处理序列数据。
自注意力机制通过给长文本中每个词不一样的权重来判断每个词之间的相关性,从而判断整个文本中最重要的部分。
与RNN相比,Transformer会将一串序列中的每个词的意义及其位置信息结合起来传输给神经网络,从而让模型可以同时处理序列里的所有位置的信息,而不需要像RNN那样依次处理。这种并行计算带来的好处是大大提高了模型的训练速度,从而为大模型的发展奠定了基础。
1.3.3自然语言处理(NaturalLanguageProcessing,NLP)
“语言理解是人工智能领域皇冠上的明珠”——比尔盖茨
自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,终极目标就是让人和机器能够通过自然语言进行交互,也就是让机器能够理解人类的语言、文字等。
主要包含自然语言理解(NLU)和自然语言生成(NLG)。简单来说就是听懂人话和说人话。
1.3.4机器学习(MachineLearning,ML)
所有的对象,不论人类、动物,甚至是无生命机械,如果接受外界信息的刺激之后,能形成经验反应,并影响日后的行为,那其实这个过程就已经可以称之为“学习”了。——《智慧的疆界:从图灵机到人工智能》
机器学习是实现人工智能的核心方法。从有限的观测数据中“学习”(or“猜测”)出一个具有一般性的规律,并利用这些规律对未知数据进行预测的方法。
简单来说,机器学习就是通过数据训练让算法掌握规律。
机器学习
1.3.4.1深度学习(DeepLearning)
机器学习的一个分支。使用深层次神经网络模型进行学习。深度是指模型有多个层次的神经元。通过逐层分解来解决复杂度较高的问题。
深度学习与传统机器学习最大的区别在于使用神经网络模型代替人工的特征提取过程,通过数据训练来优化模型的表现。
可简单理解为使用神经网络算法的机器学习。
1.3.4.2监督学习(SupervisedLearning)
有标准答案的学习。其基本思想是利用带有标签的训练数据来训练模型,从而使其能够从输入数据中学习到输入与输出之间的映射关系,然后可以利用这个映射关系对新的未打标签数据进行预测。
监督学习需要告诉模型:1.事物的关键特征是什么(称为特征);2.那东西到底是什么。就像学生刷题,通过练习获得的经验来解新的题目。
1.3.4.3无监督学习(UnsupervisedLearning)
没有标准答案的学习。其目标是让模型从未标记的数据中自行发现共性、结构、模式、关联或者表示,而无需使用人工标签或者先验知识的指导。包括聚类、降维、异常检测等。
1.3.4.4强化学习(ReinforcementLearning)
与监督学习、无监督学习类似,也是一种机器学习的方式。
算法不断的尝试、试错,反馈机制通过奖赏与惩罚告诉算法哪种是好的,哪种是不好的,从而规训其行为方向。简单来说就是奖励积极行为和惩罚消极行为。
美剧《生活大爆炸》中Sheldon就使用巧克力作为奖励,驯化Penny的行为。
1.3.5大语言模型(LargeLanguageModel,LLM)
是一种基于神经网络、机器学习、自然语言处理技术的模型,目前大部分知名的大语言模型都是基于Transformer架构。
它通过将每个词转化为向量输入到模型中,并使用大量的文本数据进行训练,让模型来学习服务人类语言理解和生成的能力。
大语言模型的【大】主要体现在训练数据与模型参数的大,从而需要更高的算力支持。
与传统的机器学习模型相比,大模型具有更强的表示能力和泛化能力,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。
02AI能力分析2.1人类能力地形图
机器人专家汉斯·莫拉维克(HansMoravec)曾提出人类能力地形图的概念,其中,海拔高度代表这项任务对计算机的难度,不断上涨的海平面代表计算机现在能做的事情。
图源:https://qph.cf2.quoracdn.net/main-qimg-dfa49b90572af22a8b8e9ec7c02b8688
AI的发展,会逐渐淹没人类的特有的优势领域。最终,当AI开始具备设计人工智能的能力(AIDesign),AI能力的推动将有AI自己的改进来推动,其速度会比由人类推动快得多。这也是所谓的“奇点”,到达奇点,人工智能将出现爆发式的增长。
就目前而言,人类与AI各有优势,所以人类与AI携手合作,发挥各自的优势,形成群体智慧,实现1 1>2才是最优解。
2.1.1人类相比于AI,所拥有的优势:
自主创造、构思以及战略性规划、精细化决策
具有同理心,能够理解人类的情绪、情感
对于美的理解与感受
不同领域之间的经验可以迁徙、复用
具备常识
具有价值观、人生观、世界观,能够理解人类的行为与文化
可以完成精确且复杂的体力工作
可以轻松界定思考问题的框架,也就是哪些问题与任务相关,哪些无关
2.1.2AI相比于人类,所拥有的优势:
没有情感等主观因素,比人类更理性,可以公正客观对待每个方案
可以在极短时间内完成超复杂的运算,从而产出大量的方案与探索结果
可以长时间不厌其烦做同一件事,而且不会累或者因为疲劳而降低准确度
记忆力好,积累的经验可以被随时调用
2.2发挥各自最大的优势
对于AI将会取代人类,现在最常见的说法就是:
AI将改变或者消灭某些工作,同时创造出新的工作。
AI不会取代人,而会使用AI工具的人将取代不会使用AI工具的人。
让AI解放人类的双手,去做那些机械性、重复、无聊的计算工作。而人类则把时间精力投入到更有价值的工作比如规划、决策、制定目标、人际关系维护等。
当然,二者之间的工作并不是完全剥离、独立的,而是互相影响与沟通协作。比如,人类可以借用AI的数据分析能力、预测结果等增强自己的决策能力。
所以,一方面,人要学习怎么更好地使用AI,发挥AI最大的价值。另一方面,AI也要往增强人类能力、改善人类社会生活的方向发展。
03AI能力加持后,产品/业务层面变化3.1产品边界变得模糊
3.1.1物理世界与数字世界深度融合
数字孪生将物理世界映射到数字世界,具身智能机器人、自动驾驶等让数字世界操控物理世界。AI能力的强化则让二者之间的融合更加深入。比如京东AI数字人“采销东哥”,看面相几乎和真人无异,可以在直播间为大家介绍各种产品。如果再进一步,可以实时回答观众的问题,那就与真人差别不大了。
3.1.2产品成为能力中心
产品之间的壁垒打通,成为能力插件,主要在于提供某种能力。比如小D想通过视频学习糖醋排骨的做法,那么AI所获取的内容可能会来自于抖音、快手、淘宝直播、小红书等等平台,或者整合各平台内容生成一个新的、针对于小D喜好的内容。平台成为底层信息的提供方或者说资源池,用户也无需在多个产品之间来回切换。
3.1.3服务设计
由于AI对流程中每一个触点信息的掌握以及对于各项能力的集成,使得根据场景调用不同能力以满足需求成为可能。
产品的设计不止考虑单一的产品,而是要考虑与其他产品、能力、服务的配合。在使用环境/场景中,从用户的历程出发,满足用户在整个任务链路中每一个节点的需求。
3.1.4流程自动化
产品与产品之间的互相衔接、流转也将自动化,无需由用户来推动。比如小D要出差,当他向AI提出这个需求时,AI一并将机票、酒店同步预定好,同时,在出差结束后,自动对接人事考勤、费用报销等产品能力,实现流程自动化。也就是依据场景将服务打包,用户触发一次就完成整个流程动作,无需到每一个系统/产品中分别去执行一遍操作。
流程自动化带来的也是效率和易用性的提升,用户的操作负担被大大减少。
3.1.5B/C端差异减少
B端各流程节点之间的沟通、协作、传递也可以由【人-产品-人】的方式转变为【Agent-Agent】的方式。提高流程运转的效率,降低了B端产品的操作复杂度。
当用户与AIAgent交互,由Agent代替用户去直接面对、调用各个产品的各项能力,发起各种任务,B端产品和C端产品交互的逻辑会愈发类似。Agent对话式的交互、自动规划等将会大大减少B端产品的学习成本,用户在使用不同类型产品时将不会有太大的差异。
3.1.6多产品形态互联互通
AI可以在手机、平板、电脑、电视、车载终端等不同设备之间的无缝切换,设备跟着场景转换,但是流程不中断,多设备协调配合走完整个任务链路。比如在下班回家的路上,小D在车里听小说,回家以后,家里的智能音箱继续从下车时刻的部分开始继续播放。
3.2接受非结构化的信息
语音识别、NLP、图片识别、手势识别、红外传感、重力感应、脑机接口等等技术的演进与突破。让输入不再依赖于表单、按钮等创建符合计算机理解模式的结构化信息。
非结构化输入的特点:多模态、更自然、更高效、学习成本更低。不再是人去适应计算机能接受的数据模式,而是计算机来学习理解人类的信息表达形式,比如表情、手势、语气等。
AI对于非结构化数据、自然语言的理解,也降低了产品的复杂度,减少用户的认知负担,让产品的学习成本大大减低。
3.2.1普适计算(ubiquitouscomputing)
普适计算是指计算可以在任何设备上、在任何地理位置中以及用任何格式进行。其显著目标之一则是使得计算机设备可以感知周围的环境变化,从而根据环境的变化做出自动的基于用户需要或者设定的行为。
与物联网类似,简单来说就是通过多样化的设备(手机、手表、眼镜、微波炉、冰箱等)来感知信息、获取信息、处理信息,所有的物品都有可能变成一个计算机。这样的目的是让计算机可以随时感知环境、行为的变化,从而及时、贴心地满足用户的需求。
3.3数据的集中化处理
假设个人助手或者说AIAgent的成熟,那么人们与产品交互的通道将会从各个分散的产品集中到一个点。由统一的交互入口收集的用户行为数据以及AI主动通过各类设备收集的用户个人数据,让每个人的信息更加完整、全面地被AI所记录,更容易实现个人数据的集中化处理。
AI掌握的个人信息越多,才能更全面地了解一个人,也才能更有针对性地为用户提供个性化的服务。聪明、贴心、智能的AI与集中化的数据将会互相促进、互相强化,也就是越集中的数据带来越聪明的AI,越聪明的AI将会通过多渠道收集到更多的个人数据。
3.3.1对于个人信息安全的注重
AI将会使用个人的数据进行训练并改进行为,这需要符合监管要求,遵循个人数据处理的最小化原则,保证用户的知情权,进行节点隔离以及加强对于数据处理权限、存储、保密的管理。避免个人信息的泄露或者被不当使用。
当然,这也需要更加完善的数据保护法规进行支撑,比如GDPR、ADPPA、中华人民共和国数据安全法、个人信息保护法等,避免个人隐私泄露。
3.4人机深度协同,构建信任变得更重要
越是使用频繁的、形成依赖的产品,越需要得到用户的信任。如果微信在使用过程中时不时的出现bug,发给A的消息错发给了B,那么用户就会变得不敢使用。尤其AI产品还需要收集用户的各种数据才能更好地发挥作用,那么得到用户的信任将显得更加重要。
信任来源于了解、确定、可控,由于AI的黑盒性质以及产品越来越主动,如何解释AI的决策过程、规范AI的行为、提高AI行为的可预测性、保持用户的掌控感也越来越重要。
解释决策过程和规范行为并不是说需要AI事事作说明、汇报,而是当用户想要了解时提供详细的解释与说明、当用户想要自己决策时可以修改AI提供的方案。从原则上而言,AI最终还是要服从于人、服务于人,而不是指挥人、控制人、取代人。
3.5提前预判,主动推送,具备主动性
根据用户的场景、行为,判断用户的意图,通过多产品、数据的贯通,综合分析,提供事前的提醒与服务。比如在用户购买机票后对接航班、天气、交通等数据,如果有航班管制、恶劣天气、交通拥堵等不良状况发生,可以及时通知用户。
3.5.1场景驱动
信息的集中化处理,使得结合各种传感器、设备所提供的环境信息以及用户的生理、行为等信息进行综合分析成为可能。AI可以了解用户所处的环境及其需求,通过场景所提供的上下文来减少信息输入的要求。同时,调用各个产品的能力,解决问题,减少用户操作,提高效率与用户体验。
比如,智能家庭助手通过手环检测到小D躺在沙发上已经睡着,并且有点冷,那么它可能会自动调小正在播放的音乐、关闭窗帘、调暗灯光、打开空调,让用户更加舒适且不会着凉。
3.6个性化/定制化
由于用户与产品之间通过一个统一入口来交互,那么用户的行为数据(包括个人的生物信息、健康状态、行车路线、购买习惯、用户偏好、场所出入数据等)将更加全面、完整、准确被获取。
通过大量的数据与机器学习,让人工智能可以依据个人喜好、场景,进行意图判断。结合各个产品能力,针对不同用户可以推荐更加精准、个性化的内容、功能等,也就是说功能也能够像feed流一样被推荐,更好地满足不同人群、场景的需求。
3.6.1用户自定义
AI降低了产品/工具操作的门槛,让更多人可以使用它,也就是所谓技术的民主化。
这就让用户有可能根据自己的喜好、习惯、场景等需求差异来配置产品功能组成结构、优先级等。就像是洞洞鞋,本身提供一个基础的样式,但是每个人可以选择自己不同的鞋花。未来,也许每个人都可以都可以自己设计一个APP应该具有什么功能、设计衣服样式、设计房子的装修风格等等。
同时,通过社区、论坛等的信息交流,A设计的产品也许B可以参考、改进后成为属于自己的产品,每个人都有可能成为生活的创作者,而创作的对象可以包罗万象。
3.7改变垂直领域的细分产品
所有行业都值得基于人工智能技术重做一遍——阿里巴巴张勇
AI的生成、总结、提取、分类等能力的突破,将进一步促进各行业中各类信息的整合与利用,接手重复性的工作,给各行各业带来流程的简化、模式的转变、效率的提升。
针对如残障人士、老人、小孩等特殊群体,可以开发提供陪伴、照顾等功能的AI机器人。
针对律师、医生等特定职业的人员,利用AI辅助进行资料收集、数据分析等,增强他们的能力,提升工作的效率。
针对生产线、仓库等目标和任务相对固化的场景,也可以引入AI来替代很多重复性等工作。比如利用无人超市模式来管理仓库出库,领用人员刷脸后自动确认领料单,同时系统在领料人员拿走物品后自动进行出库处理、更新库存数据,在库存不足时对接采购系统进行采购等。
04AI能力加持后,产品的交互逻辑变化4.1信息架构的变化
GUI模式下基于点击的输入,需要将页面内容、功能分门别类进行组织、布局,以方便用户理解与查找然后触发,所以信息需要按照逻辑归类,可寻性也是信息架构关注的重点之一。
AI能力加持下的对话式交互,让用户只需要面对一个统一的入口,通过这个入口直达任意一个功能(类似于Deeplink)。信息的结构不再是以用户快速找到为中心,而是以让AI快速调取为导向。不再是由人去穿越层层结构寻找所需信息,而是所需的信息从纷繁复杂的数据中跳脱出来。
4.1.1功能架构扁平化
通过AI直接调起产品中的某一个页面,模块的功能更加独立、内聚,成为一个个能力单元,产品则成为能力单元的横向集合。
如果是窄而深的信息架构,层层嵌套的模式,那么能力之间可能会有一定的耦合与依赖,被直接调起时容易缺失上下文,导致功能不可用。
4.1.1.1导航的弱化
直接调起的模式,用户直达功能。比如对AI说【我想听李健的《给你》】,它会直接打开播放器,播放这首歌。而不再需要我们【打开音乐APP-找到并点击搜索框-输入并搜索-点击播放】这样一步一步操作。
减少了寻找信息的步骤,也就减少了导航的需求。导航页的价值将会降低,以往功能之间需要合理组织以方便用户记忆、寻找的特征将会减弱。
4.1.2信息模块化
功能变成类似于API或者组件的形式,可以根据需要与其他产品的信息随意拼装,成为整体信息流的一部分。就像我们在小红书看一个个的笔记,或者在淘宝浏览一个一个的商品,功能也被拆解为一个一个的单元,在场景需要的时候与其他的功能拼装形成一个解决方案。
同时,从整体而言,每个产品可能只提供整个信息集合的其中一个部分。也就是前面的说的产品边界被打破。
4.1.3拓展性更强
每个页面都有可能成为首页,都是信息架构的顶部,这需要产品的信息架构有很强的兼容性和扩展性。——《AI改变设计》
按照前述AIAgent的设想,AI所涉及的任务可能包含多个层级的复杂度,需要不同能力的配合才能完成,也就是需要依赖不同的产品、组件所提供的能力。
产品的每个功能将类似于乐高的一个积木零件,便于互相组合,目的是容纳更多新的功能。同时AI直达功能的能力可以弱化过宽的信息架构所带来的寻找信息不方便的问题。
4.1.4用完即走
用户以任务目标为导向,不在乎是哪个产品、哪个功能,关键在于高效。就像我们不会关注手机包装盒里的充电器是哪个代工厂生产的。产品/能力会“透明化”“无形化”,这些能力的提供方将会成为AIAgent所对接的“供应商”。比如小D想听李健的《给你》,内容有可能是QQ音乐提供的、也有可能是网易云音乐提供的、或者是B站一个李健的音乐会视频,对用户而言,听歌的目的达到了就行。
4.2交互范式的变化
技术的革新会引起范式的变迁。最终指向的都是越来越简单、方便、自然,都是围绕着更好地服务于人而来的。
4.2.1人机交互的发展历程:
批处理(BatchProcessing)
命令行交互(Command-basedInteraction)
图形界面交互(GraphicalUserInterfaces,GUI)
对话式交互(ConversationalUserInterface,CUI)/语音用户界面(VoiceUserInterface,VUI)/语言用户界面(LanguageUserInterface,LUI)
自然界面交互(Naturaluserinterface,NUI)/基于意图的结果规范化(Intent-BasedOutcomeSpecification)
前三种都属于用户向计算机发出命令,计算机严格执行命令并产生结果,用户评估结果逐步调整输入,最终一步一步达成目标。
对话式交互,本质也和之前的几种范式一样,人发出命令,计算机执行命令,只是用户的输入方式更加多样化,不止是依赖于当前界面所呈现的元素与选项。(图形界面相对于命令行,也是在输入输出方式上变得更丰富,鼠标、触控、手势等输入方式以及图形、动画等输出方式减少了用户的认知负担、记忆负担、操作负担)
而在高级阶段自然界面交互/基于意图的的结果规范化中,用户不再需要去适应计算机,而是计算机来适应人,去理解人的表情、手势、语言、语气、点击、生理数据等等方式/渠道所传递的信息。用户也不再告诉计算机要做什么,而是告诉计算机他们想要的结果,或者,计算机能够通过感知周围环境,主动识别用户的意图并自动达成其目标。
类似于前文提到过的AIAgent,能够依据目标分解复杂的工作流程,从而实现大语言模型的自我对话与运转,而不是简单地执行单一任务或者由人类来驱动任务的每一步。
人机交互发展历程
4.2.2对话式交互
交互本质上是信息的交流,包含信息的输入与输出。人与现有产品的交互,输入的形式包括鼠标、键盘、触屏手势、语音、拍照识别、扫码等。而输出的内容则包括视觉(文字、图片、视频、灯光等)、听觉(语言、报警音等)、触觉(震动)。
人与人之间最自然的交流方式通常是语言交流,通过言语表达思想、感情和意图。除了语言,人们还通过非语言的方式进行交流,如面部表情、姿势、手势、眼神等。这些非语言元素可以传达丰富的信息,有时比言语更直观和强烈。这是我们整个成长过程中一种主要的学习形式。
对话式交互,就像是人与人之间聊天的交互方式,输入的途径可以是文字,也可以是语音、图片、链接、手势等。Sora甚至可以使用视频作为输入来生成视频。
4.2.2.1对话式交互的特点
用户的输入没有边界
摆脱了按钮、输入框等的限制,用户的输入可能五花八门,甚至与产品的主要功能无关。功能“无形”之后,就需要针对各种场景给出不同的反馈。
打破产品边界、跨越信息层级
入口统一,交互路径缩短,能够穿透信息层级、跨越产品的业务界限。我们的交互过程基于语言的形式输入,然后回答的形式根据内容而变。可以结合所个产品、领域的数据,综合给出答案。也就是说,我们不用面对数量繁多的应用/产品,只需要像使用Siri一样,和一个统一的AIAgent沟通,然后由它来调取各个产品的能力来为我们提供服务。
4.2.2.2对话式交互的场景
任务式设计——高效
专业化的应用/工具。针对具体的业务领域、任务类型提出需求。输入一般具有边界、比较集中。产品的目的是尽快达成用户的目标。
闲聊式设计——有趣
娱乐型的应用/伙伴。用户没有明确的目标,跟随情绪变化。输入一般没有边界,可能包含任何主题。产品的目的是在对话过程中逐步满足用户的情感需求。
4.2.2.3对话式交互的原则
提供引导,鼓励用户输入
如果开始对话之后迟迟没有输入,则提供猜测、默认选项、参考示例等,让用户直接点选、引导用户输入,避免用户在空无一物的前提下不知道如何开展对话。
特别是在闲聊式场景下,通过打招呼来引导、提示等让对话可持续。
理解语境
在我们日常的对话中,很多信息是大家的【共识】,是彼此之间交流的信息基础,无需在对话中特意说明。
比如对话【Q:今天的天气怎么样?A:哪里的天气?】。这其中位置信息一般都是基于当前对话所在的位置或者上下文出现的位置信息来决定的,也就无需用户再次说明。
在AI的对话设计中,也就需要理解这些语境信息,减少信息输入的数量要求,提高沟通的效率。
记住上下文
上下文包括用户之前的操作、输入、用户的背景信息等,记住上下文并运用到之后的对话之中多轮对话的基础。一方面可以保证话题的连贯性,一方面也避免用户的重复输入。
具有包容性,消除歧义
语言表达会有不同的语气或者表达方式,语音识别也会有错误的情况,这时候要像谷歌搜索一样,给出合理的猜测并回答,减少用户二次输入的成本。
当用户的输入有歧义时,实用多级置信度的方式给出最匹配的、最有可能的回答,并进一步询问且允许用户修改。
简洁、清晰、保证表达质量
简明扼要,陈述与话题相关的信息,避免模糊晦涩的表达。不管以何种形式来反馈,陈述的都是有效的事物,而不是无意义的答案。比如这样的对话【Q:你知道有哪些人获得了2023年诺贝尔奖吗?A:知道。】就毫无意义。
合适的信息量,采用多种信息输出模式
不多不少,恰到好处的信息含量。面对一个问题,网络上相关的信息可能千千万。需要结合实际产品、场景、用户属性等实际情况,给出合理、有效的回答。
我们大脑能处理的信息量是有限的,一旦超出,就会对短期记忆造成负担。在某些场景下,语音可以提高效率。但是语音输出的一个弊端是:听清并理解语音中的信息,需要耗费我们大脑的资源,而且语音播放之后就消失了,也加重了用户的记忆负担。
所以不能只依赖于语音的输出方式,也不仅仅依赖于当前的输出渠道。采用视频、图片、声音等多种形态的输出方式甚至跨终端的输出渠道(比如某些场景在手表输入在手机、电视显示反馈结果等),可以极大地丰富我们反馈的多样性、提高信息传达的效率,避免用户需要在不同端之间来回处理信息。
照顾人类情绪,保持礼貌,具备服从指令的属性
比如这样的对话【Q:可以朗诵一首唐诗吗?A:不可以】会让人觉得别扭、受挫。
如果无法做到,也应该表达歉意并且说明愿意来安慰用户。比如【A:不好意思,当前网络状态不可用,请检查网络设置后再次尝试吧】
话轮转换
对话是一种相互合作,必须有来有回,实用的对话让对话双方知道该谁说话。
设定用户的期望,让用户知道什么时候可以轮换到自己、输入是否生效等。方法包括隐性确认(在回答时带上用户提供的信息)、非语言确认(使用灯光、图像、震动、提示音等进行反馈)等。
4.2.2.4VUI/LUI
VUI,VoiceUserInterface,语音用户交互界面。LUI,LanguageUserInterface,语言用户交互界面。是基于语音/语言作为输入与输出的交互方式。
严格来说,VUI/LUI是对话式交互形态之一。因为对话式交互的核心在于一来一回的对话,输入输出的可能并不只有语音、文字,可以容纳更多的内容形式。
对话式交互
优点
自然流畅、学习成本足够低。因为对话是从我们出生开始就伴随我们的交流方式,对话式的交互和人与人之间的沟通相似,无需教学就会使用。
从输入效率的角度而言,语音输入比键盘打字的速度更快。
解放双手,在双手被占用的情况下,可以拓展交互的渠道。
语音中包含语气、语调、语速等情绪性信息,如果能够识别这些附属的信息,也就拓宽了信息接收的渠道。
减少对于导航的依赖,减少用户的记忆负担、认知负担
缺点
视觉通道和听觉通道的信息融合要优于单独的视觉通道和听觉通道。对于多步骤、多字段的操作,如果完全依赖于对话式交互,所需的对话次数将会过多,影响整个动作的效率。这时候就需要用户意图预测、沿用典型模板、结合其他通道(屏幕点击、手势、实体按钮、位置等)操作等方式来简化所需的信息量或者多通道融合获取信息。
容易受到周围噪音的干扰。
隐私问题,在公共场合使用语音输入容易泄露隐私或者影响到其他人。
公共场合之下对着手机说话,有可能会引发社会耻辱感。所以,新的类型的产品往往需要通过明星效应、营销来形成一种风尚,引导人们使用。
4.2.3NUI
NUI充分利用我们生活在这个世界中获得的技能,最大限度地减少认知负担,从而最大限度地减少对于注意力的分散。(NUIsexploitskillsthatwehaveacquiredthroughalifetimeoflivingintheworld,whichminimizesthecognitiveloadandthereforeminimizesthedistraction.)——BillBuxton,aprincipalresearcheratMicrosoft
自然用户界面(Naturaluserinterface,NUI)。维基百科对于NUI的描述是人们以最自然的交流方式与机器互动,使用NUI的计算机不需要键盘或鼠标。
相比于传统的GUI或者当下比较火热的CUI,NUI更强调【自然】,也就是以符合人类直觉的方式与计算机沟通。不局限于某一种交互方式,而是依据场景选择最合适的交互方式。比如在自己家里,使用语音与智能音箱交互。在图书馆,使用触控、手势与智能手表交互。
NUI最大的核心是以人为中心,让用户可以使用生活中已经习得的技能、经验以及已有的心理模型来与计算机交互,(字长文)狂奔,体验助推人工智能对用户体验设计的影响分析极大地减少学习成本。因为人与外界的自然交流本身是多通道的,包含视觉、听觉、触觉、嗅觉、味觉,也就决定了NUI注定是多模态的。
4.2.3.1不完全依赖于语音
因为声音稍纵即逝、难以回溯。完全依赖于语音输入与输出的交互方式需要占用用户大量的注意力,而我们的注意力往往有限,长时间的注意力集中非常消耗人的精力,从而降低了交互的准确性、影响交互的效率。同时长时间占用用户的主要注意力,也让用户无法同时做其他的事情。
对话式交互主要改变的是输入方式与使用路径,与现有丰富的、多模态的反馈形式结合,可以有效提升人机交互的效率。除听觉反馈以外,输出方式可以是视觉(指示灯、图片、视频等)、触觉(震动、温度变化等)。
随着AI在语音识别、语义理解等方面能力的进步,自然对话的形式已成为AI产品的主流交互形式。就目前的情况而言,AI还难以捕捉并解读我们的面部表情、姿势、眼神等这些非语言、情绪化、视觉化的信息。
相信未来,随着各种传感器、算法模型的不断演进,在我们与机器对话时,它不仅能听懂我们的话语,也能结合我们的面部表情、姿势、手势、眼神等综合分析。至少在输入端,让人与机器的交互逐渐靠近人与人的交互。有可能就像图灵所预测的,我们难以分辨和我们对话的到底是一个人还是一台机器。
4.2.3.2VUI GUI
未来的人工智能系统很可能会拥有混合用户界面,结合了基于意图和基于命令的界面元素,同时保留许多图形用户界面元素。——JakobNielsen
凡事皆具两面性。不同交互形式的目的都是为了减少用户的认知负担、操作负担、记忆负担,不是为了用个用。结合用户、场景、设备等特点,选用不同的交互形式结合,最大化地方便用户才是最优解。
4.2.3.3多模态交互
多通道融合交互/多模态交互,包括语音、面部表情、手势、各类传感器所检测到的生理信息等都可以作为输入通道,既可以是用户主动发起的,也可以是产品主动获取的。输出则可以结合视觉、听觉、触觉、味觉和嗅觉多种模态。核心是围绕情境选择合适的交互模式,目标是自然、高效。
优势:
多模态融合不仅是为了符合用户自然的操作习惯,也可以增加信息的处理效率。就像在听演讲时,如果演讲者结合PPT进行图示化说明,就更容易、更快速地让人理解。
多模态交互充分调动人的五感,结合AR、VR、MR等技术,将数字世界与物理世界有机结合,可以提供更好的真实感、临场感、沉浸感。
减少对于个人能力的要求,让老人、残疾人等特殊群体也可以轻松、便捷地使用,践行通用设计的原则,促进社会的和谐。
4.2.3.4基于意图的结果规范化(Intent-BasedOutcomeSpecification)
这是雅各布·尼尔森提出的一种新的交互范式,详见:https://www.nngroup.com/articles/ai-paradigm/
以前是设计产品的能供性(Affordance)来引导用户操作,比如按钮代表可点击。现在是计算机要来理解人的意符(Signifiers),比如抬起手臂,手机自动点亮屏幕,因为它猜测你可能需要开始使用手机。
NUI侧重于交互方式的自然化,基于意图的结果规范化侧重于对于用户意图的反应。一个是方式,一个是目的,二者的核心都是让计算机围绕人来进行改变,减少人们对认知负担、记忆负担、操作负担,提高人的效率,丰富人的生活。
4.3交互特征的变化
4.3.1交互层级的压缩
功能架构更加扁平对应的就是交互层级的压缩。通过对话直接调起某个特定的功能,不需要在一层一层的功能结构中去寻找。每一个动作都是直达目的,减少了很多寻找功能过程中的过渡操作。
4.3.2界面的减少
一方面,NUI结合多种输入输出方式,不再单纯依赖于界面的呈现,语音、提示音、灯光、震动等多种形式的反馈会替换部分界面的反馈。另一方面,对话式的交互减少了很多承载功能的页面如导航页、工作台等。
4.3.2.1按钮的减少
按钮是基于界面存在的,目的在于触发一个动作。一方面,卡片等元素本身可以充当按钮。另一方面,NUI带来的多模态交互,点击屏幕操作将会减少,对按钮的需求也相应的减少了。
4.3.3主动交互增加
产品不再只是被动的接受信息,而是可以通过多模态感知主动获取信息,并依据用户设定的目标、对于用户的了解进行自主决策并触发下一步的动作,不再需要每一个任务都由用户来触发。比如汽车在检测到到用户远离车辆时自动锁车。智能音箱会在天气预报有雨时提醒用户出门记得带伞。
主动交互减少了用户的操作负担,提高了人机协同的效率,也让产品显得更加贴心。
4.3.3.1分析用户的意图
用户的行为数据、个人习惯与偏好等通过AIAgent这个统一的交互入口被全面、完整、准确地获取,结合AIAgent所记忆的上下文信息以及各种传感器所获取到的场景信息,对用户意图对分析将更加准确。也就是可以通过预测用户的下一步行为,主动提前帮助用户完成。有点类似于想要喝水的时候,杯子里总是有温度适宜的水。
4.4AI的“人设”
4.4.1人设是什么
人设是指用户在与AI产品互动过程中,根据感知到的信息(虚拟形象、文本或者语音中的语气、语调、音色、情绪等)将AI对象人格化后所建立的一种对于AI的角色形象认知。比如,扫地机器人在电量不足时,发出语音:“没能量啦,我要回去吃饭了。”在用户询问“你在哪里”时,回应“我在这里”。都可以让人感觉到它是一个有温度、有感情的个体而不是一个冰冷的机器。这是一种心理上的简化行为,避免“恐怖谷”效应。
人设使得产品的个性更加鲜明、突出,用户与产品交互时能够获得“伙伴感”以及交流的愉悦感,有助于拉近产品与用户之间的心理距离。
4.4.2人设设定的原则
4.4.2.1一致性
角色的设定要与产品/内容的属性一致。比如法律、政治新闻等严肃性内容,就不适合使用呆萌、可爱的角色。
作为服务于人类的产品,在于用户对话时,应该保持前后一致、稳定的形象。如果前后的回答反差太大会让人觉得产品出错了。
4.4.2.2有礼貌
同时要注意礼貌。比如要及时回答用户的问题,不能敷衍了事,不能指责用户。即便用户苛刻、生气,角色也应该体现出礼貌、谦逊、关怀。
4.4.2.3情感性
感知到人类的情绪,并给出恰当的、体贴的回应。用户因此而与产品之间形成情感依恋,增强整体的使用体验。
4.4.2.4幽默性
使用象征、讽喻、双关等手法,让人感受到愉悦、有趣,给予用户类似真实的社交体验。使AI的形象更加灵活、生动、富有人情味,而不再是冰冷的机器。
4.4.2.5个性化
针对不同的用户特征(年龄、职业等),也可以针对性地提供不同的角色设定。
4.4.3人设性格的体现方式
声音的音色、语速、节奏、表述的方式/语气、头像都能体现出AI的性格特征。
4.4.4人设性格的设定方法
与品牌/产品人设设定的方法类似,使用情绪板moodboard,结合商业目标、产品目标来发散人设的关键词,比如客户希望以什么形容词来描述产品、用户喜欢什么样的人设。然后通过筛选、整合,选择最具有代表性的形容词,以可视化的方式呈现。然后与Persona类似,固化名字、职位、年龄、性别、行为习惯、爱好等特征。
人设设定好以后,所有的行为(语气、语速、表达方式等)、外观(表情、头像、虚拟形象等等)都围绕人设,从而强化这一形象在用户心中的印象。并在用户测试中优化迭代。
05AI能力加持后,产品设计应该注意的原则
目前比较系统的提出AI产品设计原则都有MicroSoft、Google、SAP、IBM几家公司(原文档见文后参考链接)。总体而言,设计原则中不变的是以人为本的核心,变化的是如何以人为本、如何更好地以人为本。
5.1明确传递系统可以做什么
做出说明、给出推荐等,帮助用户明白AI系统能够帮助自己解决何种问题。
提供框架与制约因素,引导用户迅速展开行动,避免用户在面对完全空白的页面时,脑海中思绪过多且无法集中,不知从何着手。
5.1.1说明系统能做到多好
帮助用户了解AI系统犯错的频率,让用户对产品形成合适的预期。使用诸如【我们认为你可能会喜欢】来介绍推荐的音乐,会让人更能包容错误。
5.2基于具体场景和时间提供服务
根据用户当前的任务和环境判断何时该触发行为或中断行为。
比如检测到用户在行走过程中,手表自动记录步数。假设用户刚刚查询过去往目的地的路线,则自动进入步行导航模式。比如当时间为半夜时,语音助手在回答问题时主动降低音量。
5.2.1记住前后文
记住用户最近的交互行为。保持短期记忆并允许用户高效引用。比如用户说:搜索【歌手李健】,在AI给出结果后,用户说:播放他的歌曲。这时候产品就应该播放李健的歌曲而不是再次询问用户播放谁的歌曲。
5.2.1.1显示与上下文相关的信息
显示与用户当前任务和环境相关的信息。比如用户询问【天气情况】时,在结果中表明是今天、当前位置的天气情况。
5.2.2记住关于用户的信息
记住用户的个人偏好、行为习惯等,主动推送/建议,减少用户的重复操作。类似于登录之后的个性化推荐。
5.2.2.1从用户的行为中学习
不断学习用户过往的操作来个性化用户体验,与用户建立更加亲密的联系。类似于推荐算法,推荐的是用户感兴趣、可能会用到的功能、信息。比如用户总是在每天的同一时刻打开同一个APP,iPhone会在用户下次这个时间点解锁手机时推荐这个APP。
5.2.2.2鼓励用户反馈
让用户能够在与人工智能系统的定期互动中提供反馈,表明自己的偏好。也就是产品不仅可以主动学习用户的行为,还可以让用户主动告诉产品自己喜欢什么、习惯什么。
5.2.3机器主动感知
通过各类传感器实时感知周围环境、人的行为,以此更好地为人类服务。不需要用户主动发出指令,就可以结合以往的使用习惯进行意图判断,主动推送/发起流程。
5.2.3.1平静技术
交流不是为了体现技术设备的能力,而是为了满足用户需求。——《交互的未来》
因为人们的注意力是有限的,是一种宝贵的资源。应该让人把注意力放在真正重要的事情上。如果各个产品一直大声的吆喝,不停地争夺用户的注意力,那么重要的事情有可能会被淹没。
在用户需要时,能够及时响应甚至提前预判,提高效率与流畅度。用户不需要时,不要过多的干扰用户,避免产品/技术本身引起太多的注意。类似于微信产品经理张小龙之前提出【用完即走】的理念,产品是服务于人的,不能成为负担,而是要减轻人的负担。
5.3建立信任、不要让用户失去控制感
由于AI的不可解释性、自主决策,用户必然会对其有所顾虑。所以让用户建立起对于AI的信任感,是人类与AI深度协同的重要前提。
信任是有粘性的,如果用户信任一项服务,可能会选择一直信任。反之,如果用户不信任,可能会一直选择不信任。
信任对于用户是否会采用至关重要。不信任会蔓延,一个功能的不信任会影响对于整体或者所有类似产品的不信任。比如Siri就降低了人们对于所有手机语音助手的信任度。
人类对机器的信任依赖于可靠性与安全性、可控性、清晰透明、一致性。
5.3.1可靠性与安全性
要使AI系统受信任,它们需要可靠且安全。系统必须像设计好的那样运行,并安全响应新的情况。其固有的复原能力应能抵御预期操作或意外操作。
5.3.1.1准确、及时
信任由积极的体验构成。频繁的犯错、延迟、不可用,让用户遭遇多次失败、挫折,会降低用户对产品的信心与信任。
与实际的人相比,人们对于机器犯错的容忍度更低。
5.3.1.2用户数据权利
提供通知和同意的机制,允许用户拒绝服务或数据。隐私设置和权限应该清晰、可查找且可调整。
充分披露个人信息的使用或共享方式。对数据的用途、使用范围提供详细的说明。
用户应始终控制正在使用的数据以及选择在什么情况下使用。他们可以拒绝AI访问他们认为可能会受到损害或不适合人工智能了解或使用的个人数据。
5.4符合社会规范、减少偏见5.4.2国际化/本地化5.5拟人化