半岛彩票看了一眼问题日志,发现这个问题是在2016年提出来的,7年过去了,人工智能其实应用已经相比起以前不知道翻了多少倍。
比如现在最火热的ChatGPT,其本质上就是一个复杂的transformer模型。以transformer为基础的模型有很多,但是能做到这么简单可以大规模应用的到目前为止并不多。
纵观AI的发展史,从1950年左右图灵测试理论的建立,到alpha go的诞生,其实也不过才60多年而已,比起大多数的学科,都只能算是个小年轻。
而AI在历史上大多数火在少部分的群体,比如科研人员,他们之间会比拼谁的模型识别准确率更高;比如有限的几个大公司,微软,谷歌,deepmind,谁又刷新了某个人工智能的榜单。
但是绝大多数的群体,也就是只能在电视或者新闻山看人工智能的普通人,其实一直以来并没有机会去接触到人工智能这个东西。
而在最近一年以来,情况发生改变了,那就是以Transformer为基础的大模型语言模型ChatGPT和以Diffusion为基础的扩散模型Midjourney/StableDiffusion,改变了只有大公司和专业人士才能接触和使用的人工智能技术的使用门槛。
现在各种人工智能对话机器人和AI绘图工具层出不穷,使用门槛低到只需要有一个手机就可以用AI来进行文字创作和图片创作。
如果我们要列举人工智能应用的话,可能杂七杂八的会有成千上万种,但实际上很多应用都是在做非常类似的功能,比如各种AI写作软件,它们本质上都是接收文字输入,然后再输出文字。
其实如果我们按照输入给人工智能应用数据类型的不同来划分的话,大致可以分为四种。
每种格式的人工智能应用都有很多,但实际上每个领域只有非常有限的几个应用可以杀出重围,从而获得绝大多数的关注。
写作是最基本上,也是最常用的工具,一般来说可以用它来构思文章,润色,翻译等等一切可以想到的文字创作,基本上都可以用到它。
这四个模型都有各自的特色和优势,满足不同的需求和用途。我其实这四个都会用到,比如回邮件,很多时候礼貌且专业的回复一封邮件其实是并不简单,而ChatGPT之类工具的存在,就可以非常方便的做一些以前需要工作经验才能做好的事情。
比如下面这个例子,就可以把一件专业的事情变成一道填空题,你只需要替换掉一些关键部分就可以。
这就是大模型的威力,而不同的大模型的优势不同,所以并不用一味的依赖某一个大模型。比如说你需要快速整理一本书的时候,就可以用Claude 2,它可以一次性的接受10万个字符,这一点儿ChatGPT是比不过的。
鉴于人工智能的普遍性,其实每个人都应该去掌握基础的人工智能概念以及知识,因为你所在的行业或许已经被人工智能渗透的很深了,如果你不了解它,那么你会比其他的人落后的多,甚至会因为不了解而被它所取代。
在这个人工智能时代,要想不被取代,最好的方法就是去跟人工智能结合。这里我强推结合ChatGPT来帮助你学人工智能,它在这方面非常的强,胜过很多书籍和资料,最重要的是它可以扮演一个知识非常丰富且知无不言的老师。这就是大模型的魅力,它可以放大你的能力,比如说你不擅长代码,那么它可以帮助你实现你的想法,无论什么语言它都可以做的非常棒。其实无论是从业者,还是对这一行感兴趣的朋友,都非常的建议了解一下「知乎知」联合「AGI课堂」推出的【程序员的AI大模型进阶之旅】公开课,一共2天的课程,可以帮助你迅速的掌握大模型的潜力,以及它如何可以跟你的职业或者学习相结合。
这类型工具非常的实用,基本上可以让任意一个普通人都可以拥有实现自己梦境的能力。
你只需要输入一段文字来描述你想要的图像,这两个工具都可以在很短的时间内生成出来。
Stable Diffusion: 提供更多调整图片的选择,例如,大小、跟随提示的程度、生成数量、种子值和采样等。
Stable Diffusion: 安装麻烦,还要找到合适的模型来获得想要的风格。
Stable Diffusion: 要更努力地创建好的提示,尝试产生相同质量的图像。
Midjourney: 选择有限,只有几种特殊模型,可以添加参数来“样式化”图像。
Stable Diffusion: 可以多样化地编辑图片,包括重做部分图片或延伸。
Stable Diffusion: 通过多种方式控制,如图像到图像、深度到图像等。
这个问题其实复杂也不复杂,如果有条件肯定是两个都选,但是如果只能选择一种的话,就得比较一下自己到底适合哪个。
选Midjourney:想快速生成美图;没时间学习模型;喜欢它的风格;需要即插即用解决方案;不介意付费。
选Stable Diffusion如果:想要免费方案;希望本地运行;喜欢折腾设置和新工具;需要编辑功能;更喜欢开源,并希望有更多对图像的控制权。
这类型的工具我用的不是很多,第一是因为视频做起来的难度很高,花费的时间和精力也是文字的好多倍,其次现在的AI视频生成工具的效果不是很理想,毕竟处理视频所需要的算力和算法复杂度都比图像高了很多。
而这部分我觉得有两个类别,第一个是通过拼接图片做成的视频;第二个是纯文本生成视频。
前者的代表就是剪映这样的软件,你给他一段文字,它自动的匹配对应的图片,再给你自动配音和配乐,虽然效果很一般,但是确实是可以看的视频。
比如有以下这些软件,基本上都不免费,就算是免费也只能生成很短的视频,或者需要加上各种水印。
大多的生成视频都是一个固定的人物模型+根据语句变化的嘴形,可以用,但是不太能尽人如意。
这类型工具主要分为两类:文字转语音和语音转文字,语音转语音的也有,但是数量不算多。
文字转语音的应用很多都内嵌在视频编辑软件里面,比如说剪映,就可以很方便的将文字转换成语音,同时还有很多类型的音色可以选,比如最近很火的猴哥音色。
而语音转文字的应用也有很多,比如最常见的就是微信,可以很轻松的将你的话转换成文字。
再高级一点儿就是直接将中文转换成英文文本,这种应用相信大家也从各种渠道看见过。其实就是先从语音转成文字,然后文字再做翻译。
AI应用有很多,但是究其根本,不过就是接收输入然后输出内容,输入和输出可以有各种搭配。但是要记住,选择工具要选择最适合自己的,而不是最好的。
记得,如果你想要跟上最新的AI技术,其实搞懂ChatGPT就行了,有了它就等于拥有一个全能助手,不明白的可以直接问它。
MIT和IBM沃森联合实验室,发布了这只画师,名叫AI Portraits Ars,可以在线玩耍。
但由于生成的画像过于形神兼备,上线即遭网友大规模涌入,不到三天服务器就崩坏了。
就算眨眼,就算转头,AI生成的画像依旧自然。并没有因为姿势的变化,就画成其他的人:
在文艺复兴时代,有色人种没能留下属于自己的油画,但在AI Portrait Ars这里,艺术绝对没有界限。
不仅对三次元的人类们一视同仁,AI Portrait Ars还能把二次元人物一并带回文艺复兴时代:
好玩的是,即使你输入了一张笑得很开心的照片,AI Portrait Ars也会倾向于让你看上去严肃点。
效果如此鹅妹子嘤,难怪世界各地的胖友都会被俘获,可是想到另一个大火的变脸FaceApp,因为隐私质疑而收到警告,不免让人有一丝担忧。
AI Portrait Ars的作者们早想到了这个问题。他们保证,在图像生成完毕后,用户上传的照片会第一时间从服务器上被删除。
比如这个头发 (大概) 日渐稀疏的男子,仰天大笑的时候,就从油画笑成了一张素描。
GAN里面有个生成器,就是画师;还有个判别器,就是鉴赏家,负责识破生成器的画不是人类作品。
生成器里有个潜在空间,里面有千千万万的AI画像,都是从人类画作里,用不同的向量修改而成。
然后,要按着照片生成画像,就把一个向量 (Latent Vector) ,映射到千万AI画像里和照片最接近的一幅。
那么,向量和照片,怎样才能比较出相似不相似?团队设计了一个Inverter,可以从照片里近似出一个向量,用来找到潜在空间里最合适的那个向量。
这个模型自己会决定,到底用哪种画风。所以,有的人变成了油画,有的人变成了素描。
至于,AI是如何选择画风。研究人员说,脸上的细节,和背景里的细节,都会帮AI做决定。
相比之下,风格迁移通常都是强烈地改变颜色,而照片的其他特征大多保持不变。
比如,AI Portraits Ars的每个作者,都让AI把自己变成了一幅画,各自风格不同:
这几年人工智能发展的挺快,我最直观感受是,16年时语音输入还是个新奇事儿,那时候拿着这个功能还能玩半天。
现在小到儿童玩具,办公用品,大到医院仪器、航天设备,人工智能,无处不在。
但我个人认为目前最普适、应用最广的,其实要数天猫精灵这类智能语音产品。其一,它是一个to C的硬件产品,可语音交互,拉低了老人孩子等群体对人工智能的认知门槛;
第二,都说AIoT时代到来,一个天猫精灵就能起到大脑的作用,串联起各个智能家居设备,带来更强的生活体验。
三口之家或许体验感还不强,但独居时的感觉会更加强烈,多少年轻人回到家以后的第一反应是,“天猫精灵,放一首XX?”,给家里多些热闹气息;
你说人文关怀,这就是人文关怀,几百块钱的设备,陪着你度过独自打拼的日日夜夜,消除孤独感,别的不说,这点上它已经很成功了。
可以说,无论是家,还是办公室,只要在一个固定场所内,像天猫精灵这样一个人工智能设备都能覆盖,带来不少智能化改变。
诞生了这样一个成功的案例,无数厂商都想进行复刻,随即智能家居上花式做文章,打造了如人工智能马桶这样匪夷所思的产品,成功不成功很难讲,溢价空间是争取到了。
车是独立于家庭和办公室之外的第三空间,从功能需求上讲,在这个空间内,需要人工智能帮助辅助驾驶,帮助司机导航前行;
从感官需求上讲,高频使用、单次停留时间长的车内空间,会放大人们的感知,更加需要一个天猫精灵一样的语音助手,将它移植到车内,帮助排解行车孤独,增添驾驶乐趣。
在电车时代,我们需要人工智能在车这个空间内,给我们带来更多人性关怀,带来在家的一般温馨快乐。
这样的博浪者出现了,并且伴随着我们对人工智能时代的行车需求上升,能力也逐渐增强。
最开始的1.0时代,我们对于人工智能的需求,仅仅是做个活地图,能够帮我指个路,在我双手不方便离开方向盘时,能够语音导航;
随后IOT设备接入,我们逐渐意识到人工智能可以帮忙链接更多设备,车家互联,带来更多个性化应用推荐;
到如今,我们的需求很明确,就是需要车内变成一个智能且温馨的空间,这个空间需要帮我们串联更多生态程序,带来更沉浸的体验。
背靠阿里达摩院,整合了相关资源,最新系统版本甚至还运用到了天猫精灵能力,斑马智行知道怎么打造,也有能力打造智能行车空间,斑马智行打造的洛神智能座舱系统这样的新应用出现,已经见识到了一些新思路。
燃油车时代,对于路况的感知全靠司机个人,感知不足时,往往会诞生相应的剐蹭和碰撞风险;
如今人工智能时代,更加要求车子对路况能够灵敏感知,并实时将信息与决策信息呈现着屏幕上,供驾驶者掌控,为驾驶者的生命安全兜底。
斑马智行等先行品牌在机驾变道,人驾变道引导,前车碰撞风险等实用功能上做了加法,知道“多多益善”,相关风险扼杀在摇篮中,让驾驶者驾驶的更轻松,更安全;
以前人工智能能够帮助使用者获得信息,但是依然拥有门槛,门槛不在于它们不够智能,而是物理环境上存在着不便,比如屏幕太多,语音交互能力不足,这些都是行驶时获取信息的门槛。
但新智驾系统如斑马将仪表屏幕和中控屏幕融为一体,让最需要的信息能更直观的呈现在视野中;多指操控,模糊操作也能够获得所需信息。
以往需要唤醒词才能激活语音助手,现在像洛神智能座舱系统这样的语音助手能够实现全时陪伴,无需唤醒即可主动交互。并且随着产品逐渐成长,前后排的全区语音识别能力会更加成熟,更加值得期待,前后座上对人工智能无感知的老人小孩,都能够与语音助手自如沟通交流。
不但要听得懂你的话,要理解如四川话等方言,甚至还要实时、持续的自学习,更要像一个百科词典般的管家,能够答疑解惑。
斑马搭载了天猫精灵服务生态,能够做到车内管家式服务:在等娃下课时,你能够跟斑马对诗;行车时突然诞生了疑问,可以让斑马解答;甚至孩子想要买娃娃,也可以通过语音购买;
基于达摩院人工智能学习平台,斑马也能够做到持续学习进步。阿里达摩院不单单打造了天猫精灵这样的成功案例,多年在语音识别及唤醒、语音合成、多模态人机交互等方向不断深耕,能够打造出中国移动智能客服、司法政务语音助手、海尔五代人工智能电视等成功语音应用案例,在这样的起点上,斑马学习能力只会更强。
但说到底,这已经不是单打独斗、闭门苦修即可打造顶尖产品的时代,关于人工智能,各大厂商都有自己的理解和看法,但谁能在一个个领域中走得更远,并寻找到下一个人工智能能大放异彩的领域,还是看厂商对资源整合能力。
要更功底深厚的人工智能平台,要更丰富多彩的生态,要更多领域已经成功应用的经验,才能打造出更聪明的人工智能产品。
未来还会有更多成功的品牌出现,携带着成功的经验,在新的领域复刻,为消费者带来更好更人性的体验。
而在现实生活中,人工智能不仅仅是机器人形式的存在,更多会被应用于人类生活质量的提高及工作环境的改善。
在现代医学中,常见人工智能的应用可分为两种,一种是能够读取人体神经信号的可穿戴式机器人,可以帮助瘫痪人士完成行走的基本动作,或改善肌肉萎缩症患者的步行机能;另一种则是相对于医生而言精准度和灵活性更好的手术辅助机器人,通常搭载可拍摄二维图像的摄像机,将人体内的情况利用三维图像清晰地显示出来,让医生得以监控整个手术过程,从而实现远程手术操作。
ETC收费系统是以图像检测、分类技术,信息匹配技术为基准的人工智能收费技术,当车辆经过高速公路ETC出口时,系统会对车辆进行摄像及识别,并进行自动收费,此项技术大大的提升了车辆通过效率,减缓了高速公路的交通压力和人资支出。
以前游戏中的角色只会对着玩家无脑攻击,现在游戏里的AI已经可以做到分析环境和敌人状态、寻找有利条件,甚至和其他AI或玩家合作等等。
游戏AI可以增加游戏的趣味性并提升玩家在游戏中的体验感,随着人工智能技术的发展,以后玩游戏可能会越来越难以区分你的对手是人类还是AI了。
近年来出现了“算法”这一概念,慢慢的各类APP都可以通过算法收集用户对某一类资讯的点击率、页面停留时长、阅读完成率等各项数据,进而得知用户的喜好,然后有针对性的推荐相关文章或资讯,就像知乎系统总会推送一些小海比较擅长或感兴趣的问答,这让小海深陷其中无法自拔。
智能家电已经慢慢渗透到我们的生活中,小到智能音响,大到智慧家庭,都属于智能家居范畴。智能电器连入网络,通过各类传感设备接纳信号,发出或接受控制命令,使得家居整体互通互联。
智能家居的出现,很大程度上提高了用户的生活质量,解放了双手并大大提高家庭清洁效率。例如由自清洁洗衣机、试衣镜、智能衣柜、洗鞋机、自动晾晒机、叠衣机等构成海尔衣联网,从在线试穿到下单,从定制专门的洗护方案到自动晾晒、叠衣,让用户可以尽情享受智能化家居带来的便捷。
所谓的生物识别技术,即利用人体的一些生理特征,例如指纹、虹膜、容貌等进行身份鉴定的技术。
以我们最常用的指纹识别为例,指纹识别的原理是使用数字化算法识别并对比指纹上的特征点。目前已经被应用于很多领域,比如手机指纹解锁、考勤打卡、司法鉴定等等。人脸识别技术近些年发展也很快,许多手机已经具备了刷脸支付或刷脸解锁功能,准确率同样相当高。
语音识别我们接触的很多,比如iPhone的siri以及其他各大智能手机的语音助手。机器翻译也是很实用的功能,这两者都是很成功的人工智能应用。
如果语音识别和实时翻译结合起来能做什么呢?谷歌的技术宅们早在2009年就给youtube开发了一个自动字幕系统,让原本没有字幕的视频可以自动生成字幕,并且支持实时翻译成多国语言。
除了以上几种应用,还有几个方面是已经涉及人工智能,但开发程度还没有满足消费者内心期待的几个产品:
家庭垃圾智能分类处理系统近年来随着人们对环境保护的重视,一些一线城市已经实行了智能垃圾分类,但也仅限于在人们投放垃圾时候,垃圾箱用语音形式进行分类方式提示,日本也早有垃圾处理公司使用智能识别技术和分拣机器人进行垃圾分类,但如果智能垃圾处理系统可以发展至家庭使用的话,在垃圾分类效率、家庭卫生保持和提高环保意识上都会有更好的作用和体验。
人体健康监控系统人体健康监测app和电子工具越来越多,例如手环、健康app等等,但大都不能实现人体健康监控全面化,如果可以将人体健康检测、突发疾病预警、个人病例报告以及紧急通知联系人等信息结合为一体,导入手表或芯片,连接医疗警报系统,可以大幅提高应急情况的响应速度,也会方便医生对患者的病情进行了解和判断。
交通协调系统目前很多司机仍通过交通广播的方式获取交通协调通告,如果将道路情况、天气预警、道路指挥、信号灯设置、突发事件的紧急指挥等道路交通信息结合在一个系统当中,利用图像识别、卫星定位、道路自动封锁等人工智能技术,在道路发生意外的时候,最快地通知驾驶员、快速疏通车辆、识别车辆、更改道路提示信息,那么在事故发生地、交通拥挤地段以及特殊天气时所发生的交通事故将会大大减少。
尽管人工智能技术还不那么成熟,但小海认为,随着科学技术的发展,将会有越来越多人工智能为人类的衣食住行带来方便,我们拭目以待吧!