“看图说话”样样行，ChatGPT功能升阶再度引发资本市场热潮

您当前的位置：首页 >> 财经 > > 详情

“看图说话”样样行，ChatGPT功能升阶再度引发资本市场热潮

2023-09-27 06:10:43 来源：金融投资报

本文共2600字

【资料图】

阅读完约6分钟

金融投资报记者薛蕾陈雨禾

北京时间周一晚间，OpenAI表示，将在ChatGPT推出新的语音和图像功能，新功能将于未来两周内面向Plus和企业用户推出。

多模态ChatGPT上线如同深水炸弹一般，不止是科技圈，甚至金融圈与法律圈都迎来了激烈讨论。

为此，金融投资报记者采访到了西南交通大学计算机与人工智能学院副教授、博士生导师邢焕来，吉利学院工业互联网产业学院院长易勇，香颂资本董事沈萌，以专业视角分析多模态ChatGPT上线会在业内掀起怎样的风浪。

制图卿子秀

ChatGPT上新

再度“点燃”概念股

受上述消息影响，9月26日，A股人工智能、算力、AIGC等概念股大涨。其中，海天瑞声“20cm”涨停，万兴科技涨14.47%，大华股份、网达软件涨停，虹软科技、传音控股、盛天网络、易华录跟涨。

据Wind

OpenAI在官网表示，语音功能支持iOS和Android平台，图像功能支持全平台。根据演示，语音功能方面，用户可以与ChatGPT进行语音对话，让ChatGPT讲故事、读诗等；图像功能方面，用户可以用图片向ChatGPT提问，支持多轮对话和多图识别，比如拍下冰箱照片询问ChatGPT晚餐吃什么等。

“实时语音对话将为用户提供更自然的沟通方式，对虚拟助手、客服机器人等应用将会非常有用，基于图片对话则是一个巨大的技术突破，可用于更丰富和更直观的交互。”对于此次ChatGPT的更新升级，邢焕来分析称，OpenAI通过融合其训练数据中蕴含的知识，进一步丰富了模型在多模态数据的分析能力，从而提供了图片对话、实时语音对话等新功能，扩展了ChatGPT的应用场景和应用价值。

从目前来看，新功能可能扩展AI的应用范围，包括更多的图像和语音驱动的应用，如医疗、娱乐、教育等；在用户体验方面，实时语音对话和基于图片的对话功能有望提高用户体验，使人机交互更加自然和便捷。

“从专业角度来看，人工智能在语音和图像领域的进展非常令人鼓舞。”吉利学院工业互联网产业学院院长易勇表示，目前人工智能在语音和图像领域的准确性已经达到了相当高的水平，而人工智能的可靠性仍然是一个挑战。未来，随着技术的不断进步和优化，我们有理由期待AI在这些领域的性能将会进一步提高。

国内外顶尖企业

纷纷逐鹿AI领域

除OpenAI在多模态领域布局外，谷歌、Meta、苹果等也在相关领域发力。

与此同时，国内企业在相关领域的布局进度同样受到关注。事实上，国内公司在AI领域的进度各有优势与侧重。

邢焕来指出，百度公司的文心一言推出了基于知识增强的深度问答、图像搜索、文字识别等人工智能产品；阿里巴巴的通义千问具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能；腾讯公司的混元大模型侧重于解决业务的实际需求，涉及QQ、微信、腾讯文档、腾讯会议等多场景；华为、科大讯飞、字节跳动、快手等公司也都在AI领域进展迅速。

同时，国内还有许多大学和科研机构积极布局，例如川内的电子科技大学、西南交通大学、四川大学等都在推进预训练大模型的相关研究。

“更丰富的接口功能，可以让ChatGPT更深入地接入应用场景，加强AI与实际业务的融合并实现商业收益。”沈萌告诉金融投资报记者。同时，企业可借此带动更多AI与业务融合的衍生需求，形成更多细分领域的业务场景，随之而来的，可能还会有新一波的模型大战和概念炒作。

多模态大模型

推动算力需求激增

国信证券此前的研报指出，AI三元素（大模型、算力、应用）呈现出螺旋式促进关系。当三者中有一个要素喷发，就是强刺激期；三者没有更新就会进入停滞期，等待下次爆发。

如今，随着ChatGPT在多模态大模型上的突破，首先受到关注的就是算力领域。

开源证券分析称，多模态大模型推动AI迈向“通感”时代，算力需求将大幅提升。由于语音和图像数据大小显著高于文本，多模态大模型训练和推理的算力需求将大幅提升。

孟晚舟近期在2023华为全球分析师大会上表示，预计到2030年，通用计算能力将增长10倍，AI计算能力将增长500倍。

在应用方面，随着ChatGPT的更新以及后续AI技术的发展，更多领域将受到深刻影响。

邢焕来认为，语音和图像等新技术的发展将进一步提高人机交互的效率，推动人机交互的进一步发展，可能对虚拟助手、智能家居和教育应用等领域将产生深远影响。此外，在医疗保健、自动驾驶、工业自动化、教育娱乐等领域，用户体验也将得到极大改进，能够为用户提供更自然、更丰富和交互性更强的体验。

数据隐私、伦理问题等

将越来越复杂

可以预见，人工智能技术已经开始对社会产生广泛而深刻的影响，这些影响将在未来继续扩大。

“在就业方面，语音和图像等技术的广泛应用可能会导致某些传统工作的自动化。医疗保健方面，语音和图像等技术在医疗诊断、患者管理和健康监测方面具有巨大潜力；对于一些新兴产业，语音和图像等技术将促进新兴产业的快速发展，如无人驾驶、智能城市、虚拟现实等，为社会带来新的商机和新的生活方式。”邢焕来说。

“作为人工智能领域的专家，我对这项技术的未来发展充满信心和期待。”易勇认为，未来几年语音和图像处理技术的发展将会带来许多积极的社会影响，语音和图像识别是通用人工智能的主要应用方向。然而，也需要关注并解决伴随技术发展而出现的新问题，例如数据隐私、伦理问题等。只有在这些问题得到妥善解决的前提下，人工智能才能真正地为社会进步作出贡献。

北京乾成律师事务所龚嘉璇律师在接受金融投资报记者采访时表示，新功能的上线或许存在负面诱导风险、数据安全风险、人格权侵权风险、虚假信息风险及知识产权侵权风险。

“总体来说，语音输入功能和图像处理功能侵权风险与此前单纯的文字对话相比，可能遭遇的侵权方式和相应的法律风险更为多样。需要注意的是，随着AI技术愈发成熟，后期涉及的法律问题也会越来越复杂。”龚嘉璇说。

龚嘉璇表示，“技术的快速发展与立法滞后之间的矛盾是无法避免的，这就要求立法具有一定前瞻性，防患于未然。此外，针对法律漏洞，应及时出台司法解释，尽可能改善立法的滞后问题。”

编辑|贺梦璐校检|袁钢审核|刘柯

本文为｜金融投资报jrtzb028(微信号)｜

未经授权，禁止转载如需转载，请联系金妹儿

转载须在正文开头显著位置

注明稿件来源及作者名，违者必究

互联网新闻信息服务许可证号：51120180008

标签：

产业更多