查看原文
其他

APP正式通知: 新语音模式即将推出!附: GPT-4o 极简操作手册

风清徐徐来 AI变现研习社
2024-08-22


5月13日,OpenAI发布会上,GPT-4o新语音模式惊艳亮相!

但包括plus用户在内的用户一直无法使用,今天早上打开gpt app,系统提示如下


看来新语音模式快了!
#《GPT-4o文章集锦》

做了个极简操作手册如下,感兴趣的朋友可以看一看

一、GPT-4o 相关概念


1.什么是 GPT-4o?

GPT-4o 是 OpenAI 公司于 2024 年 5 月 13 日发布的一款多模态新旗舰模型,可以实时跨音频、视觉和文本进行推理。

GPT-4o 全称为 “ChatpGPT-4 Omni”

GPT-4 中的“4”表示是第四代 GPT。

“Omni”的意思是“全能”,GPT-4o 是能跨文本、语音、视觉工作

多模态,即用户可以发文本、声音、视频甚至摄像头直播给 Omni,Omni 会以文本、声音予以回复

有一个“新语音模式”,在这个模式下

最神奇的一点,对话过程中,正在说话的GPT-4o可以被用户用语音打断,用户补充新的信息,然后聊天继续,更符合人与人正常沟通场景

不要小看这个功能,这是独创的,之前的 AI 都没有办法实现,只有等 AI 说完再补充或者手动按停止键!

2.GPT-4o 所有功能正式发布了吗?

答:5 月 13 日只发布了 GPT-4o 的文本功能

语音功能将在未来几周内向 Plus 用户(OpenAI 的会员)发布,视频功能暂时未确定时间

3.什么是 OpenAI 公司?**

OpenAI 是目前全球公认排名第一的 AI 软件公司。成立于 2015 年,旗下产品包括文字 AI “ChatGPT”系列、图片 AI “DALL-E”系列、视频 AI "Sora"等。

4. 什么是 ChatGPT?

通俗讲,ChatGPT 就是 OpenAI 公司基于 GPT 模型构建的一个 AI 聊天机器人。

ChatGPT = Chat + GPT

CHAT 就是聊天,GPT 是创建 CHat 的模型。

用户可以像与人对话一样,使用文字、语音和 GPT 沟通

5.ChatGPT 有哪些版本

答:截止目前,GPT 发布了 4 代版本,即 GPT-1 到 GPT-4

据说,2024 年将发布 GPT-5!

2018 年 GPT1,2022 年底 GPT3.5,2023 年 3 月 GPT4

每个版本,又有不同的小版本。GPT4 目前常用版本包括 GPT-4 Turbo 和 GPT-4o

第一,GPT3.5 和之前的版本是单模 AI,只支持文字对话;GPT4 则是多模 AI(多模=文字+语音+图片+视频)

第二,GPT4 比 GPT3.5 更聪明,懂的东西更多(训练数据更多)。GPT3.5=高中毕业生,GPT4 则是 985 的本科生

6.GPT-4o 与 GPT-4 其他版本的区别?

GPT-4o 是 OpenAI 公司 Omni 团队第一个项目

通过优化算法,GPT-4o 性能提升 5%左右,速度比其他版本 GPT-4 快两倍,API 价格下降 50%

在与视觉能力相关的评估中,GPT-4o 的视觉能力表现优于 GPT-4 Turbo。

多语言:GPT-4o 比 GPT-4 Turbo 改进了对非英语语言的支持。

功能上:GPT-4o 有新语音模式,还可以通过声音、视频检测用户周边环境,对用户“察言观色”,识别用户的情绪和状态,反应又快,会是一个很会聊天的朋友!

7.什么是上下文长度?

答:上下文长度,即你与 AI 对话的总长度,包括你发给 AI 的,AI 回复你的,AI 记住的历史数据。

GPT-4o 目前的上下文窗口为 128k,约 1.4 万个汉字

8.ChatGPT 有记忆吗?

有记忆,分为短期记忆和长期记忆。

短期记忆:即当前对话记忆,所有版本 GPT 都有此功能。ChatGPT 是有记忆的,可以根据上下文连续给出建议,和 ChatGPT 沟通,就好像在和人对话一样。

长期记忆:最新版 GPT4 都有长期记忆功能,GPT4 会根据情况,判定是否是个人信息,然后更新到你的专属数据库。目前测试阶段,详见《GPT 比你自己还懂你?》

9.什么是 AI 的通识

包括 GPT 在内的 AI,都是人类用大量的数据训练出来的,这些数据称为“通识”。

通识有一个截止日,比如 gpt4o 的知识截止日是 2023 年 10 月。

2023 年 10 月至今的信息,由 GPT4o 内置的搜索引擎补充提供。

10.还有其他类似的聊天 AI 么?

答:主流有几十款 LLM AI.有的,除了已经介绍的 KIMI,质谱清言外,谷歌的伯德、Gemini,meta 的 llama 系列、马斯克的 Grock 等。

下图横坐标是速度,纵坐标是质量,圆形大小表示使用成本。

可以看到 GPT-4o,性能较高,速度较快,使用成本中等偏上。

11.GPT-4o 的应用场景

有了 GPT-4o 新语音模式加持,应用非常广泛!

在 GPT-4o 的新语音模式下,用户与 GPT-4o 沟通,感觉很自然,对话如真人般丝滑

有语音模式的加持,可以广泛的使用在日常交流、工作学习中,细分领域包括日常对话、教育、聊天、学外语、教育辅导

奥特曼在接受采访时说:

“因为我认为这是使用计算机的一种非常棒的方式。实际上,我们很久以前就有了语音控制计算机的想法。你知道的,我们有 Siri,之前还有其他类似的技术。但它们从来没有让我感觉到使用起来很自然。这个新技术,由于很多原因——它的功能、速度、增加的多模态支持、语调的自然性等——让使用体验大大提升。你可以轻松地调整说话速度或改变声音,它的流畅性和灵活性让我非常喜欢。

有个特别惊喜的用途是在我全神贯注工作时,将手机放在桌子上。然后在不需要切换窗口或改变我正在做的事情的情况下,将它作为另一个通信渠道。这样我就可以在继续工作的同时,询问并立即得到回答,而不需要转移视线,这真的很酷。”

采访全文见《OpenAI 创始人 Sam Altman 谈 GPT-4o》

使用场景见《10 年前是科幻,10 年后是现实》

12.GPT-4o 可以免费使用吗?

免费注册用户可以使用 GPT-4o!

对于免费用户,GPT-4o 每 3 小时有 10 条请求的限额,并且支持上传文件。一旦达到限额,它会自动切换回 GPT-3.5 模型

对于付费的 Plus 用户,GPT-4o 每 3 小时有 80 条请求的限额,而 GPT-4 每 3 小时有 40 条请求的限额

不过我有免费白嫖大法,如果你有一点技术,可以关注公众号“浩瀚的苍穹“,我传授你白嫖大法,省 20 美元/月。

13.GPT-4o 会犯错吗?

答:会!所有 AI 都会犯错

聪明的 AI 或能联网的 AI 犯错几率小一点。注意官网对话框下面那行小字:

“ChatGPT 也可能会犯错。请核查重要信息。”

二、GPT-4o 的安装

可以通过两个途径使用 GPT-4o

第一,官网使用;第二,国内调用官方 API 构建的网站比如“清风 AI”(点击“阅读原文”直达)

14. 如何安装 GPT-4o?

官方的 ChatGPT 有网页版、APP 版本(支持安卓/苹果),5 月 13 日刚推出的 MAC 桌面版(windows 年内推出)

同一账号登录,网页版、APP 版数据自动同步

(1)网页版

网页版不需要安装,科学后登录官网后使用,网址 chatgpt.com

(2)APP 版本

支持安卓和苹果手机,开通方式详见《手机安装 ChatGPT 方法》

安卓手机到谷歌应用商店安装,如果你是华为手机,安装难度较大,较为可行的是安装“华谷套件“(第三方收费软件),详见《答疑 1》

(3)桌面 MAC 版本

桌面版就是在台式电脑、笔记本电脑上可以使用的版本

5 月 13 日,OpenAI 推出了第 1 款桌面版 ChatGPT,暂时只有 MAC 版,Winddows 晚一点出来

仅支持 MacOS14 和 Apple Silicom(M1 或更高)

ChatGPT Mac 桌面版安装包(官方版)

下载链接:

https://pan.baidu.com/s/1zXd8BgJqf9-koYHiTXJeZA?pwd=dm8s

提取码: dm8s

安装后,通过简单的键盘快捷键(Option + Space),可以立即向 ChatGPT 提问。

您还可以直接在应用程序中截取屏幕截图并进行讨论:

您还可以直接在应用程序中截取屏幕截图并进行讨论。详细了解如何使用 MacOS 应用截取屏幕截图。

15.ChatGPT 国内能直接使用么

答:国内不能直接登录官网。但国内二次开发的镜像可以直接登录

如 www.91gpt.site,(点击“阅读原文”可达),注册后可免费(限额)GPT4o,仅支持文字对话。

16.官网使用 GPT 的方法

目前,官网使用 GPT 有三个状态:不登录状态、免费用户登录状态、Plus 用户登录状态

本文开头用的是“免费用户登录状态”

(1)不登录状态:

能:可以无限制使用 gpt3.5;调用第三方搜索引擎

不能:保留对话历史记录、个性化设置

界面如下:

(2)免费用户登录状态:

能:可以无限制使用 gpt3.5,限量使用 gpt-4o,保留历史记录,调用第三方搜索

限制次数:对高级数据分析、文件上传、视觉、网页浏览和自定义 GPT 等功能的有限访问权限

不能:没有长期记忆功能;没有 gpts 功能;不能优先使用新功能,比如 gpt4o 的新语音(未来几周发布)

界面如下:

免费和收费差别如下:

对于免费用户,GPT-4o 每 3 小时有 10 条请求的限额

对于付费的 Plus 用户,GPT-4o 每 3 小时有 80 条请求的限额,而 GPT-4 每 3 小时有 40 条请求的限额。也就是说 Plus 用户每 3 小时有 120 条 GPT4 可以用!

(3)Plus 用户登录状态

截至 2024 年 5 月 13 日,Plus 用户将能够在 GPT-4o 上每 3 小时最多发送 80 条消息,在 GPT-4 上每 3 小时最多发送 40 条消息。

三、GPT-4o 的注册

17. chatgpt 免费账户的注册

《一文看懂 GPT 注册》

18. Chatpgt Plus 收费会员账户的注册

《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》

本公众号推荐 wildcard

注册链接 wildcard.com.cn/i/xin7

点击左下角“阅读原文”可直接进入

目前这个平台采用邀请制,如果是没有邀请码,是没有办法注册成功的

填入邀请码有优惠,邀请码:XIN7

wildcard 有改版,改版后流程如下:

(1)注册免费

注册 wildcard,在“Openai 专区“找到 openai 专用浏览器,然后下载这个浏览器,打开,点击 7 天免费试用,登录 gpt 官网,完成注册

**(2)升级 plus ** 还是使用 openai 专用浏览器,在“Openai 专区“,找到 “ChatGPT Plus 一键升级”按钮,根据提示,完成升级

19. 官方 API 的注册

这条普通用户用不着,需要验证境外手机,另外 API 都要收费!

《官方 API 最新申请方法》

20. 第三方平台注册(清风 AI)

《六一促销!国内直联 GPT-4o,优惠最高达 100%!》

21. 第三方 API 申请(野卡)

《API 申请》,这个用于程序开发,小白可以不看

四、GPT-4o 的基础操作

鉴于官方只发布了 GPT-4o 的文字版!新语音功能将在 1、2 月内发布给 PLUS 用户

(关于这点,我已经发文吐槽过了)

下面我们来演示一下基础使用

22. 如何与 ChatGPT 对话?

你发消息给 AI,俗称“提示语”,AI 给出相应的答案。基本技巧是给他一个角色提示,加上清晰的背景,与主题相关的关键词语。

23. 如何得到高质量的回答?

要取得任何一个 AI 良好的回复,需要挑一个优质的 AI(天生丽质),然后会穿衣(套框架),会打扮(提示词)

GPT-4o 是优质的大模型,下面结合基础操作,给大家讲讲套框架和提示词

我们不登录用户、免费用户、Plus 用户 来演示下

以下提示词适用于所有状态

(一)不登录用户

1、演示基础对话

提示词1:“搜索一下中国的房地产住宅最新限购政策”

AI 拒绝了,因为它知识截止 2022 年,无法搜索最新的信息

我们打开第三方搜索插件,问同一个问题,得到了最新信息,每个信息后都有信息网址来源

(二)登录免费用户

我们登录一个免费账户,登录的时候可能会验证是否是真人

如下图,点击按钮,把朝向选得和右图一样即可

2、演示按一定格式输出

我们登录,系统默认是 gpt40,我们发出第二个题词

提示2:你是一个地产公司的HR,你要写一个年度培训计划,要求符合smart原则,量化相关指标这里我们用了一个万能公式:

万能公式 = 定义用色 + 背景信息 + 任务目标 + 输出要求

得到以下回答:

可以看到格式较乱,我们可以让 AI 按一定格式输出

提示3:你是一个地产公司的HR,你要写一个年度培训计划,要求符合smart原则,量化相关指标,表格格式输出

得到以下回答:

因为我们有“表格格式输出”这几个字,系统显示了表格,而不是纯文本

其他格式还包括 “Markdown 源代码格式”、“流程图格式”

3、演示图片分析

现在免费用户可以使用 GPT-4o 了,虽然只有 10 条/3 小时

可以上传文件,图片分析,可视化数据分析

上传一个图片

提示 4:帮我挑个好吃的瓜

GPT 答复:

“挑选好吃的西瓜可以参考以下几个技巧:

  1. 看形状:西瓜的形状要对称,不要有凹凸不平的地方。图中的瓜大多形状都比较对称,但特别要注意 1、2、4、6、10、12 这些瓜,它们的形状比较圆润均匀。

  2. 看花纹:好的西瓜花纹清晰,颜色对比明显。2、6、7、10、12 这些瓜的花纹较为清晰明显。

  3. 看底部颜色:西瓜底部的颜色应该是黄色或奶油色,而不是白色。黄色的底部表示西瓜成熟度高。9 号瓜的底部有明显的黄色,可能是个不错的选择。

  4. 听声音:用手指轻弹西瓜,声音清脆表示瓜熟了,声音沉闷则可能瓜还不熟或过熟。由于图片无法判断声音,这一点可以在实际挑选时再考虑。

  5. 重量:同样大小的西瓜,较重的那个含水量较高,更甜。图中看不出具体重量,但可以结合以上几点进行挑选。

综合来看,9 号瓜底部黄色明显,12 号瓜花纹清晰,形状圆润,可能是较好的选择。可以考虑挑选 9 号或 12 号瓜。”

还可以调生鲜,挑榴莲

挑榴莲

4、演示可视化分析

上传一个员工花名册

提示词5:分析这个表格,可视化分析性别和年龄构成

免费的 gpt4o 只给出了 python 代码,没有直接生图

5、演示自定义 chatgpt 功能

点击右上角,录入小红书爆款文案的提示词

记住保存,将按钮点成绿色,另外要新开一个对话,否者保存不生效

提示词6:主题:六一儿童节瓜瓜童装与玩具反斗城联合促销

GPT 会根据内置的提示词,开始标题-正文的撰写

6、临时聊天

另外,免费用户也有“临时聊天”,

如果不想自己的数据用于训练 AI,可以在右上角系统设置中关掉

7、归档

如果觉得某个提示词很好,可以选择归档

归档后的信息可以在系统设置中查看或删除

以上就是免费 GPT 的功能演示

(三)Plus 用户

现在我们登录 PLUS 用户

PLUS 用户主要是在数据可视化分析、GPTs 更有优势

以上就是 GPT-4o 的基本操作

我将在新语音模式开通后,完成详细评测再和大家分享


修改于
继续滑动看下一个
AI变现研习社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存