我最近碰到个大麻烦,就是把一段20分钟的音频转录成文字,结果发现谷歌的Gemini直接就搞定了,而ChatGPT却一点办法都没有。他们总说这不是竞争,你可别信那个鬼话,特别是搞AI的这行,那就是赤裸裸的比拼啊。我平时天天都在测这些聊天机器人的本事,结果总是出乎意料。有的确实比别的强不少。 这事儿是从我用iPhone 17 Pro Max上的Notes开始的。以前我一般用安卓手机录音,像Google Pixel 10 Pro Fold那种特别好使的录音应用,能把每句话都分得清清楚楚。这次我手里只有个iPhone,就在想Notes是不是也能录音呢?果然在那个回形针图标下面藏着功能。录完听听效果还不错,录音文件直接保存在Notes里了。 不过看那个生成的文本就头疼了。虽然内容大致都在,就是没标注谁是谁说的,全混在一起了。要是我想找采访对象的话,就得从一大段话里费劲去挑。本来打算再听一遍手动标上标签,后来突然想到了Gemini。我对这家伙最近表现挺满意的,特别是这个最新的3 Pro型号。 为了不让别人听见我在说什么(毕竟是私密对话嘛),也为了不扰民,我没敢直接用扬声器外放让Gemini听。后来我发现Notes里的文件可以下载下来。在播放界面的三个点菜单里有个分享按钮,直接用Airdrop发到了我的14英寸MacBook Pro上。 文件是MPEG-4格式的,拖到Gemini 3 Pro的提示框里输入简单的命令:“听这个音频,帮我转录并标注发言人。”这玩意儿反应挺快的,没过多久就开始输出了。虽然它一开始把受访者的名字写错了(拼错了),不过把我和对方的话分得挺清楚的。我顺手让它修正一下角色标记,这下就完美了。 再来看ChatGPT那边吧,我用的是Plus账户5.1版的。选好文件后我也给了它一样的命令。结果它直接回了我一句:“虽然能转录,但打不开那个.m4a文件。”接下来就是无休止的折腾了,它让我转成zip格式上传好几次都没用。不管怎么搞,它都能在界面里显示文件就是不听声音。 这次小比赛算是Gemini赢了!彻底把我从坑里拉了出来。所以啊那些说苹果Notes录音好用的别信了,越少提它越好。