嘿,我今天又碰到了一个大难题,得把这段20分钟的音频给录下来。我平时录音最爱用的是Google Pixel 10 Pro Fold了,这机子自带的录音软件真的没话说,能把每个人的发言分得清清楚楚。但这次我身边只有个iPhone 17 Pro Max,只好用它的备忘录来凑合。说实在的,在这个我特别上瘾的Notes里,那个回形针图标下面藏着录音功能,点进去一录就好。 结果录下来的文件还真不错,就在一条备忘录里存着,听起来挺清晰。不过一看那个转录文本,简直气死人了,它把所有人的话混在一起了,一点都不分发言人是谁。这要是回头想挑受访者的原话出来写文章,简直没法弄。我打算再听一遍,自己手动加标签标记着谁在说话。正在这时我灵机一动,想试试Gemini 3 Pro能不能搞定这事。 最近几个月我一直在琢磨Gemini这玩意儿,最新的3 Pro版本真的挺厉害的,感觉啥都能干。既然有这念头,我就得把音频传给它。拿iPhone直接播放让它听肯定不行,毕竟电脑的麦克风听不清手机喇叭的声音,再说我在公司呢,也不想别人听见我的私人对话。我发现可以在Notes里直接把音频下载下来。在播放界面那个三个点的菜单里找分享功能,然后通过Airdrop把文件发到我的14英寸MacBook Pro上。这时候文件变成了MPEG-4格式的m4a文件。 回到Gemini的应用里,我在对话框里点了那个加号,选好m4a音频文件,输入了一段提示:“听这个音频给我转写出来,并且一定要把不同的说话人给区分开。”接下来的过程让我挺惊喜的,Gemini 3 Pro很快就开始输出文本了。它把我标记成了采访者,还把受访者的名字和职位都写出来了。 不过有个小插曲挺让人费解的,其实我那位受访者在聊天快结束的时候自己拼过名字的,但Gemini 3 Pro偏偏选了个别的名字填上去。除了这一点小瑕疵外,它的表现真的挺完美的,我和受访者的话都分了开来,准确度也很高。为了追求完整度,我还让它修改了一下我的主题识别问题,把我正式列为采访者。 最后我拿着这份整整齐齐的转录文本继续写我的故事去了。回过头再看看ChatGPT那边吧。我很好奇ChatGPT 5.1(用的Plus账号)能不能把这活儿给干了。我在ChatGPT的窗口里也选了同样的音频文件和提示语输入进去。结果ChatGPT告诉我说:“我肯定能转写这个音频文件,但是我不能直接访问或者播放你说的那个m4a文件。” 接下来就是漫长的反复沟通了,ChatGPT一直在建议我用各种方式上传文件,包括把它转换成zip格式再上传什么的。不管我试了什么方法,只要在那个窗口里显示出了音频文件就行,就是死活听不到声音。在这场小小的比试里,Gemini 3 Pro明显赢了一局。苹果那个Notes自带的转录功能真是不靠谱啊,越少提越好。