苹果那个notes 自带的转录功能真是不靠谱啊，越少提越好

嘿，我今天又碰到了一个大难题，得把这段20分钟的音频给录下来。我平时录音最爱用的是Google Pixel 10 Pro Fold了，这机子自带的录音软件真的没话说，能把每个人的发言分得清清楚楚。但这次我身边只有个iPhone 17 Pro Max，只好用它的备忘录来凑合。说实在的，在这个我特别上瘾的Notes里，那个回形针图标下面藏着录音功能，点进去一录就好。结果录下来的文件还真不错，就在一条备忘录里存着，听起来挺清晰。不过一看那个转录文本，简直气死人了，它把所有人的话混在一起了，一点都不分发言人是谁。这要是回头想挑受访者的原话出来写文章，简直没法弄。我打算再听一遍，自己手动加标签标记着谁在说话。正在这时我灵机一动，想试试Gemini 3 Pro能不能搞定这事。最近几个月我一直在琢磨Gemini这玩意儿，最新的3 Pro版本真的挺厉害的，感觉啥都能干。既然有这念头，我就得把音频传给它。拿iPhone直接播放让它听肯定不行，毕竟电脑的麦克风听不清手机喇叭的声音，再说我在公司呢，也不想别人听见我的私人对话。我发现可以在Notes里直接把音频下载下来。在播放界面那个三个点的菜单里找分享功能，然后通过Airdrop把文件发到我的14英寸MacBook Pro上。这时候文件变成了MPEG-4格式的m4a文件。回到Gemini的应用里，我在对话框里点了那个加号，选好m4a音频文件，输入了一段提示：“听这个音频给我转写出来，并且一定要把不同的说话人给区分开。”接下来的过程让我挺惊喜的，Gemini 3 Pro很快就开始输出文本了。它把我标记成了采访者，还把受访者的名字和职位都写出来了。不过有个小插曲挺让人费解的，其实我那位受访者在聊天快结束的时候自己拼过名字的，但Gemini 3 Pro偏偏选了个别的名字填上去。除了这一点小瑕疵外，它的表现真的挺完美的，我和受访者的话都分了开来，准确度也很高。为了追求完整度，我还让它修改了一下我的主题识别问题，把我正式列为采访者。最后我拿着这份整整齐齐的转录文本继续写我的故事去了。回过头再看看ChatGPT那边吧。我很好奇ChatGPT 5.1（用的Plus账号）能不能把这活儿给干了。我在ChatGPT的窗口里也选了同样的音频文件和提示语输入进去。结果ChatGPT告诉我说：“我肯定能转写这个音频文件，但是我不能直接访问或者播放你说的那个m4a文件。” 接下来就是漫长的反复沟通了，ChatGPT一直在建议我用各种方式上传文件，包括把它转换成zip格式再上传什么的。不管我试了什么方法，只要在那个窗口里显示出了音频文件就行，就是死活听不到声音。在这场小小的比试里，Gemini 3 Pro明显赢了一局。苹果那个Notes自带的转录功能真是不靠谱啊，越少提越好。