Ich glaube, ich habe es zumindest ziemlich nahe. Ich muss immer noch herausfinden, wie man die Dauer steuern kann, aber das Flag -shortest codiert sie in der kürzesten Dauer, was in diesem Fall tatsächlich erforderlich ist.
ffmpeg -i video.mov -i audio1.wav -i audio2.wav -filter_complex "[1:a][2:a]amerge=inputs=2,pan=stereo|c0<c0+c1|c1<c2+c3[aout]" -map 0:v -map "[aout]" -shortest output.mp3