Nicht alle meine Eingabedateien waren 256k, einige waren 705k, daher verwendete der concat demuxer die erste Datei (705k).
Ich habe es behoben, indem ich meine Eingabedateien korrigiert habe:
ffmpeg -f lavfi -i aevalsrc=0:duration=2:sample_rate=16000 silence.wav
Der Schlüssel bestand darin, sample_rate zur aevalsrc-Datei hinzuzufügen - dieser Teil wurde nach Mulvyaas Hilfe hinzugefügt.