Viele der in der Internetkommunikation verwendeten Codecs (Audiokomprimierungsalgorithmen wie z. B. GSM oder G.729) sind für Sprache und nicht für Musik gedacht. Sie können auf einem menschlichen Vokaltraktmodell (Nasenhöhle, Mundhöhle, Pharynx, Kehlkopf, Luftröhre, Velum, Zunge) basieren. Diese Spezialisierung ermöglicht eine hohe Komprimierungsrate (= geringe Bandbreitennutzung) und eine relativ gute Sprachqualität, kann jedoch bei der Verarbeitung anderer Sounds schreckliche Auswirkungen haben.
Ein anderes Problem, das dazu beitragen kann, ist der Lautstärkedifferenz zwischen Sprache und (vermutlich) ruhiger Hintergrundmusik. Dieser Hintergrund kann als Rauschen behandelt und durch den Denoise-Filter herausgefiltert oder verzerrt werden oder durch einen Sprachaktivitätserkennungsalgorithmus teilweise herausgeschnitten werden, der die Übertragung abbrechen kann, wenn das Signal unter einem bestimmten Pegel liegt, oder stattdessen ein sogenanntes "Komfortrauschen" sendet, um die verwendete Bandbreite zu minimieren .