lavr: add x86-optimized functions for mixing 1-to-2 fltp with flt coeffs
[ffmpeg.git] / libavresample / x86 / audio_mix.asm
1 ;******************************************************************************
2 ;* x86 optimized channel mixing
3 ;* Copyright (c) 2012 Justin Ruggles <justin.ruggles@gmail.com>
4 ;*
5 ;* This file is part of Libav.
6 ;*
7 ;* Libav is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* Libav is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with Libav; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "x86inc.asm"
23 %include "x86util.asm"
24 %include "util.asm"
25
26 SECTION_TEXT
27
28 ;-----------------------------------------------------------------------------
29 ; void ff_mix_2_to_1_fltp_flt(float **src, float **matrix, int len,
30 ;                             int out_ch, int in_ch);
31 ;-----------------------------------------------------------------------------
32
33 %macro MIX_2_TO_1_FLTP_FLT 0
34 cglobal mix_2_to_1_fltp_flt, 3,4,6, src, matrix, len, src1
35     mov       src1q, [srcq+gprsize]
36     mov        srcq, [srcq        ]
37     sub       src1q, srcq
38     mov     matrixq, [matrixq  ]
39     VBROADCASTSS m4, [matrixq  ]
40     VBROADCASTSS m5, [matrixq+4]
41     ALIGN 16
42 .loop:
43     mulps        m0, m4, [srcq             ]
44     mulps        m1, m5, [srcq+src1q       ]
45     mulps        m2, m4, [srcq+      mmsize]
46     mulps        m3, m5, [srcq+src1q+mmsize]
47     addps        m0, m0, m1
48     addps        m2, m2, m3
49     mova  [srcq       ], m0
50     mova  [srcq+mmsize], m2
51     add        srcq, mmsize*2
52     sub        lend, mmsize*2/4
53     jg .loop
54 %if mmsize == 32
55     vzeroupper
56     RET
57 %else
58     REP_RET
59 %endif
60 %endmacro
61
62 INIT_XMM sse
63 MIX_2_TO_1_FLTP_FLT
64 %if HAVE_AVX
65 INIT_YMM avx
66 MIX_2_TO_1_FLTP_FLT
67 %endif
68
69 ;-----------------------------------------------------------------------------
70 ; void ff_mix_2_to_1_s16p_flt(int16_t **src, float **matrix, int len,
71 ;                             int out_ch, int in_ch);
72 ;-----------------------------------------------------------------------------
73
74 %macro MIX_2_TO_1_S16P_FLT 0
75 cglobal mix_2_to_1_s16p_flt, 3,4,6, src, matrix, len, src1
76     mov       src1q, [srcq+gprsize]
77     mov        srcq, [srcq]
78     sub       src1q, srcq
79     mov     matrixq, [matrixq  ]
80     VBROADCASTSS m4, [matrixq  ]
81     VBROADCASTSS m5, [matrixq+4]
82     ALIGN 16
83 .loop:
84     mova         m0, [srcq      ]
85     mova         m2, [srcq+src1q]
86     S16_TO_S32_SX 0, 1
87     S16_TO_S32_SX 2, 3
88     cvtdq2ps     m0, m0
89     cvtdq2ps     m1, m1
90     cvtdq2ps     m2, m2
91     cvtdq2ps     m3, m3
92     mulps        m0, m4
93     mulps        m1, m4
94     mulps        m2, m5
95     mulps        m3, m5
96     addps        m0, m2
97     addps        m1, m3
98     cvtps2dq     m0, m0
99     cvtps2dq     m1, m1
100     packssdw     m0, m1
101     mova     [srcq], m0
102     add        srcq, mmsize
103     sub        lend, mmsize/2
104     jg .loop
105     REP_RET
106 %endmacro
107
108 INIT_XMM sse2
109 MIX_2_TO_1_S16P_FLT
110 INIT_XMM sse4
111 MIX_2_TO_1_S16P_FLT
112
113 ;-----------------------------------------------------------------------------
114 ; void ff_mix_2_to_1_s16p_q8(int16_t **src, int16_t **matrix, int len,
115 ;                            int out_ch, int in_ch);
116 ;-----------------------------------------------------------------------------
117
118 INIT_XMM sse2
119 cglobal mix_2_to_1_s16p_q8, 3,4,6, src, matrix, len, src1
120     mov       src1q, [srcq+gprsize]
121     mov        srcq, [srcq]
122     sub       src1q, srcq
123     mov     matrixq, [matrixq]
124     movd         m4, [matrixq]
125     movd         m5, [matrixq]
126     SPLATW       m4, m4, 0
127     SPLATW       m5, m5, 1
128     pxor         m0, m0
129     punpcklwd    m4, m0
130     punpcklwd    m5, m0
131     ALIGN 16
132 .loop:
133     mova         m0, [srcq      ]
134     mova         m2, [srcq+src1q]
135     punpckhwd    m1, m0, m0
136     punpcklwd    m0, m0
137     punpckhwd    m3, m2, m2
138     punpcklwd    m2, m2
139     pmaddwd      m0, m4
140     pmaddwd      m1, m4
141     pmaddwd      m2, m5
142     pmaddwd      m3, m5
143     paddd        m0, m2
144     paddd        m1, m3
145     psrad        m0, 8
146     psrad        m1, 8
147     packssdw     m0, m1
148     mova     [srcq], m0
149     add        srcq, mmsize
150     sub        lend, mmsize/2
151     jg .loop
152     REP_RET
153
154 ;-----------------------------------------------------------------------------
155 ; void ff_mix_1_to_2_fltp_flt(float **src, float **matrix, int len,
156 ;                             int out_ch, int in_ch);
157 ;-----------------------------------------------------------------------------
158
159 %macro MIX_1_TO_2_FLTP_FLT 0
160 cglobal mix_1_to_2_fltp_flt, 3,5,4, src0, matrix0, len, src1, matrix1
161     mov       src1q, [src0q+gprsize]
162     mov       src0q, [src0q]
163     sub       src1q, src0q
164     mov    matrix1q, [matrix0q+gprsize]
165     mov    matrix0q, [matrix0q]
166     VBROADCASTSS m2, [matrix0q]
167     VBROADCASTSS m3, [matrix1q]
168     ALIGN 16
169 .loop:
170     mova         m0, [src0q]
171     mulps        m1, m0, m3
172     mulps        m0, m0, m2
173     mova  [src0q      ], m0
174     mova  [src0q+src1q], m1
175     add       src0q, mmsize
176     sub        lend, mmsize/4
177     jg .loop
178     REP_RET
179 %endmacro
180
181 INIT_XMM sse
182 MIX_1_TO_2_FLTP_FLT
183 %if HAVE_AVX
184 INIT_YMM avx
185 MIX_1_TO_2_FLTP_FLT
186 %endif