float_dsp: Have implementation match function pointer prototype
[ffmpeg.git] / libavutil / x86 / float_dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized Float DSP functions
3 ;*
4 ;* This file is part of Libav.
5 ;*
6 ;* Libav is free software; you can redistribute it and/or
7 ;* modify it under the terms of the GNU Lesser General Public
8 ;* License as published by the Free Software Foundation; either
9 ;* version 2.1 of the License, or (at your option) any later version.
10 ;*
11 ;* Libav is distributed in the hope that it will be useful,
12 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
13 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14 ;* Lesser General Public License for more details.
15 ;*
16 ;* You should have received a copy of the GNU Lesser General Public
17 ;* License along with Libav; if not, write to the Free Software
18 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19 ;******************************************************************************
20
21 %include "x86util.asm"
22
23 SECTION .text
24
25 ;-----------------------------------------------------------------------------
26 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
27 ;-----------------------------------------------------------------------------
28 %macro VECTOR_FMUL 0
29 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
30     lea       lenq, [lend*4 - 64]
31 ALIGN 16
32 .loop:
33 %assign a 0
34 %rep 32/mmsize
35     mova      m0,   [src0q + lenq + (a+0)*mmsize]
36     mova      m1,   [src0q + lenq + (a+1)*mmsize]
37     mulps     m0, m0, [src1q + lenq + (a+0)*mmsize]
38     mulps     m1, m1, [src1q + lenq + (a+1)*mmsize]
39     mova      [dstq + lenq + (a+0)*mmsize], m0
40     mova      [dstq + lenq + (a+1)*mmsize], m1
41 %assign a a+2
42 %endrep
43
44     sub       lenq, 64
45     jge       .loop
46     REP_RET
47 %endmacro
48
49 INIT_XMM sse
50 VECTOR_FMUL
51 INIT_YMM avx
52 VECTOR_FMUL
53
54 ;------------------------------------------------------------------------------
55 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
56 ;------------------------------------------------------------------------------
57
58 %macro VECTOR_FMAC_SCALAR 0
59 %if UNIX64
60 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
61 %else
62 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
63 %endif
64 %if ARCH_X86_32
65     VBROADCASTSS m0, mulm
66 %else
67 %if WIN64
68     mova       xmm0, xmm2
69 %endif
70     shufps     xmm0, xmm0, 0
71 %if cpuflag(avx)
72     vinsertf128  m0, m0, xmm0, 1
73 %endif
74 %endif
75     lea    lenq, [lend*4-64]
76 .loop:
77 %assign a 0
78 %rep 32/mmsize
79     mulps    m1, m0, [srcq+lenq+(a+0)*mmsize]
80     mulps    m2, m0, [srcq+lenq+(a+1)*mmsize]
81     addps    m1, m1, [dstq+lenq+(a+0)*mmsize]
82     addps    m2, m2, [dstq+lenq+(a+1)*mmsize]
83     mova  [dstq+lenq+(a+0)*mmsize], m1
84     mova  [dstq+lenq+(a+1)*mmsize], m2
85 %assign a a+2
86 %endrep
87     sub    lenq, 64
88     jge .loop
89     REP_RET
90 %endmacro
91
92 INIT_XMM sse
93 VECTOR_FMAC_SCALAR
94 INIT_YMM avx
95 VECTOR_FMAC_SCALAR
96
97 ;------------------------------------------------------------------------------
98 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
99 ;------------------------------------------------------------------------------
100
101 %macro VECTOR_FMUL_SCALAR 0
102 %if UNIX64
103 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
104 %else
105 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
106 %endif
107 %if ARCH_X86_32
108     movss    m0, mulm
109 %elif WIN64
110     SWAP 0, 2
111 %endif
112     shufps   m0, m0, 0
113     lea    lenq, [lend*4-mmsize]
114 .loop:
115     mova     m1, [srcq+lenq]
116     mulps    m1, m0
117     mova  [dstq+lenq], m1
118     sub    lenq, mmsize
119     jge .loop
120     REP_RET
121 %endmacro
122
123 INIT_XMM sse
124 VECTOR_FMUL_SCALAR
125
126 ;------------------------------------------------------------------------------
127 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
128 ;                            int len)
129 ;------------------------------------------------------------------------------
130
131 %macro VECTOR_DMUL_SCALAR 0
132 %if ARCH_X86_32
133 cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
134     mov          lenq, lenaddrm
135 %elif UNIX64
136 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
137 %else
138 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
139 %endif
140 %if ARCH_X86_32
141     VBROADCASTSD   m0, mulm
142 %else
143 %if WIN64
144     movlhps      xmm2, xmm2
145 %if cpuflag(avx)
146     vinsertf128  ymm2, ymm2, xmm2, 1
147 %endif
148     SWAP 0, 2
149 %else
150     movlhps      xmm0, xmm0
151 %if cpuflag(avx)
152     vinsertf128  ymm0, ymm0, xmm0, 1
153 %endif
154 %endif
155 %endif
156     lea          lenq, [lend*8-2*mmsize]
157 .loop:
158     mulpd          m1, m0, [srcq+lenq       ]
159     mulpd          m2, m0, [srcq+lenq+mmsize]
160     mova   [dstq+lenq       ], m1
161     mova   [dstq+lenq+mmsize], m2
162     sub          lenq, 2*mmsize
163     jge .loop
164     REP_RET
165 %endmacro
166
167 INIT_XMM sse2
168 VECTOR_DMUL_SCALAR
169 %if HAVE_AVX_EXTERNAL
170 INIT_YMM avx
171 VECTOR_DMUL_SCALAR
172 %endif
173
174 ;-----------------------------------------------------------------------------
175 ; vector_fmul_add(float *dst, const float *src0, const float *src1,
176 ;                 const float *src2, int len)
177 ;-----------------------------------------------------------------------------
178 %macro VECTOR_FMUL_ADD 0
179 cglobal vector_fmul_add, 5,5,2, dst, src0, src1, src2, len
180     lea       lenq, [lend*4 - 2*mmsize]
181 ALIGN 16
182 .loop:
183     mova    m0,   [src0q + lenq]
184     mova    m1,   [src0q + lenq + mmsize]
185     mulps   m0, m0, [src1q + lenq]
186     mulps   m1, m1, [src1q + lenq + mmsize]
187     addps   m0, m0, [src2q + lenq]
188     addps   m1, m1, [src2q + lenq + mmsize]
189     mova    [dstq + lenq], m0
190     mova    [dstq + lenq + mmsize], m1
191
192     sub     lenq,   2*mmsize
193     jge     .loop
194     REP_RET
195 %endmacro
196
197 INIT_XMM sse
198 VECTOR_FMUL_ADD
199 INIT_YMM avx
200 VECTOR_FMUL_ADD
201
202 ;-----------------------------------------------------------------------------
203 ; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
204 ;                          int len)
205 ;-----------------------------------------------------------------------------
206 %macro VECTOR_FMUL_REVERSE 0
207 cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
208     lea       lenq, [lend*4 - 2*mmsize]
209 ALIGN 16
210 .loop:
211 %if cpuflag(avx)
212     vmovaps     xmm0, [src1q + 16]
213     vinsertf128 m0, m0, [src1q], 1
214     vshufps     m0, m0, m0, q0123
215     vmovaps     xmm1, [src1q + mmsize + 16]
216     vinsertf128 m1, m1, [src1q + mmsize], 1
217     vshufps     m1, m1, m1, q0123
218 %else
219     mova    m0, [src1q]
220     mova    m1, [src1q + mmsize]
221     shufps  m0, m0, q0123
222     shufps  m1, m1, q0123
223 %endif
224     mulps   m0, m0, [src0q + lenq + mmsize]
225     mulps   m1, m1, [src0q + lenq]
226     mova    [dstq + lenq + mmsize], m0
227     mova    [dstq + lenq], m1
228     add     src1q, 2*mmsize
229     sub     lenq,  2*mmsize
230     jge     .loop
231     REP_RET
232 %endmacro
233
234 INIT_XMM sse
235 VECTOR_FMUL_REVERSE
236 INIT_YMM avx
237 VECTOR_FMUL_REVERSE
238
239 ; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
240 INIT_XMM sse
241 cglobal scalarproduct_float, 3,3,2, v1, v2, offset
242     neg   offsetq
243     shl   offsetq, 2
244     sub       v1q, offsetq
245     sub       v2q, offsetq
246     xorps    xmm0, xmm0
247 .loop:
248     movaps   xmm1, [v1q+offsetq]
249     mulps    xmm1, [v2q+offsetq]
250     addps    xmm0, xmm1
251     add   offsetq, 16
252     js .loop
253     movhlps  xmm1, xmm0
254     addps    xmm0, xmm1
255     movss    xmm1, xmm0
256     shufps   xmm0, xmm0, 1
257     addss    xmm0, xmm1
258 %if ARCH_X86_64 == 0
259     movss     r0m,  xmm0
260     fld dword r0m
261 %endif
262     RET
263
264 ;-----------------------------------------------------------------------------
265 ; void ff_butterflies_float(float *src0, float *src1, int len);
266 ;-----------------------------------------------------------------------------
267 INIT_XMM sse
268 cglobal butterflies_float, 3,3,3, src0, src1, len
269 %if ARCH_X86_64
270     movsxd    lenq, lend
271 %endif
272     test      lenq, lenq
273     jz .end
274     shl       lenq, 2
275     lea      src0q, [src0q +   lenq]
276     lea      src1q, [src1q +   lenq]
277     neg       lenq
278 .loop:
279     mova        m0, [src0q + lenq]
280     mova        m1, [src1q + lenq]
281     subps       m2, m0, m1
282     addps       m0, m0, m1
283     mova        [src1q + lenq], m2
284     mova        [src0q + lenq], m0
285     add       lenq, mmsize
286     jl .loop
287 .end:
288     REP_RET