avcodec/dirac_dwt: Fix integer overflow in COMPOSE_FIDELITYi*()
[ffmpeg.git] / libavcodec / x86 / aacpsdsp.asm
1 ;******************************************************************************
2 ;* SIMD optimized MPEG-4 Parametric Stereo decoding functions
3 ;*
4 ;* Copyright (C) 2015 James Almer
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA
26
27 ps_p1m1p1m1: dd 0, 0x80000000, 0, 0x80000000
28
29 SECTION .text
30
31 ;*************************************************************************
32 ;void ff_ps_add_squares_<opt>(float *dst, const float (*src)[2], int n);
33 ;*************************************************************************
34 %macro PS_ADD_SQUARES 1
35 cglobal ps_add_squares, 3, 3, %1, dst, src, n
36     shl    nd, 3
37     add  srcq, nq
38     neg    nq
39
40 align 16
41 .loop:
42     movaps m0, [srcq+nq]
43     movaps m1, [srcq+nq+mmsize]
44     mulps  m0, m0
45     mulps  m1, m1
46     HADDPS m0, m1, m2
47     addps  m0, [dstq]
48     movaps [dstq], m0
49     add  dstq, mmsize
50     add    nq, mmsize*2
51     jl .loop
52     REP_RET
53 %endmacro
54
55 INIT_XMM sse
56 PS_ADD_SQUARES 2
57 INIT_XMM sse3
58 PS_ADD_SQUARES 3
59
60 ;*******************************************************************
61 ;void ff_ps_mul_pair_single_sse(float (*dst)[2], float (*src0)[2],
62 ;                                   float *src1, int n);
63 ;*******************************************************************
64 INIT_XMM sse
65 cglobal ps_mul_pair_single, 4, 5, 4, dst, src1, src2, n
66     xor r4q, r4q
67
68 .loop:
69     movu     m0, [src1q+r4q]
70     movu     m1, [src1q+r4q+mmsize]
71     mova     m2, [src2q]
72     mova     m3, m2
73     unpcklps m2, m2
74     unpckhps m3, m3
75     mulps    m0, m2
76     mulps    m1, m3
77     mova [dstq+r4q], m0
78     mova [dstq+r4q+mmsize], m1
79     add   src2q, mmsize
80     add     r4q, mmsize*2
81     sub      nd, mmsize/4
82     jg .loop
83     REP_RET
84
85 ;***********************************************************************
86 ;void ff_ps_stereo_interpolate_sse3(float (*l)[2], float (*r)[2],
87 ;                                   float h[2][4], float h_step[2][4],
88 ;                                   int len);
89 ;***********************************************************************
90 INIT_XMM sse3
91 cglobal ps_stereo_interpolate, 5, 5, 6, l, r, h, h_step, n
92     movaps   m0, [hq]
93     movaps   m1, [h_stepq]
94     cmp      nd, 0
95     jle .ret
96     shl      nd, 3
97     add      lq, nq
98     add      rq, nq
99     neg      nq
100
101 align 16
102 .loop:
103     addps    m0, m1
104     movddup  m2, [lq+nq]
105     movddup  m3, [rq+nq]
106     movaps   m4, m0
107     movaps   m5, m0
108     unpcklps m4, m4
109     unpckhps m5, m5
110     mulps    m2, m4
111     mulps    m3, m5
112     addps    m2, m3
113     movsd  [lq+nq], m2
114     movhps [rq+nq], m2
115     add      nq, 8
116     jl .loop
117 .ret:
118     REP_RET
119
120 ;*******************************************************************
121 ;void ff_ps_hybrid_analysis_<opt>(float (*out)[2], float (*in)[2],
122 ;                                 const float (*filter)[8][2],
123 ;                                 int stride, int n);
124 ;*******************************************************************
125 %macro PS_HYBRID_ANALYSIS_LOOP 3
126     movu     %1, [inq+mmsize*%3]
127     movu     m1, [inq+mmsize*(5-%3)+8]
128 %if cpuflag(sse3)
129     pshufd   %2, %1, q2301
130     pshufd   m4, m1, q0123
131     pshufd   m1, m1, q1032
132     pshufd   m2, [filterq+nq+mmsize*%3], q2301
133     addsubps %2, m4
134     addsubps %1, m1
135 %else
136     mova     m2, [filterq+nq+mmsize*%3]
137     mova     %2, %1
138     mova     m4, m1
139     shufps   %2, %2, q2301
140     shufps   m4, m4, q0123
141     shufps   m1, m1, q1032
142     shufps   m2, m2, q2301
143     xorps    m4, m7
144     xorps    m1, m7
145     subps    %2, m4
146     subps    %1, m1
147 %endif
148     mulps    %2, m2
149     mulps    %1, m2
150 %if %3
151     addps    m3, %2
152     addps    m0, %1
153 %endif
154 %endmacro
155
156 %macro PS_HYBRID_ANALYSIS 0
157 cglobal ps_hybrid_analysis, 5, 5, 8, out, in, filter, stride, n
158 %if cpuflag(sse3)
159 %define MOVH movsd
160 %else
161 %define MOVH movlps
162 %endif
163     shl strided, 3
164     shl nd, 6
165     add filterq, nq
166     neg nq
167     mova m7, [ps_p1m1p1m1]
168
169 align 16
170 .loop:
171     PS_HYBRID_ANALYSIS_LOOP m0, m3, 0
172     PS_HYBRID_ANALYSIS_LOOP m5, m6, 1
173     PS_HYBRID_ANALYSIS_LOOP m5, m6, 2
174
175 %if cpuflag(sse3)
176     pshufd   m3, m3, q2301
177     xorps    m0, m7
178     hsubps   m3, m0
179     pshufd   m1, m3, q0020
180     pshufd   m3, m3, q0031
181     addps    m1, m3
182     movsd    m2, [inq+6*8]
183 %else
184     mova     m1, m3
185     mova     m2, m0
186     shufps   m1, m1, q2301
187     shufps   m2, m2, q2301
188     subps    m1, m3
189     addps    m2, m0
190     unpcklps m3, m1, m2
191     unpckhps m1, m2
192     addps    m1, m3
193     movu     m2, [inq+6*8] ; faster than movlps and no risk of overread
194 %endif
195     movss    m3, [filterq+nq+8*6]
196     SPLATD   m3
197     mulps    m2, m3
198     addps    m1, m2
199     MOVH [outq], m1
200     add    outq, strideq
201     add      nq, 64
202     jl .loop
203     REP_RET
204 %endmacro
205
206 INIT_XMM sse
207 PS_HYBRID_ANALYSIS
208 INIT_XMM sse3
209 PS_HYBRID_ANALYSIS