aarch64: Make transpose_4x4H do a regular transpose
authorMartin Storsjö <martin@martin.st>
Fri, 25 Mar 2016 21:44:10 +0000 (23:44 +0200)
committerMartin Storsjö <martin@martin.st>
Sat, 26 Mar 2016 19:25:56 +0000 (21:25 +0200)
commitcdb1665f70def544ddab3e3ed3763ef99c8b3873
tree218a2cc8a001565f74e0e2ccdfaab42a9095abe3
parentedf54887e2935a30f9d9a46dd806802c3c867c0e
aarch64: Make transpose_4x4H do a regular transpose

Previously, ff_h264_idct_add_neon (originally in the arm version) used
a non-regular transpose in order to be able to use more instructions
that deal with registers as 128 bit register pairs. The aarch64
translation doesn't do it to the same extent, but brought along the
same structure since it was a straight translation.

This reshuffles ff_h264_idct_add_neon, bringing it closer to
the C implementation, making the transpose_4x4H macro do a regular
transpose, usable for other algorithms as well.

Previously, the third and fourth output from transpose_4x4H were
swapped, and prior to cc29d96d5a, the same inputs as well. In
addition to just swapping the outputs, also renumber the intermediate
registers for better readability (making the register order match
transpose_4x8B).

This runs with the same number of cycles as before.

Signed-off-by: Martin Storsjö <martin@martin.st>
libavcodec/aarch64/h264idct_neon.S
libavcodec/aarch64/neon.S