You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

44 lines
1.5 KiB

#include <stdio.h>
#include <arm_neon.h>
#include <time.h>
void applySeparableGaussianBlur(float src[][100], float dst[][100], int h, int w, float kx[3], float ky[3]) {
// 使用NEON指令扩展kx和ky
float32x4_t kx_vec = vdupq_n_f32(kx[0]); // 将kx的第一个元素扩展到向量
float32x4_t kx_vec1 = vdupq_n_f32(kx[1]); // 将kx的第二个元素扩展到向量
float32x4_t kx_vec2 = vdupq_n_f32(kx[2]); // 将kx的第三个元素扩展到向量
for (int y = 0; y < h; y++) {
for (int x = 0; x < w; x += 4) { // 每次处理4个像素
// 加载源图像的4个像素
float32x4_t src_vec = vld1q_f32(&src[y][x]);
// 进行乘加运算
float32x4_t result = vmulq_n_f32(src_vec, kx[0]); // 第一个权重
result = vmlaq_n_f32(result, src_vec, kx[1]); // 第二个权重
result = vmlaq_n_f32(result, src_vec, kx[2]); // 第三个权重
// 存储结果
vst1q_f32(&dst[y][x], result);
}
}
}
int main() {
float src[100][100] = { /* 初始化源图像数据 */ };
float dst[100][100] = { 0 };
float kx[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核
float ky[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核
int h = 100, w = 100;
clock_t start = clock();
applySeparableGaussianBlur(src, dst, h, w, kx, ky);
clock_t end = clock();
// 输出运行时间
double time_taken = ((double)(end - start)) / CLOCKS_PER_SEC;
printf("执行时间: %f 秒\n", time_taken);
return 0;
}