#include #include #include void applySeparableGaussianBlur(float src[][100], float dst[][100], int h, int w, float kx[3], float ky[3]) { // 使用NEON指令扩展kx和ky float32x4_t kx_vec = vdupq_n_f32(kx[0]); // 将kx的第一个元素扩展到向量 float32x4_t kx_vec1 = vdupq_n_f32(kx[1]); // 将kx的第二个元素扩展到向量 float32x4_t kx_vec2 = vdupq_n_f32(kx[2]); // 将kx的第三个元素扩展到向量 for (int y = 0; y < h; y++) { for (int x = 0; x < w; x += 4) { // 每次处理4个像素 // 加载源图像的4个像素 float32x4_t src_vec = vld1q_f32(&src[y][x]); // 进行乘加运算 float32x4_t result = vmulq_n_f32(src_vec, kx[0]); // 第一个权重 result = vmlaq_n_f32(result, src_vec, kx[1]); // 第二个权重 result = vmlaq_n_f32(result, src_vec, kx[2]); // 第三个权重 // 存储结果 vst1q_f32(&dst[y][x], result); } } } int main() { float src[100][100] = { /* 初始化源图像数据 */ }; float dst[100][100] = { 0 }; float kx[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核 float ky[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核 int h = 100, w = 100; clock_t start = clock(); applySeparableGaussianBlur(src, dst, h, w, kx, ky); clock_t end = clock(); // 输出运行时间 double time_taken = ((double)(end - start)) / CLOCKS_PER_SEC; printf("执行时间: %f 秒\n", time_taken); return 0; }