#include <stdio.h>
#include <arm_neon.h>
#include <time.h>

void applySeparableGaussianBlur(float src[][100], float dst[][100], int h, int w, float kx[3], float ky[3]) {
    // 使用NEON指令扩展kx和ky
    float32x4_t kx_vec = vdupq_n_f32(kx[0]); // 将kx的第一个元素扩展到向量
    float32x4_t kx_vec1 = vdupq_n_f32(kx[1]); // 将kx的第二个元素扩展到向量
    float32x4_t kx_vec2 = vdupq_n_f32(kx[2]); // 将kx的第三个元素扩展到向量

    for (int y = 0; y < h; y++) {
        for (int x = 0; x < w; x += 4) { // 每次处理4个像素
            // 加载源图像的4个像素
            float32x4_t src_vec = vld1q_f32(&src[y][x]);

            // 进行乘加运算
            float32x4_t result = vmulq_n_f32(src_vec, kx[0]); // 第一个权重
            result = vmlaq_n_f32(result, src_vec, kx[1]);     // 第二个权重
            result = vmlaq_n_f32(result, src_vec, kx[2]);     // 第三个权重

            // 存储结果
            vst1q_f32(&dst[y][x], result);
        }
    }
}

int main() {
    float src[100][100] = { /* 初始化源图像数据 */ };
    float dst[100][100] = { 0 };
    float kx[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核
    float ky[3] = { 1.0f, 2.0f, 1.0f }; // 示例卷积核
    int h = 100, w = 100;

    clock_t start = clock();
    applySeparableGaussianBlur(src, dst, h, w, kx, ky);
    clock_t end = clock();

    // 输出运行时间
    double time_taken = ((double)(end - start)) / CLOCKS_PER_SEC;
    printf("执行时间: %f 秒\n", time_taken);

    return 0;
}