Merge pull request '合并' (#3 ) from pmfsq5yrv/opcomplex:main into main

Delete 'yang/1.txt'
ADD file via upload
4 changed files with 261 additions and 0 deletions
--- a/opcomplex.cpp
+++ b/opcomplex.cpp
@ -0,0 +1,140 @@
 #include <iostream>
 #include<arm_neon.h>
 #include <time.h>
 #define IDx(n) ((n) % 3)
 #define H 600
 #define W 600
 void applyGaussianBlur(float src[][W], float dst[][W], int h, int w, float kernel[3][3]) {
    for (int i = 1; i < h -1;++i) {
        for (int j = 1; j < w - 1; ++j) {
            dst[i][j] =src[i - 1][j - 1] * kernel[0][0] + src[i - 1][j] * kernel[0][1] + src[i - 1][j + 1] * kernel[0][2] +
                        src[i][j - 1] * kernel[1][0] + src[i][j] * kernel[1][1] + src[i][j + 1] * kernel[1][2] +
                        src[i + 1][j - 1] * kernel[2][0] + src[i + 1][j] * kernel[2][1] + src[i + 1][j + 1] * kernel[2][2];
        }
    }
 }
 void applySeparableGaussianBlur(float src[][W], float dst[][W], int h, int w, float kx[3], float ky[3]) {
    float buf[3][W+3];
    for (int i = 0; i < 2; ++i) {
        for (int j = 1; j< w - 1; ++j) {
            buf[i][j] = src[i][j - 1] * kx[0] + src[i][j] * kx[1] + src[i][j + 1] * kx[2];
        }
    }
    for (int i = 1; i < h - 1; ++i) {
        //计算当前行的行内卷积
        for (int j = 1; j< w- 1;++j) {
            buf[IDx(i + 1)][j] = src[i + 1][j - 1] * kx[0] + src[i + 1][j] * kx[1] + src[i + 1][j + 1] * kx[2];
        }
        //进行行间的卷积得到最终像素值
        for (int j = 1; j< w - 1; ++j) {
            dst[i][j] = buf[IDx(i - 1)][j] * ky[0] + buf[IDx(i)][j] * ky[1] + buf[IDx(i + 1)][j] * ky[2];
        }
    }
 }
 void applyOptimizedSeparableGaussianBlur(float src[][W], float dst[][W], int h, int w, float kx[3], float ky[3]) {
    float buf[3][W+3];
    float32x4_t kx_vec = vld1q_f32(kx); // 加载 kx
    float32x4_t ky_vec = vld1q_f32(ky); // 加载 ky
    for (int i = 0; i < 2; ++i) {
        for (int j = 1; j < w - 1; j += 4) {
            float32x4_t left = vld1q_f32(&src[i][j - 1]);
            float32x4_t mid = vld1q_f32(&src[i][j]);
            float32x4_t right = vld1q_f32(&src[i][j + 1]);
            float32x4_t result = vmulq_lane_f32(left, vget_low_f32(kx_vec), 0); // kx[0] * left
            result = vmlaq_lane_f32(result, mid, vget_low_f32(kx_vec), 1);// + kx[1] * mid
            result = vmlaq_lane_f32(result, right, vget_high_f32(kx_vec), 0);// + kx[2] * right
            vst1q_f32(&buf[i][j], result);
        }
    }
    for (int i = 1; i < h - 1; ++i) {
        //计算当前行的行内卷积
        for (int j = 1; j< w- 1;++j) {
            buf[IDx(i + 1)][j] = src[i + 1][j - 1] * kx[0] + src[i + 1][j] * kx[1] + src[i + 1][j + 1] * kx[2];
            /*
            float32x4_t left = vld1q_f32(&src[i+1][j - 1]);
            float32x4_t mid = vld1q_f32(&src[i+1][j]);
            float32x4_t right = vld1q_f32(&src[i + 1][j + 1]);
            float32x4_t result = vmulq_lane_f32(left, vget_low_f32(kx_vec), 0); // kx[0] * left
            result = vmlaq_lane_f32(result, mid, vget_low_f32(kx_vec), 1);// + kx[1] * mid
            result = vmlaq_lane_f32(result, right, vget_high_f32(kx_vec), 0);// + kx[2] * right
            vst1q_f32(&buf[IDx(i + 1)][j], result);
            */
        }
        //进行行间的卷积得到最终像素值
        for (int j = 1; j< w - 1; ++j) {
            dst[i][j] = buf[IDx(i - 1)][j] * ky[0] + buf[IDx(i)][j] * ky[1] + buf[IDx(i + 1)][j] * ky[2];
            /*
            float32x4_t left = vld1q_f32(&buf[IDx(i - 1)][j]);
            float32x4_t mid = vld1q_f32(&buf[IDx(i)][j]);
            float32x4_t right = vld1q_f32(&buf[IDx(i + 1)][j]);
            float32x4_t result = vmulq_lane_f32(left, vget_low_f32(ky_vec), 0); // kx[0] * left
            result = vmlaq_lane_f32(result, mid, vget_low_f32(ky_vec), 1);// + kx[1] * mid
            result = vmlaq_lane_f32(result, right, vget_high_f32(ky_vec), 0);// + kx[2] * right
            vst1q_f32(&dst[i][j], result);
            */
        }
    }
 }
 int main() {
    float src_t[H][W]={0};
    float dst1[H][W]={0};
    float dst2[H][W]={0};
    float dst3[H][W]={0};
    float kernel[3][3] = {
        {1.0f / 16, 2.0f / 16, 1.0f / 16},
        {2.0f / 16, 4.0f / 16, 2.0f / 16},
        {1.0f / 16, 2.0f / 16, 1.0f / 16}
    };
    float kx[3] = {0.25, 0.5, 0.25};
    float ky[3] = {0.25, 0.5, 0.25};
    for (auto & i : src_t) {
        for (float & j : i) {
            srand((unsigned)time(NULL));
            j=0.01*rand();
        }
    }
    clock_t start = clock();
    applyGaussianBlur(src_t, dst1, H, W, kernel);
    clock_t end = clock();
    printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
    start = clock();
    applySeparableGaussianBlur(src_t, dst2, H, W, kx,ky);
    end = clock();
    printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
    start = clock();
    applyOptimizedSeparableGaussianBlur(src_t, dst3, H, W, kx,ky);
    end = clock();
    printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
    return 0;
 }
--- a/yang/1.c
+++ b/yang/1.c
@ -0,0 +1,58 @@
 #include <stdio.h>
 #include <time.h>
 void gaussianBlur(float src[5][5], float dst[5][5], int h, int w, float kernel[3][3]) {
    int i,j, ki, kj;
    for (i = 1; i < h - 1; i++) {
        for (j = 1; j < w - 1; j++) {
            float sum = 0.0;
            for (ki = -1; ki <= 1; ki++) {
                for (kj = -1; kj <= 1; kj++) {
                    sum += src[i + ki][j + kj] * kernel[ki + 1][kj + 1];
                }
            }
            dst[i][j] = sum; 
        }
    }
 }
 int main() {
    float src[5][5] = {
        {1, 2, 3, 4, 5},
        {6, 7, 8, 9, 10},
        {11, 12, 13, 14, 15},
        {16, 17, 18, 19, 20},
        {21, 22, 23, 24, 25}
    };
    float kernel[3][3] = {
        {1 / 16.0, 2 / 16.0, 1 / 16.0},
        {2 / 16.0, 4 / 16.0, 2 / 16.0},
        {1 / 16.0, 2 / 16.0, 1 / 16.0}
    };
    int i, j;    
    float dst[5][5];
    for (i = 0; i < 5; i++){
        for (j = 0; j < 5; j++){
            dst[i][j] = 0.0;
        }
    }
    clock_t start, end;
    start = clock();
    gaussianBlur(src, dst, 5, 5, kernel);
    end = clock();
    double time = (double)(end - start) / CLOCKS_PER_SEC;
    printf("Dst matrix:\n");
    for (i = 0; i < 5; i++) {
        for (j = 0; j < 5; j++) {
            printf("%.2f ", dst[i][j]);
        }
        printf("\n");
    }
    printf("Time: %f s\n", time);
    return 0;
 }
--- a/yang/2.c
+++ b/yang/2.c
@ -0,0 +1,63 @@
 #include <stdio.h>
 #include <time.h>
 const int h = 5, w = 5;
 float kx[3] = {0.25f, 0.5f, 0.25f};
 float ky[3] = {0.25f, 0.5f, 0.25f};
 void separableGaussianBlur(float src[h][w], float dst[h][w], int h, int w, float kx[3], float ky[3]) {
    float buf[3][w];  
    int x, y;
    #define BUF_INDEX(i) ((i) % 3)
    for(y = 0; y < h; ++y){
        for(x = 0; x < w; ++x){
            buf[BUF_INDEX(y)][x] =
                src[y][x] * kx[1] +
                (x > 0 ? src[y][x - 1] * kx[0] : 0) +
                (x < w - 1 ? src[y][x + 1] * kx[2] : 0);
        }
        if(y >= 2){
            for(x = 1; x < w - 1; ++x){  
                dst[y - 1][x] =
                    buf[BUF_INDEX(y - 2)][x] * ky[0] +
                    buf[BUF_INDEX(y - 1)][x] * ky[1] +
                    buf[BUF_INDEX(y)][x] * ky[2];
            }
        }
    }
 }
 int main() {
    int i, j;
    float dst[h][w];
    for(i = 0; i < h; i++){
        for (j = 0; j < w; j++){
            dst[i][j] = 0.0;
        }
    }
    float src[5][5] = {
        {1, 2, 3, 4, 5},
        {6, 7, 8, 9, 10},
        {11, 12, 13, 14, 15},
        {16, 17, 18, 19, 20},
        {21, 22, 23, 24, 25}
    };
    clock_t start, end;
    start = clock();
    separableGaussianBlur(src, dst, h, w, kx, ky);
    end = clock();
    printf("Blurred result:\n");
    for(i = 0; i < h; i++){
        for(j = 0; j < w; j++){
            printf("%.2f ", dst[i][j]);
        }
        printf("\n");
    }
    printf("Time: %f s\n", (float)(end - start) / CLOCKS_PER_SEC);
    return 0;
 }
--- a/yang/3.c
+++ b/yang/3.c
Author	SHA1	Message	Date
pi7mcrg2k	e8db24479c	Merge pull request '合并' (#3 ) from pmfsq5yrv/opcomplex:main into main	8 months ago
pmfsq5yrv	596bf57a63	Delete 'yang/1.txt'	8 months ago
pmfsq5yrv	7c04ba2534	ADD file via upload	8 months ago
pmfsq5yrv	39fb1c8389	ADD file via upload	8 months ago
pmfsq5yrv	a82df3de0b	ADD file via upload	8 months ago
pmfsq5yrv	c4a7ce7180	ADD file via upload	8 months ago
pi7mcrg2k	783f0bf04d	Merge pull request '把数据扩大，并做了一些优化' (#2 ) from p8sljnpht/opcomplex:main into main	8 months ago
pi7mcrg2k	046c4f7072	ADD file via upload	8 months ago
pi7mcrg2k	75a99273b2	Merge pull request 'Problem 1-3' (#1 ) from p8sljnpht/opcomplex:main into main	8 months ago