forked from pi7mcrg2k/opcomplex
Compare commits
9 Commits
Author | SHA1 | Date |
---|---|---|
|
e8db24479c | 8 months ago |
|
596bf57a63 | 8 months ago |
|
7c04ba2534 | 8 months ago |
|
39fb1c8389 | 8 months ago |
|
a82df3de0b | 8 months ago |
|
c4a7ce7180 | 8 months ago |
|
783f0bf04d | 8 months ago |
|
046c4f7072 | 8 months ago |
|
75a99273b2 | 8 months ago |
@ -0,0 +1,140 @@
|
|||||||
|
#include <iostream>
|
||||||
|
#include<arm_neon.h>
|
||||||
|
#include <time.h>
|
||||||
|
|
||||||
|
#define IDx(n) ((n) % 3)
|
||||||
|
|
||||||
|
#define H 600
|
||||||
|
#define W 600
|
||||||
|
|
||||||
|
|
||||||
|
void applyGaussianBlur(float src[][W], float dst[][W], int h, int w, float kernel[3][3]) {
|
||||||
|
for (int i = 1; i < h -1;++i) {
|
||||||
|
for (int j = 1; j < w - 1; ++j) {
|
||||||
|
dst[i][j] =src[i - 1][j - 1] * kernel[0][0] + src[i - 1][j] * kernel[0][1] + src[i - 1][j + 1] * kernel[0][2] +
|
||||||
|
src[i][j - 1] * kernel[1][0] + src[i][j] * kernel[1][1] + src[i][j + 1] * kernel[1][2] +
|
||||||
|
src[i + 1][j - 1] * kernel[2][0] + src[i + 1][j] * kernel[2][1] + src[i + 1][j + 1] * kernel[2][2];
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
void applySeparableGaussianBlur(float src[][W], float dst[][W], int h, int w, float kx[3], float ky[3]) {
|
||||||
|
float buf[3][W+3];
|
||||||
|
|
||||||
|
for (int i = 0; i < 2; ++i) {
|
||||||
|
for (int j = 1; j< w - 1; ++j) {
|
||||||
|
buf[i][j] = src[i][j - 1] * kx[0] + src[i][j] * kx[1] + src[i][j + 1] * kx[2];
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
for (int i = 1; i < h - 1; ++i) {
|
||||||
|
//计算当前行的行内卷积
|
||||||
|
for (int j = 1; j< w- 1;++j) {
|
||||||
|
buf[IDx(i + 1)][j] = src[i + 1][j - 1] * kx[0] + src[i + 1][j] * kx[1] + src[i + 1][j + 1] * kx[2];
|
||||||
|
}
|
||||||
|
//进行行间的卷积得到最终像素值
|
||||||
|
for (int j = 1; j< w - 1; ++j) {
|
||||||
|
dst[i][j] = buf[IDx(i - 1)][j] * ky[0] + buf[IDx(i)][j] * ky[1] + buf[IDx(i + 1)][j] * ky[2];
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
void applyOptimizedSeparableGaussianBlur(float src[][W], float dst[][W], int h, int w, float kx[3], float ky[3]) {
|
||||||
|
|
||||||
|
float buf[3][W+3];
|
||||||
|
|
||||||
|
float32x4_t kx_vec = vld1q_f32(kx); // 加载 kx
|
||||||
|
float32x4_t ky_vec = vld1q_f32(ky); // 加载 ky
|
||||||
|
for (int i = 0; i < 2; ++i) {
|
||||||
|
for (int j = 1; j < w - 1; j += 4) {
|
||||||
|
float32x4_t left = vld1q_f32(&src[i][j - 1]);
|
||||||
|
float32x4_t mid = vld1q_f32(&src[i][j]);
|
||||||
|
float32x4_t right = vld1q_f32(&src[i][j + 1]);
|
||||||
|
|
||||||
|
float32x4_t result = vmulq_lane_f32(left, vget_low_f32(kx_vec), 0); // kx[0] * left
|
||||||
|
result = vmlaq_lane_f32(result, mid, vget_low_f32(kx_vec), 1);// + kx[1] * mid
|
||||||
|
result = vmlaq_lane_f32(result, right, vget_high_f32(kx_vec), 0);// + kx[2] * right
|
||||||
|
|
||||||
|
vst1q_f32(&buf[i][j], result);
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
for (int i = 1; i < h - 1; ++i) {
|
||||||
|
//计算当前行的行内卷积
|
||||||
|
for (int j = 1; j< w- 1;++j) {
|
||||||
|
buf[IDx(i + 1)][j] = src[i + 1][j - 1] * kx[0] + src[i + 1][j] * kx[1] + src[i + 1][j + 1] * kx[2];
|
||||||
|
/*
|
||||||
|
float32x4_t left = vld1q_f32(&src[i+1][j - 1]);
|
||||||
|
float32x4_t mid = vld1q_f32(&src[i+1][j]);
|
||||||
|
float32x4_t right = vld1q_f32(&src[i + 1][j + 1]);
|
||||||
|
|
||||||
|
float32x4_t result = vmulq_lane_f32(left, vget_low_f32(kx_vec), 0); // kx[0] * left
|
||||||
|
result = vmlaq_lane_f32(result, mid, vget_low_f32(kx_vec), 1);// + kx[1] * mid
|
||||||
|
result = vmlaq_lane_f32(result, right, vget_high_f32(kx_vec), 0);// + kx[2] * right
|
||||||
|
|
||||||
|
vst1q_f32(&buf[IDx(i + 1)][j], result);
|
||||||
|
*/
|
||||||
|
}
|
||||||
|
//进行行间的卷积得到最终像素值
|
||||||
|
for (int j = 1; j< w - 1; ++j) {
|
||||||
|
|
||||||
|
|
||||||
|
dst[i][j] = buf[IDx(i - 1)][j] * ky[0] + buf[IDx(i)][j] * ky[1] + buf[IDx(i + 1)][j] * ky[2];
|
||||||
|
/*
|
||||||
|
float32x4_t left = vld1q_f32(&buf[IDx(i - 1)][j]);
|
||||||
|
float32x4_t mid = vld1q_f32(&buf[IDx(i)][j]);
|
||||||
|
float32x4_t right = vld1q_f32(&buf[IDx(i + 1)][j]);
|
||||||
|
|
||||||
|
float32x4_t result = vmulq_lane_f32(left, vget_low_f32(ky_vec), 0); // kx[0] * left
|
||||||
|
result = vmlaq_lane_f32(result, mid, vget_low_f32(ky_vec), 1);// + kx[1] * mid
|
||||||
|
result = vmlaq_lane_f32(result, right, vget_high_f32(ky_vec), 0);// + kx[2] * right
|
||||||
|
|
||||||
|
vst1q_f32(&dst[i][j], result);
|
||||||
|
*/
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
}
|
||||||
|
|
||||||
|
int main() {
|
||||||
|
float src_t[H][W]={0};
|
||||||
|
float dst1[H][W]={0};
|
||||||
|
float dst2[H][W]={0};
|
||||||
|
float dst3[H][W]={0};
|
||||||
|
|
||||||
|
float kernel[3][3] = {
|
||||||
|
{1.0f / 16, 2.0f / 16, 1.0f / 16},
|
||||||
|
{2.0f / 16, 4.0f / 16, 2.0f / 16},
|
||||||
|
{1.0f / 16, 2.0f / 16, 1.0f / 16}
|
||||||
|
};
|
||||||
|
|
||||||
|
float kx[3] = {0.25, 0.5, 0.25};
|
||||||
|
float ky[3] = {0.25, 0.5, 0.25};
|
||||||
|
|
||||||
|
for (auto & i : src_t) {
|
||||||
|
for (float & j : i) {
|
||||||
|
srand((unsigned)time(NULL));
|
||||||
|
j=0.01*rand();
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
clock_t start = clock();
|
||||||
|
applyGaussianBlur(src_t, dst1, H, W, kernel);
|
||||||
|
clock_t end = clock();
|
||||||
|
printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
|
||||||
|
|
||||||
|
start = clock();
|
||||||
|
applySeparableGaussianBlur(src_t, dst2, H, W, kx,ky);
|
||||||
|
end = clock();
|
||||||
|
printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
|
||||||
|
|
||||||
|
start = clock();
|
||||||
|
applyOptimizedSeparableGaussianBlur(src_t, dst3, H, W, kx,ky);
|
||||||
|
end = clock();
|
||||||
|
printf("耗时%lf秒\n",(double)(end-start)/CLOCKS_PER_SEC);
|
||||||
|
|
||||||
|
|
||||||
|
return 0;
|
||||||
|
}
|
||||||
|
|
@ -0,0 +1,58 @@
|
|||||||
|
#include <stdio.h>
|
||||||
|
#include <time.h>
|
||||||
|
|
||||||
|
void gaussianBlur(float src[5][5], float dst[5][5], int h, int w, float kernel[3][3]) {
|
||||||
|
int i,j, ki, kj;
|
||||||
|
for (i = 1; i < h - 1; i++) {
|
||||||
|
for (j = 1; j < w - 1; j++) {
|
||||||
|
float sum = 0.0;
|
||||||
|
for (ki = -1; ki <= 1; ki++) {
|
||||||
|
for (kj = -1; kj <= 1; kj++) {
|
||||||
|
sum += src[i + ki][j + kj] * kernel[ki + 1][kj + 1];
|
||||||
|
}
|
||||||
|
}
|
||||||
|
dst[i][j] = sum;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
int main() {
|
||||||
|
float src[5][5] = {
|
||||||
|
{1, 2, 3, 4, 5},
|
||||||
|
{6, 7, 8, 9, 10},
|
||||||
|
{11, 12, 13, 14, 15},
|
||||||
|
{16, 17, 18, 19, 20},
|
||||||
|
{21, 22, 23, 24, 25}
|
||||||
|
};
|
||||||
|
|
||||||
|
float kernel[3][3] = {
|
||||||
|
{1 / 16.0, 2 / 16.0, 1 / 16.0},
|
||||||
|
{2 / 16.0, 4 / 16.0, 2 / 16.0},
|
||||||
|
{1 / 16.0, 2 / 16.0, 1 / 16.0}
|
||||||
|
};
|
||||||
|
|
||||||
|
int i, j;
|
||||||
|
float dst[5][5];
|
||||||
|
for (i = 0; i < 5; i++){
|
||||||
|
for (j = 0; j < 5; j++){
|
||||||
|
dst[i][j] = 0.0;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
clock_t start, end;
|
||||||
|
start = clock();
|
||||||
|
gaussianBlur(src, dst, 5, 5, kernel);
|
||||||
|
end = clock();
|
||||||
|
double time = (double)(end - start) / CLOCKS_PER_SEC;
|
||||||
|
|
||||||
|
printf("Dst matrix:\n");
|
||||||
|
for (i = 0; i < 5; i++) {
|
||||||
|
for (j = 0; j < 5; j++) {
|
||||||
|
printf("%.2f ", dst[i][j]);
|
||||||
|
}
|
||||||
|
printf("\n");
|
||||||
|
}
|
||||||
|
|
||||||
|
printf("Time: %f s\n", time);
|
||||||
|
return 0;
|
||||||
|
}
|
@ -0,0 +1,63 @@
|
|||||||
|
#include <stdio.h>
|
||||||
|
#include <time.h>
|
||||||
|
|
||||||
|
const int h = 5, w = 5;
|
||||||
|
float kx[3] = {0.25f, 0.5f, 0.25f};
|
||||||
|
float ky[3] = {0.25f, 0.5f, 0.25f};
|
||||||
|
|
||||||
|
void separableGaussianBlur(float src[h][w], float dst[h][w], int h, int w, float kx[3], float ky[3]) {
|
||||||
|
float buf[3][w];
|
||||||
|
int x, y;
|
||||||
|
|
||||||
|
#define BUF_INDEX(i) ((i) % 3)
|
||||||
|
|
||||||
|
for(y = 0; y < h; ++y){
|
||||||
|
for(x = 0; x < w; ++x){
|
||||||
|
buf[BUF_INDEX(y)][x] =
|
||||||
|
src[y][x] * kx[1] +
|
||||||
|
(x > 0 ? src[y][x - 1] * kx[0] : 0) +
|
||||||
|
(x < w - 1 ? src[y][x + 1] * kx[2] : 0);
|
||||||
|
}
|
||||||
|
|
||||||
|
if(y >= 2){
|
||||||
|
for(x = 1; x < w - 1; ++x){
|
||||||
|
dst[y - 1][x] =
|
||||||
|
buf[BUF_INDEX(y - 2)][x] * ky[0] +
|
||||||
|
buf[BUF_INDEX(y - 1)][x] * ky[1] +
|
||||||
|
buf[BUF_INDEX(y)][x] * ky[2];
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
int main() {
|
||||||
|
int i, j;
|
||||||
|
float dst[h][w];
|
||||||
|
for(i = 0; i < h; i++){
|
||||||
|
for (j = 0; j < w; j++){
|
||||||
|
dst[i][j] = 0.0;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
float src[5][5] = {
|
||||||
|
{1, 2, 3, 4, 5},
|
||||||
|
{6, 7, 8, 9, 10},
|
||||||
|
{11, 12, 13, 14, 15},
|
||||||
|
{16, 17, 18, 19, 20},
|
||||||
|
{21, 22, 23, 24, 25}
|
||||||
|
};
|
||||||
|
|
||||||
|
clock_t start, end;
|
||||||
|
start = clock();
|
||||||
|
separableGaussianBlur(src, dst, h, w, kx, ky);
|
||||||
|
end = clock();
|
||||||
|
|
||||||
|
printf("Blurred result:\n");
|
||||||
|
for(i = 0; i < h; i++){
|
||||||
|
for(j = 0; j < w; j++){
|
||||||
|
printf("%.2f ", dst[i][j]);
|
||||||
|
}
|
||||||
|
printf("\n");
|
||||||
|
}
|
||||||
|
printf("Time: %f s\n", (float)(end - start) / CLOCKS_PER_SEC);
|
||||||
|
return 0;
|
||||||
|
}
|
Loading…
Reference in new issue