ADD file via upload

9 months ago · 79294d3dbd
parent d2b25d2b4a
commit 79294d3dbd
1 changed files with 38 additions and 0 deletions
--- a/step2.c
+++ b/step2.c
@ -0,0 +1,38 @@
+#include <stdio.h>
+#include <time.h>
+#include <arm_neon.h>
+#include <stdlib.h>
+
+#define SIZE 1024  
+
+void vector_add_optimized(float* A, float* B, float* C, int size) {
+    int i = 0;
+    for (; i <= size - 4; i += 4) {
+        float32x4_t vecA = vld1q_f32(&A[i]);
+        float32x4_t vecB = vld1q_f32(&B[i]);
+        float32x4_t result = vaddq_f32(vecA, vecB);
+        vst1q_f32(&C[i], result);
+    }
+
+    for (; i < size; i++) {
+        C[i] = A[i] + B[i];
+    }
+}
+
+int main() {
+    float A[SIZE], B[SIZE], C[SIZE];
+    
+    for (int i = 0; i < SIZE; i++) {
+        A[i] = rand() % 100;
+        B[i] = rand() % 100;
+    }
+
+    clock_t start = clock();
+    vector_add_optimized(A, B, C, SIZE);
+    clock_t end = clock();
+    
+    double time_taken = (double)(end - start) / CLOCKS_PER_SEC;
+    printf("NEON 优化的向量加法: %f seconds\n", time_taken);
+
+    return 0;
+}