From a091d9108ae7baec6f2fce14c0a09d1c1da19b4a Mon Sep 17 00:00:00 2001 From: jing <3030349106@qq.com> Date: Tue, 17 Mar 2026 18:18:55 +0800 Subject: [PATCH] =?UTF-8?q?refactor(frontend):=20=E6=B7=BB=E5=8A=A0?= =?UTF-8?q?=E5=AF=B9=E5=8F=AA=E7=BC=96=E8=AF=91=E5=89=8D=E7=AB=AF=E7=9A=84?= =?UTF-8?q?=E6=94=AF=E6=8C=81?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- CMakeLists.txt | 2 + README.md | 29 ++++++++-- doc/Lab1-语法树构建.md | 14 ++++- src/CMakeLists.txt | 22 ++++++-- src/antlr4/SysY.g4 | 106 ++++++++++++++++++++---------------- src/main.cpp | 9 +++ 6 files changed, 123 insertions(+), 59 deletions(-) diff --git a/CMakeLists.txt b/CMakeLists.txt index 00d8467..74dcb27 100644 --- a/CMakeLists.txt +++ b/CMakeLists.txt @@ -37,6 +37,8 @@ if(COMPILER_ENABLE_WARNINGS) endif() endif() +option(COMPILER_PARSE_ONLY "Build only the frontend parser pipeline" OFF) + # 使用仓库内 third_party 提供的 ANTLR4 C++ runtime(较新版本) # third_party 目录结构以仓库为准:runtime 源码位于 third_party/antlr4-runtime-4.13.2/runtime/src set(ANTLR4_RUNTIME_SRC_DIR "${PROJECT_SOURCE_DIR}/third_party/antlr4-runtime-4.13.2/runtime/src") diff --git a/README.md b/README.md index 7cf88b6..46a304e 100644 --- a/README.md +++ b/README.md @@ -7,7 +7,7 @@ | 实验 | 名称 | 任务/目标 | | --- | --- | --- | -| Lab1 | 语法树构建 | 基于 SysY 源程序完成语法分析与语法树构建,并按约定输出语法树 | +| Lab1 | 语法树构建 | 基于 SysY 源程序完成语法分析与语法树构建;建议使用 `COMPILER_PARSE_ONLY=ON` 仅构建前端,并通过 `--emit-parse-tree` 输出语法树 | | Lab2 | 中间表示生成 | 将语法树翻译为 LLVM 风格的中间表示(IR),并输出 IR | | Lab3 | 指令选择与汇编生成 | 将 IR 翻译为目标平台汇编代码(本项目以 ARM64/AArch64 为主) | | Lab4 | 基本标量优化 | 实现常见的标量优化(如常量传播、死代码删除、简化 CFG 等) | @@ -71,16 +71,33 @@ java -jar third_party/antlr-4.13.2-complete.jar \ src/antlr4/SysY.g4 ``` -### 3.2 CMake 构建 +### 3.2 Lab1 语法树构建 ```bash -cmake -S . -B build -DCMAKE_BUILD_TYPE=Release +cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=ON cmake --build build -j "$(nproc)" ``` +该模式只构建前端解析与语法树打印,不编译 `sem` / `irgen` / `mir`,适合 Lab1。 + 构建成功后,可执行文件位于:`./build/bin/compiler`。 -### 3.3 运行自检 +运行语法树打印: + +```bash +./build/bin/compiler --emit-parse-tree test/test_case/functional/simple_add.sy +``` + +### 3.3 全量构建 + +```bash +cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=OFF +cmake --build build -j "$(nproc)" +``` + +该模式会继续编译 `sem` / `irgen` / `mir`,用于后续实验。 + +### 3.4 运行自检 运行帮助信息能正常输出,说明基本环境与可执行文件均正常: @@ -88,7 +105,9 @@ cmake --build build -j "$(nproc)" ./build/bin/compiler --help ``` -跑完整编译流程自检:从 SysY 源码生成 AArch64 汇编,完成汇编、链接,在 QEMU 下运行结果程序,并与 `test/test_case` 下同名 `.out` 自动比对: +若当前处于 Lab1,只需检查语法树输出是否符合预期。 + +若需要跑完整编译流程自检,则先使用全量构建模式,再执行下面的命令:从 SysY 源码生成 AArch64 汇编,完成汇编、链接,在 QEMU 下运行结果程序,并与 `test/test_case` 下同名 `.out` 自动比对: ```bash ./scripts/verify_asm.sh test/test_case/functional/simple_add.sy test/test_result/function/asm --run diff --git a/doc/Lab1-语法树构建.md b/doc/Lab1-语法树构建.md index 687ee39..7637149 100644 --- a/doc/Lab1-语法树构建.md +++ b/doc/Lab1-语法树构建.md @@ -27,12 +27,13 @@ Lab1 聚焦前端第一步:词法/语法分析。 当前仓库仅实现最小子集: 1. 主要覆盖 `int main() { ... }` 这一固定函数形态。 -2. 只包含少量声明/返回/表达式能力(用于演示完整流程)。 +2. 只包含少量声明/返回/表达式能力;当前默认示例主要覆盖简单加法。 3. 示例用例位于 `test/test_case/functional/simple_add.sy`。 ## 5. 构建与生成流程 Lab1 中需要先生成 Lexer/Parser 相关文件,再执行 CMake 构建。 +为了只聚焦语法树构建,建议启用 `parse-only` 模式,仅编译前端解析与语法树打印,不编译 `sem` / `irgen` / `mir`。 Lexer/Parser 生成文件统一位于: @@ -50,8 +51,17 @@ java -jar third_party/antlr-4.13.2-complete.jar \ src/antlr4/SysY.g4 ``` -随后再执行构建: +随后执行 Lab1 构建,下面的命令是只编译运行前端: +```bash +cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=ON +cmake --build build -j "$(nproc)" +``` + +如果后续需要继续验证 `sem` / `irgen` / `mir`,再使用全量构建。需要注意的是,由于 `irgen` 需要直接遍历 ANTLR 生成的语法树,`sem` / `irgen` 会直接依赖 `SysYParser::*Context` 的节点类型、层级结构和访问接口。因此当 `src/antlr4/SysY.g4` 被扩展后,如果后续阶段代码没有同步适配新的语法树结构,就可能在全量构建或运行时出现报错;这部分适配工作属于 Lab2 及后续实验需要继续完成的内容。 + + +全量构建命令 ```bash cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake --build build -j "$(nproc)" diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt index 6dcebdc..acb9400 100644 --- a/src/CMakeLists.txt +++ b/src/CMakeLists.txt @@ -3,17 +3,27 @@ add_subdirectory(utils) add_subdirectory(ir) add_subdirectory(frontend) -add_subdirectory(sem) -add_subdirectory(irgen) -add_subdirectory(mir) +if(NOT COMPILER_PARSE_ONLY) + add_subdirectory(sem) + add_subdirectory(irgen) + add_subdirectory(mir) +endif() add_executable(compiler main.cpp ) target_link_libraries(compiler PRIVATE frontend - sem - irgen - mir utils ) + +if(NOT COMPILER_PARSE_ONLY) + target_link_libraries(compiler PRIVATE + sem + irgen + mir + ) + target_compile_definitions(compiler PRIVATE COMPILER_PARSE_ONLY=0) +else() + target_compile_definitions(compiler PRIVATE COMPILER_PARSE_ONLY=1) +endif() diff --git a/src/antlr4/SysY.g4 b/src/antlr4/SysY.g4 index 75fa2bb..263aeef 100644 --- a/src/antlr4/SysY.g4 +++ b/src/antlr4/SysY.g4 @@ -3,82 +3,96 @@ // 的最小返回表达式编译。 // 后续需要自行添加 + grammar SysY; -compUnit - : funcDef EOF - ; +/*===-------------------------------------------===*/ +/* Lexer rules */ +/*===-------------------------------------------===*/ -funcDef - : Int Ident L_PAREN R_PAREN block - ; +INT: 'int'; +RETURN: 'return'; -block - : L_BRACE blockItem* R_BRACE - ; +ASSIGN: '='; +ADD: '+'; -blockItem - : decl - | stmt +LPAREN: '('; +RPAREN: ')'; +LBRACE: '{'; +RBRACE: '}'; +SEMICOLON: ';'; + +ID: [a-zA-Z_][a-zA-Z_0-9]*; +ILITERAL: [0-9]+; + +WS: [ \t\r\n] -> skip; +LINECOMMENT: '//' ~[\r\n]* -> skip; +BLOCKCOMMENT: '/*' .*? '*/' -> skip; + +/*===-------------------------------------------===*/ +/* Syntax rules */ +/*===-------------------------------------------===*/ + +compUnit + : funcDef EOF ; decl - : varDecl + : btype varDef SEMICOLON ; -stmt - : returnStmt +btype + : INT ; -varDecl - : Int Ident (Assign exp)? Semi +varDef + : lValue (ASSIGN initValue)? ; -returnStmt - : Return exp Semi +initValue + : exp ; -exp - : addExp +funcDef + : funcType ID LPAREN RPAREN blockStmt ; -addExp - : primary (AddOp primary)* +funcType + : INT ; -primary - : Number - | Ident - | L_PAREN exp R_PAREN +blockStmt + : LBRACE blockItem* RBRACE ; -Int : 'int'; -Return : 'return'; +blockItem + : decl + | stmt + ; -AddOp : '+'; -Assign : '='; -Semi : ';'; -L_PAREN : '('; -R_PAREN : ')'; -L_BRACE : '{'; -R_BRACE : '}'; +stmt + : returnStmt + ; -Ident - : [a-zA-Z_][a-zA-Z_0-9]* +returnStmt + : RETURN exp SEMICOLON ; -Number - : [0-9]+ +exp + : LPAREN exp RPAREN # parenExp + | var # varExp + | number # numberExp + | exp ADD exp # additiveExp ; -WS - : [ \t\r\n]+ -> skip +var + : ID ; -COMMENT - : '//' ~[\r\n]* -> skip +lValue + : ID ; -BLOCK_COMMENT - : '/*' .*? '*/' -> skip +number + : ILITERAL ; diff --git a/src/main.cpp b/src/main.cpp index 2a889ec..88ed747 100644 --- a/src/main.cpp +++ b/src/main.cpp @@ -4,10 +4,12 @@ #include "frontend/AntlrDriver.h" #include "frontend/SyntaxTreePrinter.h" +#if !COMPILER_PARSE_ONLY #include "ir/IR.h" #include "irgen/IRGen.h" #include "mir/MIR.h" #include "sem/Sema.h" +#endif #include "utils/CLI.h" #include "utils/Log.h" @@ -26,6 +28,7 @@ int main(int argc, char** argv) { need_blank_line = true; } +#if !COMPILER_PARSE_ONLY auto* comp_unit = dynamic_cast(antlr.tree); if (!comp_unit) { throw std::runtime_error(FormatError("main", "语法树根节点不是 compUnit")); @@ -51,6 +54,12 @@ int main(int argc, char** argv) { } mir::PrintAsm(*machine_func, std::cout); } +#else + if (opts.emit_ir || opts.emit_asm) { + throw std::runtime_error( + FormatError("main", "当前为 parse-only 构建;IR/汇编输出已禁用")); + } +#endif } catch (const std::exception& ex) { PrintException(std::cerr, ex); return 1;