refactor(frontend): 添加对只编译前端的支持

master
jing 1 month ago
parent 10ea8aad14
commit a091d9108a

@ -37,6 +37,8 @@ if(COMPILER_ENABLE_WARNINGS)
endif() endif()
endif() endif()
option(COMPILER_PARSE_ONLY "Build only the frontend parser pipeline" OFF)
# 使 third_party ANTLR4 C++ runtime # 使 third_party ANTLR4 C++ runtime
# third_party runtime third_party/antlr4-runtime-4.13.2/runtime/src # third_party runtime third_party/antlr4-runtime-4.13.2/runtime/src
set(ANTLR4_RUNTIME_SRC_DIR "${PROJECT_SOURCE_DIR}/third_party/antlr4-runtime-4.13.2/runtime/src") set(ANTLR4_RUNTIME_SRC_DIR "${PROJECT_SOURCE_DIR}/third_party/antlr4-runtime-4.13.2/runtime/src")

@ -7,7 +7,7 @@
| 实验 | 名称 | 任务/目标 | | 实验 | 名称 | 任务/目标 |
| --- | --- | --- | | --- | --- | --- |
| Lab1 | 语法树构建 | 基于 SysY 源程序完成语法分析与语法树构建,并按约定输出语法树 | | Lab1 | 语法树构建 | 基于 SysY 源程序完成语法分析与语法树构建;建议使用 `COMPILER_PARSE_ONLY=ON` 仅构建前端,并通过 `--emit-parse-tree` 输出语法树 |
| Lab2 | 中间表示生成 | 将语法树翻译为 LLVM 风格的中间表示IR并输出 IR | | Lab2 | 中间表示生成 | 将语法树翻译为 LLVM 风格的中间表示IR并输出 IR |
| Lab3 | 指令选择与汇编生成 | 将 IR 翻译为目标平台汇编代码(本项目以 ARM64/AArch64 为主) | | Lab3 | 指令选择与汇编生成 | 将 IR 翻译为目标平台汇编代码(本项目以 ARM64/AArch64 为主) |
| Lab4 | 基本标量优化 | 实现常见的标量优化(如常量传播、死代码删除、简化 CFG 等) | | Lab4 | 基本标量优化 | 实现常见的标量优化(如常量传播、死代码删除、简化 CFG 等) |
@ -71,16 +71,33 @@ java -jar third_party/antlr-4.13.2-complete.jar \
src/antlr4/SysY.g4 src/antlr4/SysY.g4
``` ```
### 3.2 CMake 构建 ### 3.2 Lab1 语法树构建
```bash ```bash
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=ON
cmake --build build -j "$(nproc)" cmake --build build -j "$(nproc)"
``` ```
该模式只构建前端解析与语法树打印,不编译 `sem` / `irgen` / `mir`,适合 Lab1。
构建成功后,可执行文件位于:`./build/bin/compiler`。 构建成功后,可执行文件位于:`./build/bin/compiler`。
### 3.3 运行自检 运行语法树打印:
```bash
./build/bin/compiler --emit-parse-tree test/test_case/functional/simple_add.sy
```
### 3.3 全量构建
```bash
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=OFF
cmake --build build -j "$(nproc)"
```
该模式会继续编译 `sem` / `irgen` / `mir`,用于后续实验。
### 3.4 运行自检
运行帮助信息能正常输出,说明基本环境与可执行文件均正常: 运行帮助信息能正常输出,说明基本环境与可执行文件均正常:
@ -88,7 +105,9 @@ cmake --build build -j "$(nproc)"
./build/bin/compiler --help ./build/bin/compiler --help
``` ```
跑完整编译流程自检:从 SysY 源码生成 AArch64 汇编,完成汇编、链接,在 QEMU 下运行结果程序,并与 `test/test_case` 下同名 `.out` 自动比对: 若当前处于 Lab1只需检查语法树输出是否符合预期。
若需要跑完整编译流程自检,则先使用全量构建模式,再执行下面的命令:从 SysY 源码生成 AArch64 汇编,完成汇编、链接,在 QEMU 下运行结果程序,并与 `test/test_case` 下同名 `.out` 自动比对:
```bash ```bash
./scripts/verify_asm.sh test/test_case/functional/simple_add.sy test/test_result/function/asm --run ./scripts/verify_asm.sh test/test_case/functional/simple_add.sy test/test_result/function/asm --run

@ -27,12 +27,13 @@ Lab1 聚焦前端第一步:词法/语法分析。
当前仓库仅实现最小子集: 当前仓库仅实现最小子集:
1. 主要覆盖 `int main() { ... }` 这一固定函数形态。 1. 主要覆盖 `int main() { ... }` 这一固定函数形态。
2. 只包含少量声明/返回/表达式能力(用于演示完整流程) 2. 只包含少量声明/返回/表达式能力;当前默认示例主要覆盖简单加法
3. 示例用例位于 `test/test_case/functional/simple_add.sy` 3. 示例用例位于 `test/test_case/functional/simple_add.sy`
## 5. 构建与生成流程 ## 5. 构建与生成流程
Lab1 中需要先生成 Lexer/Parser 相关文件,再执行 CMake 构建。 Lab1 中需要先生成 Lexer/Parser 相关文件,再执行 CMake 构建。
为了只聚焦语法树构建,建议启用 `parse-only` 模式,仅编译前端解析与语法树打印,不编译 `sem` / `irgen` / `mir`
Lexer/Parser 生成文件统一位于: Lexer/Parser 生成文件统一位于:
@ -50,8 +51,17 @@ java -jar third_party/antlr-4.13.2-complete.jar \
src/antlr4/SysY.g4 src/antlr4/SysY.g4
``` ```
随后执行构建: 随后执行 Lab1 构建,下面的命令是只编译运行前端
```bash
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DCOMPILER_PARSE_ONLY=ON
cmake --build build -j "$(nproc)"
```
如果后续需要继续验证 `sem` / `irgen` / `mir`,再使用全量构建。需要注意的是,由于 `irgen` 需要直接遍历 ANTLR 生成的语法树,`sem` / `irgen` 会直接依赖 `SysYParser::*Context` 的节点类型、层级结构和访问接口。因此当 `src/antlr4/SysY.g4` 被扩展后,如果后续阶段代码没有同步适配新的语法树结构,就可能在全量构建或运行时出现报错;这部分适配工作属于 Lab2 及后续实验需要继续完成的内容。
全量构建命令
```bash ```bash
cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake -S . -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j "$(nproc)" cmake --build build -j "$(nproc)"

@ -3,17 +3,27 @@
add_subdirectory(utils) add_subdirectory(utils)
add_subdirectory(ir) add_subdirectory(ir)
add_subdirectory(frontend) add_subdirectory(frontend)
add_subdirectory(sem) if(NOT COMPILER_PARSE_ONLY)
add_subdirectory(irgen) add_subdirectory(sem)
add_subdirectory(mir) add_subdirectory(irgen)
add_subdirectory(mir)
endif()
add_executable(compiler add_executable(compiler
main.cpp main.cpp
) )
target_link_libraries(compiler PRIVATE target_link_libraries(compiler PRIVATE
frontend frontend
sem
irgen
mir
utils utils
) )
if(NOT COMPILER_PARSE_ONLY)
target_link_libraries(compiler PRIVATE
sem
irgen
mir
)
target_compile_definitions(compiler PRIVATE COMPILER_PARSE_ONLY=0)
else()
target_compile_definitions(compiler PRIVATE COMPILER_PARSE_ONLY=1)
endif()

@ -3,82 +3,96 @@
// 的最小返回表达式编译。 // 的最小返回表达式编译。
// 后续需要自行添加 // 后续需要自行添加
grammar SysY; grammar SysY;
compUnit /*===-------------------------------------------===*/
: funcDef EOF /* Lexer rules */
; /*===-------------------------------------------===*/
funcDef INT: 'int';
: Int Ident L_PAREN R_PAREN block RETURN: 'return';
;
block ASSIGN: '=';
: L_BRACE blockItem* R_BRACE ADD: '+';
;
blockItem LPAREN: '(';
: decl RPAREN: ')';
| stmt LBRACE: '{';
RBRACE: '}';
SEMICOLON: ';';
ID: [a-zA-Z_][a-zA-Z_0-9]*;
ILITERAL: [0-9]+;
WS: [ \t\r\n] -> skip;
LINECOMMENT: '//' ~[\r\n]* -> skip;
BLOCKCOMMENT: '/*' .*? '*/' -> skip;
/*===-------------------------------------------===*/
/* Syntax rules */
/*===-------------------------------------------===*/
compUnit
: funcDef EOF
; ;
decl decl
: varDecl : btype varDef SEMICOLON
; ;
stmt btype
: returnStmt : INT
; ;
varDecl varDef
: Int Ident (Assign exp)? Semi : lValue (ASSIGN initValue)?
; ;
returnStmt initValue
: Return exp Semi : exp
; ;
exp funcDef
: addExp : funcType ID LPAREN RPAREN blockStmt
; ;
addExp funcType
: primary (AddOp primary)* : INT
; ;
primary blockStmt
: Number : LBRACE blockItem* RBRACE
| Ident
| L_PAREN exp R_PAREN
; ;
Int : 'int'; blockItem
Return : 'return'; : decl
| stmt
;
AddOp : '+'; stmt
Assign : '='; : returnStmt
Semi : ';'; ;
L_PAREN : '(';
R_PAREN : ')';
L_BRACE : '{';
R_BRACE : '}';
Ident returnStmt
: [a-zA-Z_][a-zA-Z_0-9]* : RETURN exp SEMICOLON
; ;
Number exp
: [0-9]+ : LPAREN exp RPAREN # parenExp
| var # varExp
| number # numberExp
| exp ADD exp # additiveExp
; ;
WS var
: [ \t\r\n]+ -> skip : ID
; ;
COMMENT lValue
: '//' ~[\r\n]* -> skip : ID
; ;
BLOCK_COMMENT number
: '/*' .*? '*/' -> skip : ILITERAL
; ;

@ -4,10 +4,12 @@
#include "frontend/AntlrDriver.h" #include "frontend/AntlrDriver.h"
#include "frontend/SyntaxTreePrinter.h" #include "frontend/SyntaxTreePrinter.h"
#if !COMPILER_PARSE_ONLY
#include "ir/IR.h" #include "ir/IR.h"
#include "irgen/IRGen.h" #include "irgen/IRGen.h"
#include "mir/MIR.h" #include "mir/MIR.h"
#include "sem/Sema.h" #include "sem/Sema.h"
#endif
#include "utils/CLI.h" #include "utils/CLI.h"
#include "utils/Log.h" #include "utils/Log.h"
@ -26,6 +28,7 @@ int main(int argc, char** argv) {
need_blank_line = true; need_blank_line = true;
} }
#if !COMPILER_PARSE_ONLY
auto* comp_unit = dynamic_cast<SysYParser::CompUnitContext*>(antlr.tree); auto* comp_unit = dynamic_cast<SysYParser::CompUnitContext*>(antlr.tree);
if (!comp_unit) { if (!comp_unit) {
throw std::runtime_error(FormatError("main", "语法树根节点不是 compUnit")); throw std::runtime_error(FormatError("main", "语法树根节点不是 compUnit"));
@ -51,6 +54,12 @@ int main(int argc, char** argv) {
} }
mir::PrintAsm(*machine_func, std::cout); mir::PrintAsm(*machine_func, std::cout);
} }
#else
if (opts.emit_ir || opts.emit_asm) {
throw std::runtime_error(
FormatError("main", "当前为 parse-only 构建IR/汇编输出已禁用"));
}
#endif
} catch (const std::exception& ex) { } catch (const std::exception& ex) {
PrintException(std::cerr, ex); PrintException(std::cerr, ex);
return 1; return 1;

Loading…
Cancel
Save