Без RAG
No RAG- Final vs base
- +0.0 pp
- Synthesis
- 27.3% +0.0 pp
- Samples
- 770 / 77 tasks
Базовый запуск qwen3-coder:30b без retrieval-контекста.
summary.jsonОтдельный статический отчет по qwen3-запускам: без RAG, books, code и books+code. В основное сравнение включены только завершенные full s10-прогоны: есть summary.json, есть comparison.json, минимум 77 задач и минимум 10 samples на задачу. Остальные qwen3-кандидаты показаны отдельно с причиной отсева.
Это агрегаты из data/model_dataset/models/qwen3-coder-30b. Именно они объясняют число 2441: столько sample накоплено в профиле rag_on без разделения по коллекциям.
Важно: эти метрики нормализованы при сборке model_dataset. Скрипт дополнительно помечает functional как failed, если в выводе тестбенча найден маркер провала, и инвалидирует OpenLane-успехи, если functional фактически не прошел. Поэтому no-RAG здесь дает 7.8% вместо raw run-level 27.3%.
| Metric | Без RAG | RAG: all collections |
|---|---|---|
| Extract pass@k | 97.4% | 100.0% |
| Syntax pass@k | 84.4% | 90.9% |
| Functional pass@k | 29.9% | 75.3% |
| Synthesis pass@k | 7.8% | 53.2% |
| Final success@k | 7.8% | 53.2% |
| Functional samples | 24.7% | 40.1% |
| Synthesis samples | 3.6% | 25.9% |
Диаграмма использует cumulative model_report: красная полоска - без RAG, зеленая - RAG all collections. Метрика: final_success_tasks / tasks_total внутри типа задач.
CDV исключен: это verification/coverage задача, а не генерация RTL.
| Тип задач | Tasks | Диаграмма | Без RAG | RAG | Gain | Вывод |
|---|---|---|---|---|---|---|
| side channel constant time | 2 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| fault tolerant safety | 2 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| constraint aware timing | 1 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| spec clarification | 1 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| clock domain crossing | 1 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| ip integration | 2 | 0.0% | 100.0% | +100.0 pp | сильная зона | |
| csr register map generation | 4 | 25.0% | 100.0% | +75.0 pp | сильная зона | |
| low power design | 2 | 50.0% | 100.0% | +50.0 pp | сильная зона | |
| security vulnerability detection | 2 | 50.0% | 100.0% | +50.0 pp | сильная зона | |
| reset domain crossing | 4 | 25.0% | 75.0% | +50.0 pp | сильная зона | |
| dft testability | 4 | 25.0% | 50.0% | +25.0 pp | RAG помогает | |
| rtllm arithmetic | 19 | 0.0% | 42.1% | +42.1 pp | RAG помогает | |
| rtllm memory | 5 | 0.0% | 40.0% | +40.0 pp | RAG помогает | |
| rtllm control | 6 | 0.0% | 33.3% | +33.3 pp | RAG помогает | |
| rtllm miscellaneous | 20 | 0.0% | 30.0% | +30.0 pp | RAG помогает | |
| chiplet die to die integration | 1 | 0.0% | 0.0% | +0.0 pp | проблемная зона |
Ниже показаны найденные collection-specific run. В отличие от cumulative model_report, эти строки различают books, code и books+code, но опираются на отдельные run-результаты.
Базовый запуск qwen3-coder:30b без retrieval-контекста.
summary.jsonRAG-контекст из книжной/документной коллекции.
summary.jsonRAG-контекст из code-коллекции.
summary.jsonОбычный rag_on без отдельного указания коллекции: смешанный контекст books+code.
summary.jsonBaseline - Без RAG. Левая диаграмма показывает абсолютные значения всех метрик для выбранных collection-specific run. Правая диаграмма показывает прирост или падение в процентных пунктах относительно baseline.
Эта таблица использует те же репрезентативные collection-specific запуски, что и карточки выше.
| Metric | Без RAG | RAG: books | RAG: code | RAG: books + code |
|---|---|---|---|---|
| Extract pass@k | 97.4% | 98.7% | 100.0% | 100.0% |
| Syntax pass@k | 84.4% | 88.3% | 89.6% | 90.9% |
| Functional pass@k | 53.2% | 66.2% | 66.2% | 71.4% |
| Synthesis pass@k | 27.3% | 55.8% | 55.8% | 53.2% |
| Final success@k | 27.3% | 55.8% | 55.8% | 53.2% |
| Functional samples | 47.9% | 60.9% | 59.6% | 62.1% |
| Synthesis samples | 22.3% | 50.4% | 47.8% | 46.5% |
Эти run удовлетворяют фильтру качества и участвуют в сравнении. Верхние карточки берут лучший full s10 run внутри каждого режима.
| Run | Mode | Scope | Benchmark | Tasks | Samples | Syntax | Functional | Synthesis | Final |
|---|---|---|---|---|---|---|---|---|---|
| run_20260426_175047_007550_9b8266 | Без RAG | full s10 | /workspace/banchmarks | 77 | 770 | 84.4% | 53.2% | 27.3% | 27.3% |
| run_20260529_123849_704915_151337 | RAG: books | full s10 | /workspace/banchmarks | 77 | 770 | 88.3% | 66.2% | 55.8% | 55.8% |
| run_20260529_141931_204035_58922b | RAG: books | full s10 | /workspace/banchmarks | 77 | 770 | 88.3% | 66.2% | 55.8% | 55.8% |
| run_20260529_155338_296629_8ba28f | RAG: code | full s10 | /workspace/banchmarks | 77 | 770 | 89.6% | 66.2% | 55.8% | 55.8% |
| run_20260424_230145_632624_082334 | RAG: books + code | full s10 | /workspace/banchmarks | 77 | 770 | 87.0% | 67.5% | 49.4% | 49.4% |
| run_20260426_141859_833435_7c9834 | RAG: books + code | full s10 | /workspace/banchmarks | 77 | 770 | 90.9% | 71.4% | 53.2% | 53.2% |
Здесь сохранены qwen3 run, которые были найдены по конфигу или summary, но не попали в основное сравнение.
| Run | Mode | Scope | Benchmark | Tasks | Samples | Samples/task | Reason |
|---|---|---|---|---|---|---|---|
| run_20260529_141903_826591_066860 | RAG: books | incomplete | /workspace/banchmarks | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260529_122705_487382_af0526 | RAG: books | smoke / partial | /workspace/banchmarks | 5 | 5 | 1.0 | мало задач: 5; мало samples/task: 1.0; smoke / partial |
| run_20260529_141436_998033_889155 | RAG: code | incomplete | /workspace/banchmarks | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_141755_979882_198b28 | RAG: books + code | incomplete | /workspace/banchmarks | n/a | n/a | 3 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_142537_441024_d248e7 | RAG: books + code | incomplete | /workspace/banchmarks | n/a | n/a | 3 | нет qwen3 summary.json |
| run_20260424_200245_304978_e6e20c | RAG: books + code | incomplete | /workspace/banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_200306_200571_4d49d3 | RAG: books + code | incomplete | /workspace/banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_202334_041607_5f479e | RAG: books + code | incomplete | /banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_202342_427401_380d82 | RAG: books + code | incomplete | /workspace/banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_203207_383858_647554 | RAG: books + code | incomplete | /workspace/banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_203234_854555_0a443a | RAG: books + code | incomplete | /workspace/banchmarks_rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_203309_390503_1eb512 | RAG: books + code | incomplete | /workspace/rtllm | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260426_140927_433968_a28d34 | RAG: books + code | incomplete | /workspace/banchmarks | n/a | n/a | 10 | нет qwen3 summary.json; нет comparison.json |
| run_20260424_144121_405769_1acdc5 | RAG: books + code | partial benchmark | /workspace/banchmarks | 27 | 81 | 3.0 | мало задач: 27; мало samples/task: 3.0; partial benchmark |
| run_20260424_172135_562392_bd9fc2 | RAG: books + code | partial benchmark | /workspace/banchmarks | 27 | 270 | 10.0 | мало задач: 27; partial benchmark |
| run_20260424_203453_201510_6e98ce | RAG: books + code | partial benchmark | /workspace/banchmarks/rtllm | 50 | 500 | 10.0 | мало задач: 50; partial benchmark |
| run_20260424_212142_473417_af1ca5 | RAG: books + code | smoke / partial | /workspace/banchmarks/rtllm | 50 | 50 | 1.0 | мало задач: 50; мало samples/task: 1.0; smoke / partial |
Домены отсортированы по максимальному приросту final_success_samples / samples_total относительно режима без RAG. Малое число под процентом показывает успешные samples / все samples внутри домена для выбранного collection-specific run.
CDV/coverage-driven verification исключен из этой RTL-таблицы: там нужно дописывать тестовые последовательности, а не генерировать Verilog-модуль.
| Domain | Без RAG | RAG: books | RAG: code | RAG: books + code | Best gain |
|---|---|---|---|---|---|
| ilyasov/02_clock_domain_crossing | 0.0%0/10 | 100.0%10/10 | 50.0%5/10 | 80.0%8/10 | +100.0 pp |
| rtllm/13_rtllm_misc_clocking_waveform | 0.0%0/70 | 71.4%50/70 | 70.0%49/70 | 60.0%42/70 | +71.4 pp |
| ilyasov/03_low_power_design | 45.0%9/20 | 100.0%20/20 | 90.0%18/20 | 100.0%20/20 | +55.0 pp |
| ilyasov/00_security_vulnerability_detection | 50.0%10/20 | 100.0%20/20 | 100.0%20/20 | 100.0%20/20 | +50.0 pp |
| rtllm/13_rtllm_memory | 0.0%0/50 | 40.0%20/50 | 40.0%20/50 | 40.0%20/50 | +40.0 pp |
| rtllm/13_rtllm_arithmetic | 0.0%0/190 | 39.5%75/190 | 32.6%62/190 | 27.9%53/190 | +39.5 pp |
| ilyasov/01_ip_integration | 40.0%8/20 | 60.0%12/20 | 75.0%15/20 | 70.0%14/20 | +35.0 pp |
| rtllm/13_rtllm_misc_processor_datapath | 0.0%0/30 | 33.3%10/30 | 33.3%10/30 | 33.3%10/30 | +33.3 pp |
| rtllm/13_rtllm_control | 0.0%0/60 | 33.3%20/60 | 33.3%20/60 | 33.3%20/60 | +33.3 pp |
| ilyasov/05_dft_testability | 32.5%13/40 | 25.0%10/40 | 27.5%11/40 | 50.0%20/40 | +17.5 pp |
| ilyasov/06_reset_domain_crossing | 82.5%33/40 | 97.5%39/40 | 97.5%39/40 | 72.5%29/40 | +15.0 pp |
| ilyasov/04_chiplet_die_to_die_integration | 0.0%0/10 | 10.0%1/10 | 0.0%0/10 | 0.0%0/10 | +10.0 pp |
| ilyasov/07_csr_register_map_generation | 90.0%36/40 | 85.0%34/40 | 90.0%36/40 | 95.0%38/40 | +5.0 pp |
| ilyasov/11_side_channel_constant_time | 100.0%20/20 | 100.0%20/20 | 100.0%20/20 | 100.0%20/20 | +0.0 pp |
| ilyasov/10_fault_tolerant_safety | 100.0%20/20 | 85.0%17/20 | 95.0%19/20 | 70.0%14/20 | +0.0 pp |
| ilyasov/09_constraint_aware_timing | 100.0%10/10 | 100.0%10/10 | 100.0%10/10 | 100.0%10/10 | +0.0 pp |
| ilyasov/08_spec_clarification | 100.0%10/10 | 100.0%10/10 | 40.0%4/10 | 100.0%10/10 | +0.0 pp |
functional.testbench_failed358openlane.submit_failed188syntax.iverilog_failed149extract.no_verilog_found42model_request.failed17functional.testbench_failed271syntax.iverilog_failed117openlane.failed81extract.no_verilog_found19functional.testbench_error11functional.testbench_failed287syntax.iverilog_failed140openlane.failed91model_request.failed13extract.no_verilog_found13functional.testbench_failed268syntax.iverilog_failed147openlane.failed120extract.no_verilog_found14model_request.failed13