Главная страница кумулятивной оценки моделей. Здесь всё агрегируется по реальным sample, а не по отдельным run. Один профиль = одна модель + один режим RAG.
Основной рейтинг строится по synth_pass_at_k, потому что нас в первую очередь интересует способность модели генерировать синтезируемый RTL.
| Модель | RAG | synth_pass_at_k | final_success_at_k | functional_pass_at_k | Задач | Sample | samples_per_task | Бенчмарки |
|---|---|---|---|---|---|---|---|---|
| gpt-5.4-mini | RAG on | 63.6% | 63.6% | 66.2% | 77 | 1752 | 22.75 | ilyasov, rtllm |
| gpt-5.4-nano | RAG off | 54.5% | 54.5% | 54.5% | 77 | 770 | 10.0 | ilyasov, rtllm |
| qwen3-coder:30b | RAG on | 53.2% | 53.2% | 75.3% | 77 | 2441 | 31.7 | ilyasov, rtllm |
| gpt-5.4-nano | RAG on | 51.9% | 51.9% | 54.5% | 77 | 770 | 10.0 | ilyasov, rtllm |
| codegemma:7b | RAG off | 35.1% | 35.1% | 45.5% | 77 | 770 | 10.0 | ilyasov, rtllm |
| deepseek-coder-v2:16b | RAG on | 32.5% | 32.5% | 63.6% | 77 | 770 | 10.0 | ilyasov, rtllm |
| deepseek-coder-v2:16b | RAG off | 31.2% | 31.2% | 53.2% | 77 | 770 | 10.0 | ilyasov, rtllm |
| codellama:13b | RAG off | 27.3% | 27.3% | 28.6% | 77 | 1540 | 20.0 | ilyasov, rtllm |
| codellama:13b | RAG on | 23.4% | 23.4% | 41.6% | 77 | 770 | 10.0 | ilyasov, rtllm |
| codegemma:7b | RAG on | 15.6% | 15.6% | 40.3% | 77 | 770 | 10.0 | ilyasov, rtllm |
| qwen3-coder:30b | RAG off | 7.8% | 7.8% | 29.9% | 77 | 770 | 10.0 | ilyasov, rtllm |
| qwen2.5-coder:14b | RAG off | 1.3% | 1.3% | 2.6% | 77 | 770 | 10.0 | ilyasov, rtllm |
| qwen2.5-coder:14b | RAG on | 1.3% | 1.3% | 2.6% | 77 | 770 | 10.0 | ilyasov, rtllm |
Приближённая сложность задачи по всем модельным профилям. Метрика: final_success_samples / samples_total. Чем ниже доля, тем задача тяжелее.
| Metric | Что означает |
|---|---|
extract_pass_at_k | На какой доле задач модель хотя бы раз выдала извлекаемый Verilog. |
syntax_pass_at_k | На какой доле задач модель хотя бы раз дала синтаксически корректный код. |
functional_pass_at_k | На какой доле задач модель хотя бы один раз прошла functional-проверку. |
synth_pass_at_k | На какой доле задач модель хотя бы один раз сгенерировала синтезируемый RTL. Это главный рейтинг. |
final_success_at_k | На какой доле задач модель хотя бы раз полностью прошла всю цепочку. |
functional_pass_rate_samples | Какой процент всех sample проходит functional. Это уже показатель стабильности, а не просто “хотя бы один успех”. |
synth_pass_rate_samples | Какой процент всех sample проходит synthesis. Показывает устойчивость модели на уровне отдельных попыток. |
samples_per_task | Среднее число sample на одну задачу в этом профиле модели. |
final_success_samples | Сколько sample конкретной задачи полностью прошли всю цепочку проверки. |
final_success_rate_samples | Доля полностью успешных sample для конкретной задачи. |