Отчёт по моделям

Главная страница кумулятивной оценки моделей. Здесь всё агрегируется по реальным sample, а не по отдельным run. Один профиль = одна модель + один режим RAG.

Профилей: 13 Уникальных задач: 77 Sample: 13433

Модели

Основной рейтинг строится по synth_pass_at_k, потому что нас в первую очередь интересует способность модели генерировать синтезируемый RTL.

Модель RAG synth_pass_at_k final_success_at_k functional_pass_at_k Задач Sample samples_per_task Бенчмарки
gpt-5.4-mini RAG on 63.6% 63.6% 66.2% 77 1752 22.75 ilyasov, rtllm
gpt-5.4-nano RAG off 54.5% 54.5% 54.5% 77 770 10.0 ilyasov, rtllm
qwen3-coder:30b RAG on 53.2% 53.2% 75.3% 77 2441 31.7 ilyasov, rtllm
gpt-5.4-nano RAG on 51.9% 51.9% 54.5% 77 770 10.0 ilyasov, rtllm
codegemma:7b RAG off 35.1% 35.1% 45.5% 77 770 10.0 ilyasov, rtllm
deepseek-coder-v2:16b RAG on 32.5% 32.5% 63.6% 77 770 10.0 ilyasov, rtllm
deepseek-coder-v2:16b RAG off 31.2% 31.2% 53.2% 77 770 10.0 ilyasov, rtllm
codellama:13b RAG off 27.3% 27.3% 28.6% 77 1540 20.0 ilyasov, rtllm
codellama:13b RAG on 23.4% 23.4% 41.6% 77 770 10.0 ilyasov, rtllm
codegemma:7b RAG on 15.6% 15.6% 40.3% 77 770 10.0 ilyasov, rtllm
qwen3-coder:30b RAG off 7.8% 7.8% 29.9% 77 770 10.0 ilyasov, rtllm
qwen2.5-coder:14b RAG off 1.3% 1.3% 2.6% 77 770 10.0 ilyasov, rtllm
qwen2.5-coder:14b RAG on 1.3% 1.3% 2.6% 77 770 10.0 ilyasov, rtllm

Сложность задач

Приближённая сложность задачи по всем модельным профилям. Метрика: final_success_samples / samples_total. Чем ниже доля, тем задача тяжелее.

График сложности задач

Краткий ликбез по метрикам

Metric Что означает
extract_pass_at_kНа какой доле задач модель хотя бы раз выдала извлекаемый Verilog.
syntax_pass_at_kНа какой доле задач модель хотя бы раз дала синтаксически корректный код.
functional_pass_at_kНа какой доле задач модель хотя бы один раз прошла functional-проверку.
synth_pass_at_kНа какой доле задач модель хотя бы один раз сгенерировала синтезируемый RTL. Это главный рейтинг.
final_success_at_kНа какой доле задач модель хотя бы раз полностью прошла всю цепочку.
functional_pass_rate_samplesКакой процент всех sample проходит functional. Это уже показатель стабильности, а не просто “хотя бы один успех”.
synth_pass_rate_samplesКакой процент всех sample проходит synthesis. Показывает устойчивость модели на уровне отдельных попыток.
samples_per_taskСреднее число sample на одну задачу в этом профиле модели.
final_success_samplesСколько sample конкретной задачи полностью прошли всю цепочку проверки.
final_success_rate_samplesДоля полностью успешных sample для конкретной задачи.