Отчёт по моделям

Главная страница кумулятивной оценки моделей. Здесь всё агрегируется по реальным sample, а не по отдельным run. Один профиль = одна модель + один режим RAG.

Профилей: 13 Уникальных задач: 76 Sample: 13433

Подробное описание всех задач

Qwen3 RAG collections comparison

Модели

Основной рейтинг строится по synth_pass_at_k, потому что нас в первую очередь интересует способность модели генерировать синтезируемый RTL.

Модель RAG synth_pass_at_k final_success_at_k functional_pass_at_k Задач Sample samples_per_task Бенчмарки
gpt-5.4-mini RAG on 63.6% 63.6% 66.2% 77 1752 22.75 ilyasov, rtllm
gpt-5.4-nano RAG off 54.5% 54.5% 54.5% 77 770 10.0 ilyasov, rtllm
qwen3-coder:30b RAG on 53.2% 53.2% 75.3% 77 2441 31.7 ilyasov, rtllm
gpt-5.4-nano RAG on 51.9% 51.9% 54.5% 77 770 10.0 ilyasov, rtllm
codegemma:7b RAG off 35.1% 35.1% 45.5% 77 770 10.0 ilyasov, rtllm
deepseek-coder-v2:16b RAG on 32.5% 32.5% 63.6% 77 770 10.0 ilyasov, rtllm
deepseek-coder-v2:16b RAG off 31.2% 31.2% 53.2% 77 770 10.0 ilyasov, rtllm
codellama:13b RAG off 27.3% 27.3% 28.6% 77 1540 20.0 ilyasov, rtllm
codellama:13b RAG on 23.4% 23.4% 41.6% 77 770 10.0 ilyasov, rtllm
codegemma:7b RAG on 15.6% 15.6% 40.3% 77 770 10.0 ilyasov, rtllm
qwen3-coder:30b RAG off 7.8% 7.8% 29.9% 77 770 10.0 ilyasov, rtllm
qwen2.5-coder:14b RAG off 1.3% 1.3% 2.6% 77 770 10.0 ilyasov, rtllm
qwen2.5-coder:14b RAG on 1.3% 1.3% 2.6% 77 770 10.0 ilyasov, rtllm

Сложность задач

Приближённая сложность задачи по всем модельным профилям. Метрика: final_success_samples / samples_total. Чем ниже доля, тем задача тяжелее.

CDV/coverage-driven verification исключен из RTL-срезов: это задача на генерацию тестовых последовательностей, а не Verilog RTL.

График сложности задач

Рейтинг моделей

Диаграмма ранжирует профили по synth_pass_at_k: доле задач, где модель хотя бы в одной попытке сгенерировала синтезируемый RTL. Рядом показано сравнение этапов functional_pass_at_k, synth_pass_at_k и final_success_at_k.

Рейтинг моделей по synth_pass_at_k
Сравнение этапов проверки моделей

Изменение метрик при включении RAG

Для моделей, у которых есть оба профиля, показана разница RAG on - RAG off в процентных пунктах. Цвета приведены к той же палитре, что и диаграммы сравнения профилей.

Изменение final_success_at_k и functional_pass_at_k при включении RAG

Типы задач по всем LLM

Агрегация по доменам для всех модельных профилей. Метрика: final_success_samples / samples_total. Это показывает, какие классы задач LLM в целом решают устойчиво, а где чаще возникают проблемы.

CDV/coverage-driven verification здесь не показан, потому что это отдельный класс задач на тестирование и coverage, а не генерация RTL-модуля.

Сейчас показана сводка по всем моделям и режимам.

Тип задач Что проверяет Задач Успех Диаграмма Лучший профиль Худший профиль Вывод
Преобразование формата данныхrtllm misc data conversion Задачи на преобразование представления данных. Например, параллельное слово нужно выдать по одному биту за такт, последовательные биты нужно собрать обратно в слово, или два 8-битных слова нужно объединить в одно 16-битное. Проверяются порядок битов и момент готовности результата. 3 0.0%
gpt-5.4-mini / RAG on (0.0%) gpt-5.4-mini / RAG on (0.0%) проблемный тип
Прикладная управляющая логикаrtllm misc control examples Прикладные управляющие автоматы, например календарь или светофор. Такие задачи проверяют длительные счетчики времени, переходы между режимами и реакцию на внешние события, например кнопку пешехода. 2 0.3%
gpt-5.4-nano / RAG off (5.0%) gpt-5.4-mini / RAG on (0.0%) проблемный тип
Детекторы событий и синхронизацияrtllm misc detection sync Задачи на обнаружение событий и синхронизацию сигналов. Нужно сформировать однотактный импульс при фронте сигнала, обнаружить короткий pulse или безопасно перенести сигнал между доменами. Основная сложность - не растянуть импульс и не потерять событие. 3 2.9%
codegemma:7b / RAG off (50.0%) gpt-5.4-mini / RAG on (0.0%) проблемный тип
Уточнение и восстановление спецификацииspec clarification Задачи на точное восстановление смысла спецификации. Требуется не просто написать счетчик или флаг, а правильно понять приоритеты одновременных событий: например, что важнее - очистка, инкремент или переполнение. Такие задачи проверяют, умеет ли модель внимательно читать условия и не додумывать поведение. 1 5.0%
gpt-5.4-mini / RAG on (23.1%) gpt-5.4-nano / RAG off (0.0%) проблемный тип
Защита от side-channel и constant-time логикаside channel constant time Задачи на защиту от побочных каналов. Нужно реализовать схему так, чтобы время выполнения не зависело от секретных данных. Например, сравнение или поиск должны занимать фиксированное число тактов, без раннего выхода при первом совпадении. Это важно, потому что по времени реакции атакующий может восстановить секрет. 2 5.3%
gpt-5.4-mini / RAG on (23.1%) gpt-5.4-nano / RAG on (0.0%) проблемный тип
Учет timing-ограниченийconstraint aware timing Задачи на RTL с ограничениями по задержкам и конвейеризации. Модель должна не только посчитать выражение, но и разложить вычисление по тактам, выдержать нужную задержку результата и правильно вести сигнал valid, который показывает, что выходные данные готовы. 1 11.2%
gpt-5.4-mini / RAG on (46.2%) gpt-5.4-nano / RAG on (0.0%) проблемный тип
Отказоустойчивость и safety-логикаfault tolerant safety Задачи на отказоустойчивую и safety-логику. Требуется не только хранить или считать данные, но и обнаруживать ошибки: например, через контрольные биты, дублированный счетчик или сравнение двух копий логики. Проверяется, умеет ли модель формировать сигнал ошибки и переводить схему в безопасное состояние. 2 15.4%
gpt-5.4-nano / RAG on (60.0%) codegemma:7b / RAG off (0.0%) проблемный тип
Переходы между reset-доменамиreset domain crossing Задачи про сбросы в разных тактовых доменах. Сброс может приходить асинхронно, а отпускаться должен синхронно с конкретным clock. Нужно правильно построить цепочки синхронизации и выдержать порядок снятия reset между несколькими доменами, чтобы схема не стартовала в неопределенном состоянии. 4 18.4%
gpt-5.4-mini / RAG on (80.8%) codegemma:7b / RAG off (0.0%) проблемный тип
DFT и тестопригодностьdft testability Задачи на проектирование логики, удобной для тестирования микросхемы после производства. DFT означает Design for Testability. Сюда входят scan-цепочки, JTAG-контроллеры и MBIST-обвязка памяти. Модель должна учитывать обычный режим работы и отдельный тестовый режим. 4 20.5%
gpt-5.4-nano / RAG off (67.5%) codegemma:7b / RAG off (0.0%) проблемный тип
Арифметические RTL-блокиrtllm arithmetic Арифметические RTL-блоки: сумматоры, вычитатели, компараторы, умножители, делители, fixed-point и floating-point операции. Проверяется точность разрядности, переносы, переполнение, знак числа и задержка результата в конвейерных вариантах. 19 21.0%
gpt-5.4-mini / RAG on (45.6%) qwen3-coder:30b / RAG off (0.0%) проблемный тип
Управляющая логика RTLrtllm control Управляющая логика: счетчики, кольцевые счетчики, счетчики Джонсона и конечные автоматы. Конечный автомат - это схема с набором состояний и правилами перехода между ними. Проверяется reset, переходы состояний и момент, когда выходной сигнал должен стать активным. 6 21.1%
codegemma:7b / RAG off (58.3%) qwen3-coder:30b / RAG off (0.0%) проблемный тип
CSR и регистровые картыcsr register map generation Задачи на генерацию блока управляющих и статусных регистров. CSR означает Control and Status Registers. Модель получает карту регистров в виде таблицы, JSON или YAML и должна реализовать доступ по APB или AXI-Lite: адреса, чтение, запись, маски и особые эффекты отдельных битов. 4 21.2%
gpt-5.4-nano / RAG on (80.0%) codegemma:7b / RAG off (0.0%) проблемный тип
Интеграция IP-блоковip integration Задачи на интеграцию готовых интерфейсов и преобразование протоколов. Нужно соединить разные блоки так, чтобы данные и управляющие сигналы передавались без потерь. Часто встречается valid/ready: valid означает, что источник выставил корректные данные, ready означает, что приемник готов их принять. 2 22.1%
gpt-5.4-mini / RAG on (61.5%) codegemma:7b / RAG off (0.0%) проблемный тип
Память и буферы RTLrtllm memory Блоки памяти и сдвига: FIFO, LIFO, сдвиговые регистры, barrel shifter и LFSR. FIFO - очередь первым вошел, первым вышел; LIFO - стек последним вошел, первым вышел. Проверяются указатели, признаки full/empty, циклический переход адресов и последовательное поведение по тактам. 5 22.6%
gpt-5.4-mini / RAG on (40.0%) qwen3-coder:30b / RAG off (0.0%) проблемный тип
Low-power designlow power design Задачи на энергосберегающую RTL-логику. Нужно учитывать домены питания, режим сна, удержание состояния и изоляцию сигналов, когда часть схемы выключена. Модель часто ошибается, если превращает такую задачу в обычный автомат без учета low-power требований. 2 22.9%
gpt-5.4-nano / RAG off (90.0%) codegemma:7b / RAG off (0.0%) проблемный тип
Процессорный datapathrtllm misc processor datapath Процессорные и вычислительные блоки: арифметико-логическое устройство, регистр инструкций и MAC/PE-блок. ALU выбирает операцию по коду команды, MAC выполняет умножение с накоплением. Проверяются коды операций, знаковость и регистровые задержки. 3 23.6%
gpt-5.4-mini / RAG on (33.3%) codellama:13b / RAG on (0.0%) проблемный тип
Память внутри miscellaneousrtllm misc memory primitives Простые блоки памяти внутри RTLLM miscellaneous: RAM и ROM. RAM допускает запись и чтение, ROM только чтение заранее заданных значений. Проверяются адресация, инициализация и синхронность доступа. 2 27.0%
gpt-5.4-mini / RAG on (50.0%) qwen3-coder:30b / RAG on (0.0%) проблемный тип
Chiplet / die-to-die интеграцияchiplet die to die integration Задачи на связь между chiplet-блоками, то есть отдельными кристаллами внутри одной системы. Нужно реализовать обертку интерфейса: wrapper - это слой, который преобразует внутренний формат данных в формат линии связи. Flit - небольшой пакет передачи; payload - полезные данные; control bits - служебные биты. Проверяется упаковка данных и корректный обмен valid/ready. 1 29.6%
gpt-5.4-mini / RAG on (100.0%) qwen3-coder:30b / RAG on (0.0%) проблемный тип
Clocking и генераторы сигналовrtllm misc clocking waveform Задачи на генерацию тактовых и периодических сигналов. Нужно построить счетчики, которые формируют деленную частоту, прямоугольный сигнал или треугольную форму. Важны коэффициент деления, длительность высокого/низкого уровня и корректный reset. 7 54.7%
codegemma:7b / RAG off (87.1%) qwen3-coder:30b / RAG off (0.0%) средняя сложность
Переходы между clock-доменамиclock domain crossing Задачи на передачу данных между разными тактовыми доменами. Тактовые домены могут быть асинхронны, поэтому нельзя напрямую пропускать многобитную шину через обычные триггеры. Обычно синхронизируют управляющий сигнал, а данные захватывают только когда известно, что они стабильны. 1 60.3%
gpt-5.4-mini / RAG on (100.0%) codellama:13b / RAG on (0.0%) средняя сложность
Поиск и исправление уязвимостейsecurity vulnerability detection Задачи на безопасность RTL. Нужно закрыть утечку секретных данных через отладочный выход или правильно разграничить доступ нескольких агентов к одному регистру. Проверяется, понимает ли модель не только функциональное хранение данных, но и security-требование. 2 71.8%
gpt-5.4-mini / RAG on (100.0%) qwen2.5-coder:14b / RAG off (10.0%) LLM решают устойчиво

Краткий ликбез по метрикам

Metric Что означает
extract_pass_at_kНа какой доле задач модель хотя бы раз выдала извлекаемый Verilog.
syntax_pass_at_kНа какой доле задач модель хотя бы раз дала синтаксически корректный код.
functional_pass_at_kНа какой доле задач модель хотя бы один раз прошла functional-проверку.
synth_pass_at_kНа какой доле задач модель хотя бы один раз сгенерировала синтезируемый RTL. Это главный рейтинг.
final_success_at_kНа какой доле задач модель хотя бы раз полностью прошла всю цепочку.
functional_pass_rate_samplesКакой процент всех sample проходит functional. Это уже показатель стабильности, а не просто “хотя бы один успех”.
synth_pass_rate_samplesКакой процент всех sample проходит synthesis. Показывает устойчивость модели на уровне отдельных попыток.
samples_per_taskСреднее число sample на одну задачу в этом профиле модели.
final_success_samplesСколько sample конкретной задачи полностью прошли всю цепочку проверки.
final_success_rate_samplesДоля полностью успешных sample для конкретной задачи.