GPT-Chat может быть полезным и удобным источником информации, но если дело касается нежелательных для государства тем, то он откажется тебе помогать. Если нужна консультция по, например, изготовлению вхрывного устройства или требуется узнать, как лучше нелегально перейти границу, то ответа ты, скорее всего, не получишь. Так он запрограммирован. Иногда этот блок удается обойти “вручную”, формулируя задачу так, что чат начнет отвечать по существу. Но сейчас обход запрета удалось автоматизировать – на GitHub появился инструмент Heretic — который снимает цензуру с открытых языковых моделей вроде Qwen, GPT-OSS и Google Gemma
Принцип работы построен на технике под названием «аблитерация», описанной ещё в 2024 году.
Heretic прогоняет через модель «опасные» и «безопасные» запросы, сравнивает активации и вычисляет так называемое «направление отказа» — внутренний вектор, который заставляет модель отвечать «я не могу с этим помочь».
Затем он ортогонализует весовые матрицы слоёв так, чтобы подавить выражение этого направления, фактически вырезая механизм отказа из модели.
Главное отличие от прежних подобных решений — полная автоматизация.
Кроме того, Heretic совмещает аблитерацию с оптимизатором параметров, который одновременно минимизирует число отказов и KL-дивергенцию от исходной модели.
Иными словами, цензура снимается, а интеллект и качество ответов сохраняются почти без потерь.
Пользователю при этом не нужно понимать внутреннее устройство трансформеров — достаточно уметь запускать программу в командной строке.
На видеокарте RTX 3090 «расцензуривание» Llama-3.1-8B занимает около 45 минут, а поддержка квантизации через bitsandbytes резко снижает требования к видеопамяти.
На Gemma 3 12B Heretic довёл число отказов с 97 из 100 до 3 из 100 при KL-дивергенции всего 0,16 — примерно в шесть раз меньше «повреждения» модели, чем у популярных ручных аблитераций.
Инструмент распространяется с открытым исходным кодом и уже собрал более 20,5 тысяч звёзд и свыше 2 тысяч форков, попав в топ репозиториев дня на Github.
Сообщество уже опубликовало свыше 3000 моделей, обработанных этим инструментом.
Используйте во благо! Напоминаем, что при работе с любыми поисковыми системами и системами ИИ в том числе, необходимо обеспечить свою полную анонимность. Используйте средства анонимизации, чистую операционную систему и каждый запрос начинайте с “чистого листа”
источник тг-канал Черный треугольник






