Обратился ко мне постоянный клиент с видеокартой Manli 2060 Super: мол собрал новый риг, а одна карта через несколько дней перестала работать: риг выключился и с ней не стартует.
И вроде бы есть гарантия, но карта из Китая и сроки будут космические, поэтому, в случае, если ремонт возможен - лучше починить и вернуть её в строй к своим коллегам копателям.
Чаще всего такое поведение связано с проблемами по питанию, поэтому без предварительных попыток запуска вскрываем карту и первым делом производим визуальный осмотр, а затем замеры.
На первом этапе диагностики в глаза сразу бросились несколько микросхем с явными повреждениями и прогарами:
U4 - стабилизатор на 5в, питает много чего на плате, в том числе шим контроллеры, логические элементы и разъемы HDMI, а судя по тому, что часть этих элементов также имеют следы повреждений - здесь явно побывали 12в с блока питания. И это печально.
U3 - один из самых "нежных" узлов на любой видеокарте - система питания видеопамяти и контроллера памяти в составе видеочипа. И его повреждения + незаметные на первый взгляд "дырки" в мосфетах верхнего плеча обеих фаз питания FBVDD могут быть сигналом к полной смерти видеокарты.
Но, сопротивление относительно земли по данной линии находится в пределах нормы, а мосфеты пробиты не сток-исток, а на затворы, что может стать позитивным моментом в жизни видеопамяти и ГПУ.
Сообщаю полученную информацию клиенту, в свою очередь, он связывается с поставщиком и даёт согласие на ремонт.
Далее, демонтаж явно умерших компонентов, устранение прогара (так как в этом месте имеется замыкание слоёв и дальнейшая диагностика невозможна)
Шим контроллер на данной плате используется типовой для многих карт, как AMD, так и nVidia - uP1666Q и как мы видим, пострадали с 17 по 20 выводы, они отвечают за питание самой микросхемы, управление затворами мосфетов нижнего плеча и выводы на фазы питания видеопамяти.
Далее продолжаем поиски деталей, которые садят линию 5 вольт, так как в норме сопротивление по ней должно быть более 1 килоома, а после демонтажа явных трупиков и устранения прогара - всё еще менее 100 ом. В этом деле помогает схема, т.к. плата имеет типовые обозначения элементов (плюс наличие шелкографии с маркировками), хоть и расположение отличается от имеющегося boardview.
После завершения поисков и возвращения сопротивления по 5 вольтовой линии к нормальным значениям, образовалась небольшая кучка неисправных элементов
По наличию у меня отсутствовал только U504 - uP9512R - шим контроллер питания ядра ГПУ, поэтому пришлось его заказать и подождать около недели. За это время я восстановил место прогара и запаял имеющиеся у меня компоненты
По приезду ожидаемой ШИМки и установки её на свое место, обнаружился еще один подгоревший резистор на разрешающий сигнал включения питания этой микросхемы, после замены которого и подключения карты к лабораторнику - поднялись все питания и все фазы запустились в нормальном режиме.
Время установки в тестовый стенд, проверяем инициализацию и вывод изображения:
Есть картинка, но это еще не повод для радости, ведь RTX 20XX имеют встроенный видеобуфер для вывода изображения и дают картинку даже со снятой видеопамятью.
Собираем и переходим к тестам памяти в MATS (часть программного комплекса MODS, находит явные ошибки по памяти и запускается на низкой частоте - 300мгц):
Как это ни прискорбно, у карты имеются ошибки на запись по двум каналам видеопамяти
Такой результат может быть либо из-за неисправных микросхем видеопамяти, либо из-за неисправного ГПУ, либо из-за проблем в их связи. Но т.к. у нас изначально были проблемы по питанию, то последний вариант крайне маловероятен и скорее тут первое или второе.
Чтож, клиента обрадовал, получил зеленый свет на дальнейшие манипуляции и приступил к замене чипов памяти в сбойных каналах.
После данной процедуры, тест MATS ошибок уже не выявил, но, к сожалению, на этом ремонт не завершился. Более ресурсоемкий тест MODS не запускался, вешая стенд с черным экраном, такое же поведение было при попытке запуска Windows и установке видеодрайвера.
Перепробовав десятки вариантов запуска MODS с различными тестами и настройками, максимум что получилось увидеть - попытка запуска с артефактами и последующим зависанием
Часть ремонтников утверждает, что артефакты в виде человечков - приговор ГПУ, но его приговорить никогда не поздно и я продолжил попытки выявления сбойной памяти.
И о чудо, при выводе изображения не с самой карты, а со встройки - в тесте MATS я таки увидел ошибки записи еще по 1 каналу:
Меняю еще 1 микросхему памяти и продолжаю диагностику (да-да, всё еще диагностику).
Кто не знает, MODS - достаточно гибкая утилита для тестирования видеокарт nVidia и имеет более 100 различных тестов и огромное количество вариантов запуска. Так вот, при достаточно легком тесте №3 на стандартной частоте ошибок выявлено не было, но на более ресурсоёмком тесте №94 проявились ошибки еще по 2 каналам памяти
Так это оставлять нельзя, ведь даже без разгона карта стабильно работать не будет (а её коллеги трудятся именно в разогнанном состоянии), поэтому меняю еще 2 чипа памяти.
И только после замены 5 чипов памяти карта начала проходить все тесты MODS на стандартной рабочей частоте памяти 7000мгц. И да, это всё еще не конец диагностики, потому что карта должна проходить все тесты на 8000мгц (именно с таким разгоном она будет трудиться в риге)
Переходим к тестированию на повышенных частотах:
И уже на 7200 - bad memory и посыпался канал С.
Ко всему вышеизложенному, есть большая вероятность, что после замены этих чипов и повышению частоты - последний не замененный банк памяти отличится своей нестабильностью. Поэтому буду менять все.
Заказываю память с небольшим запасом, т.к. на этом Samsung GDDR6 у меня закончилась (поток по картам у меня не очень большой и много деталей держать в наличии возможности нет).
Как и предполагалось, только замена всех 8 чипов памяти дала результат - карта проходит тесты без ошибок на 8000мгц (данная частота - сумма по 4м каналам, по факту каждый чип работает на частоте 2000мгц, в стоке - 1750).
Осталось собрать карту с нормальной термопастой (использую thermal grizzly hydronaut) и поставить на длительное тестирование.
И тут вскрывается дополнительная проблема - карта практически сразу после нагрузки начинает греться как сумасшедшая под 80 градусов, а по hotspot временами выходит за 105+.
Вскрываю еще раз и наблюдаю такую картину
Контакт системы охлаждения - хуже некуда. Я даже подумал что проблема в термопрокладках и попробовал собрать без них и даже убрал резиновые проставки, в которые должен упираться радиатор - результат 1 в 1. Решил проверить насколько радиатор ровный и всё встало на свои места
Правильно было бы заменить радиатор, но найти его будет проблематично + дополнительные расходы, а бюджет и так раздут до немыслимой суммы и вопрос в целесообразности ремонта стоит достаточно остро.
Можно попробовать выровнять радиатор, но опять же, идеально ровно не получится и пятно контакта будет не самым лучшим.
Временно можно компенсировать неровности бОльшим количеством термопасты, но потребуется внимательно следить за температурой и чаще менять термоинтерфейс, ведь термопаста не рассчитана на работу при больших зазорах - только заполнение микроскопических неровностей для замещения воздуха и обеспечения плотного контакта.
При временном решении и настройках под майнинг - температура по датчикам 62 градуса, что на 10 градусов выше, чем, например, у MSI Ventus 2060s (была относительно недавно в ремонте и система охлаждения там так себе)
Кому интересны настройки в хайве:
На данном этапе, ремонт самой видеокарты завершён (карта прошла все тесты и простояла в майнинге более 6 часов), но вопрос с системой охлаждения пока остался открыт, т.к. клиент в отпуске и вернется только через 2 недели.
По стоимости ремонта: изначально ремонт системы питания был согласован 6-8 т.р. и вышло по максимальной планке. Плюс замена памяти: б.у. чипы Samsung 8 шт по 1300 р = 10400 + замена 3000р (обычно беру 6000, но т.к. постоянный клиент и незапланированные траты - сделал скидку 50%). Итого - 21400р.
И еще месяц - два назад, для RTX2060s ремонт на такую сумму был бы скорее всего рентабелен, но в данный момент, у того же поставщика, где она покупалась - новая с Китая дороже всего на 2200 р.. Как говорится, выводы каждый для себя сделает сам)
За сим откланиваюсь, спасибо всем кто прочитал до конца)
Алексей, г. Казань
Моя группа ВК - https://vk.com/notebook116