วันศุกร์ที่ 28 มกราคม พ.ศ. 2565

Fix ASIC102 : ซ่อม T17e

 T17e

Download
คู่มือภาษาอังกฤษ  file Hex

ปัญหาประจำรุ่น Series 17
เนื่องจาก การบัดกรีและกาวยึดติดซิงค์ที่ไม่ดี ส่งผลให้ฮีตซิงก์คลายตัว และส่งผลต่อ ไฟฟ้าลัดวงจร ชิปไหม้ และ แฮชบอร์ดล้มเหลว

ผู้เชี่ยวชาญชี้ว่า ชิปมีโอกาสถูกเบิร์น จาก ตะกั่วที่ไม่ได้คุณภาพสูงมาก อย่างไรก็ดีการยกชิป และวางชิป แม้จะเป็นการซ่อมที่ดี แต่มันก็มีค่าใช้จ่ายสูงมาก

อีกประเด็นคือ การสลับการ์ด  เครื่องแต่ละเครื่องนั้น ไม่ควรสลับการ์ดกับเครื่องอื่น แต่หากจำเป็น ก็สามารถแฟลชเฟิมแวร์ก็ช่วยเรื่องนี้ได้

แต่ปัญหาที่แท้จริง  ดังนั้น Series 17 ทั้งหมดมีการแปลงไปใช้ ซิงค์แบบของรุ่น S19 (อันนี้ต้องทำที่จีน เพราะมีการถอดซิงค์ ถอดชิป เจาะรู  แล้วประกอบใหม่ ซึ่งมีค่าใช้จ่ายที่แพงมาก แต่ได้ประสิทธิภาพที่ดีที่สุด


Control Board 
รุ่น T17e จะใช้ Control Board ตัวเดียวกับ S17+ , T17+, S17e และ T17e แต่มันจะใช้ไม่ได้กับ S17 , S17 Pro และ T17 (T17 ไม่มี Pro) นอกจากนี้ Power Suppy  ก็แยกกันเช่นกัน กลุ่มแรกจะใช้รุ่น APW9+ กลุ่มหลังจะใช้รุ่น APW9 (ห้ามใช้สลับกันเด็ดขาด)

ปัญหาที่ Control Board

กรณี  เปิดแล้วไม่ทำงานเลย

กรณีที่ 1   ถ้าพัดลมไม่ทำงานเลยสักตัว นั่นคือ PSU ไม่ทำงาน หรือไม่จ่ายไฟ (ให้ชัวร์ให้ใช้มัลติมิเตอร์ตรวจที่ฝั่ง PSU เลย) แบบนี้ แก้ไขได้โดย การเปลี่ยน Power แล้วลองอีกครั้ง

กรณีที่ 2
  เปิดแล้ว พัดลมไม่ทำงาน เช่นกัน  หรือ พัดลมทำงาน แต่ระบบไม่ขุด  กรณีนี้ ให้ลองเข้า Kernel Log แล้วลองหาคำว่า fan_speed =0 (มี 4 ตัวต้องเจอทั้งหมด) ถ้า Detect พัดลมไม่เจอ มันจะไม่เริ่มตรวจชิป แก้ไขด้วยการเปลี่ยนพัดลม ตอนแกะเครื่องระวังอย่าให้น๊อต หรือ ไขควง ตกลงไปกระแทบ Control Board ไม่งั้น อาจเสียหายได้

กรณีที่ 3 พัดลมทำงานแล้ว แต่ไฟ Control Board กลับไม่มีไฟ เกิดได้ 2 กรณี คือ 
อย่างแรก CPU เสีย (ไม่คุ้มที่จะซ่อม)ให้เปลี่ยน Control Board 
อย่างที่สองคือ คือ สาย Power 6 Pin หรือ สายสัญญาณ (ระหว่าง Control Board กับ PSU ) อาจขาดใน (แนะนำให้หามาเปลี่ยนให้เรียบร้อยก่อน)  ถ้าเปลี่ยนแล้วยังเหมือนเดิม ให้เดาก่อนเลยว่า CPU เสีย

Hashboard  T17e
ภาพรวม

1 บอร์ด จะมี ชิป BM1396AB  ทั้งหมด 78 ตัว โดยมี 13 Voltage Domain โดเมนละ 6 ตัว  

ประเด็นที่แตกต่างกันในแต่ละการ์ด คือ  (ดูได้ใน Kernel Log) 
1. temp sensor จะมี 2 รุ่น คือ  NCT218 และ  TMP451
2. ตัวชิป แม้จะเป็น BM1396AB แต่การ์ดกลับระบุต่างกันคือ A3V1 (ตัวแรกจะกินไฟที่ 18V) กับ A4V4 (ตัวหลังส่วนใหญ่จะต้องจ่ายไฟที่ 18.40V มันเป็นประเด็นคือ มันใช้แรงดันไฟเยอะกว่า นั่นเอง) 



ระบบไฟรวมดังนี้
ไฟเข้าที่ DC Socket ( สายลบ - จะอยู่ติดกับ IO port    ส่วนสายบวก + แรงดันไฟจะต้องจ่ายมาที่ 18-21Volts)

Mosfet 
ไฟจะวิ่งมารอที่ Mosfet เพื่อรอ สัญญาณ en เพื่อเปิดสะพานไฟ (วัดช๊อต ตามรูปด้านล่าง)

ระบบไฟ เริ่มต้นจาก 18-.21V  จ่ายไฟแยกเป็น 2 สาย ดังนี้
1. DC-DC ปกติจะจ่ายไฟให้ ออกที่ 21V แยกไป 13 Domain  (18V/13) จะได้โดเมนละ 1.35-1.4 V

จิ้มคล่อมซิงค์ได้เลย ขณะที่ตรวจโดเมนแรกกับสุดท้าย จะต้องได้ 17.35-21V  โดยแรงดันไฟฟ้าแต่ละ Domain ต้องต่างกันไม่เกิน 0.2Volt หากต่างกันเกิน แสดงว่า โดเมนที่ต่างนั้นมีโอกาสเจอชิปเสีย 

2. Booster ไฟเข้าที่ 21V ออก 24.5V  เพื่อแจกไป 2 Domain สุดท้าย 


ไฟสำหรับ T17e จะเข้าที่ 18- 21 Volt ไฟระหว่าง Domain คือ 1.35-1.4 V (จิ้มคล่อมซิงค์ได้เลย ขณะที่ตรวจโดเมนแรกกับสุดท้าย จะต้องได้ 17.35-21V  โดยแรงดันไฟฟ้าแต่ละ Domain ต้องต่างกันไม่เกิน 0.2Volt หากต่างกันเกิน แสดงว่า โดเมนที่ต่าง มีโอกาสเจอชิปเสีย

LDO สำหรับ T17e จะใช้ LDO 2 ตัว ต่อ 1 Domain เพื่อจ่ายไฟ 1.8V กับ 0.8V (ขณะที่ L3+ใช้ R แบ่ง แต่ T17e จะใช้ LDO แยกจ่ายไฟไปเลย)

LDO ตัวแรก U131 มี 9 ขา MP2019 รับไฟจาก Booster 2.4V ที่ขา 1 และออกที่ขา 4 1.8V


กรณี ตรวจพบ  0 ASIC (ระบบจ่ายไฟน่าจะมีปัญหา) 
1. ตรวจสอบตรงที่ วงกลม ตามรูป ว่า ไฟเข้าหรือไม่
R55  10K               C44  110nF 50V
R56  270                
C30  22nF 50V


2. ตรวจสอบ Mosfet 4 ตัว (Q1 Q2 Q3 Q4)
Mosfet 4 ตัวรหัส TPHR9003NL (เสปคคือ เข้าไม่เกิน 30V (มันจะรับ 17-18V ออกไม่เกิน 20V (ออก 17-18V เช่นกัน)

โดยเฉพาะ การวัดว่ามันช๊อตรึเปล่า ค่าแรงต้านทาน ของขา 1 4 8  มันจะแยกจ่ายไปแต่ละโดเมน ว่าจ่ายไฟออกถูกต้องหรือไม่  (17-18V) ถ้ามาถึงตรงนี้ แสดงว่า มันจ่ายไฟไปแต่ละโดเมน และ Booster ได้แล้ว

กรณี Mosfet ไม่จ่ายไฟ
3. ตรวจสอบ PIC Chip (U3 , PIC16F1704-1)
ขา 1 รับไฟเข้า 3.3V
ขา 2 ขา en รับไฟเข้า 3.3V เช่นกัน (ถ้าไม่มี แสดงว่า ไม่มีสัญญาณสั่งให้ทำงาน)

ถ้าไฟ Mosfet ไม่จ่ายออก ให้กลับมาดู ว่า ขา en ของ pic ทำงานรึเปล่าด้วย ถ้าไม่ทำ ให้แฟลชไบออสใหม่

โดยในโปรแกรม PicKit ก็ให้เลือก Power>> Power Taget Curcuit from tools 
ส่วน Operate >>  Chip >> PIC16F1704 

4. ตรวจสอบวงจร Booster 

ไฟเข้า 17-21V  ออก 24.5V  เพื่อไปจ่ายไฟให้ 2 โดเมนสุดท้าย โดยให้ตรวจสอบ D5/D8 (หาไม่เจอ อยู่ตรงไหน) ในวงจร

ชิปดำ 16 ขา  U6 คือ ชิป MP1517DRQFN-16   25V 3a 
ส่วน   Diode  D4 คือ ชิป MBR0540 เป็น Diode  40V 0.5a
สิ่งสำคัญคือ  R61 300k (Rfb), R60 10k  R62 20K  C62 10nF/50V และ  R64 15k(Rfb)

หลักๆ จะจ่ายไฟไปที่ 1.8V 



5. ตรวจสอบ LDO ของแต่ละ Domain
LDO แบบ 8 ขา U131 MP2019GN     ไฟเข้า  2.4V (กระจายกันเข้า) แต่จะมีไฟออกที่ขา 1  1.8V
LDO แบบ  6 ขา U112 U113  SY812G (ไฟเข้าขา 5 ) ออก ขา 1 แรงดัน  1.8V เพื่อจ่ายไปให้ LDO 5 พินตัวถัดไป
LDO แบบ 5 ขา U25 U26 U27 U8 U9 SGM2036  ไฟเข้าขา1 2V    ไฟออกที่ขา5 0.8 V
R1003 or
R

ชิป 8 ขา

 ชิป 5 ขา เข้า 3-4.5V ออก0.8V

 ชิป 5 ขา เข้า ??V  ออก0.8V


(ถ้าไฟไปไม่ถึงชิป ไม่ว่าจะ 1.8 หรือ 0.8V มันจะไม่มีสัญญาณ  CO CLK
โดยสามารถวัดแรงดันไฟที่ส่งให้ชิปแต่ละตัวได้ตามรูป ด้านล่าง
    

6. กรณี เกิดปัญหาที่ Temp Sensor 
ต้องตรวจสอบ การเดินไฟ และ ตะกั่ววางชิป ให้ดี

7. ตรวจสอบภาคสัญญาณ


ชิปดำๆ  2 ตัวเป็นตัวรับส่งสัญญาณ ของ CI และ RI ก่อนส่งผ่านให้ IO Port

1. CLK  เริ่มต้นจาก Oscilator 25M (Y1)  จากชิปตัวที่ 1-44 วัดค่าจะต้องได้ 0.7-0.9V
2. TX สัญญาณเริ่มที่  ขาที่ 7 ของพอร์ต IO (3.3V) วิ่งไป แปลงสัญญาณที่ U2  (คนไทยเรียก buffer) แล้ววิ่งไปที่ ชิปตัวที่ 1-78  วัดตอนไม่ทำงานจะต้องได้ 0V เมื่อทำงานต้องได้ 1.8V
3. RX สัญญาณเริ่มที่  ชิปตัวที่ 78 -1 กลับไป  ขาที่ 8 ของ U1 (Buffer)  เมื่อไม่ได้เสียบ IO จะวัดได้ 0.3V เมื่อเสียบจะวัดได้ 1.8V
4. BO จะวิ่งจาก ชิปตัวที่ 1 ไปถึง ตัวที่ 44 วัดได้ 0V
5. RST จะวิ่งจาก IO วิ่งไปชิปตัวที่ 1-78 วัดได้ 1.8V

ดังนั้น ถ้าชิปตัวแรก บักกรีมาไม่ดี มันมีโอกาสที่จะโชว์ ASIC=0 ด้วย

แผงควบคุม
จะเกิดกรณี hashboard ทั้งหมดไม่ทำงาน 








และตรวจสอบค่า R รอบ พอร์ต



กรณี เห็นการ์ดบางใบ ASIC =0 
เมื่อ Kernel Log เริ่มทดสอบ จำนวนชิปของแต่ละบอร์ด 
(Chain 0 = บอร์ดที่ 1
Chain 1 = บอร์ดที่ 2
Chain 2 = บอร์ดที่ 3) 
เราแนะนำว่า ถ้ามีปัญหา 1-2 บอร์ด ให้ดึงบอร์ดที่ดีออกก่อน เผื่อว่า ไฟมันจ่ายไม่พอ ทำให้บอร์ดที่ดีกลายเป็นบอร์ดเสียไปได้

อีกกรณี คือ หา IP ไม่เจอ แยกเป็น 2 กรณี ย่อย
1. สายแลนไม่ดี  
2. CPU เสีย (ไม่คุ้มที่จะซ่อม) ให้เปลี่ยน Control Board ใหม่)

สุดท้ายคือ 
หายังมีปัญหา ให้ลง Firmware ใหม่(แนะนำให้ลง แบบ SD Card เพื่อล้าง Memory ไปในตัวเลย) 
แล้ว Setting เป็น Normal Mode (เพราะหากไปตั้งค่าเป็น Sleep Mode บางทีมันอาจไม่ทำงาน)

รายการอะไหล่ 
อะไหล่T17&S17
MP2019GN 65บาท                        LDO 8 ขา
SGM2036-ADJYN5G/TR 5 บาท   LDO 5 ขา
NCP1654BD65R2G  30บาท
-MP1517DR-LF-Z 70 บาท   ชิป  Boosetr
-Inductor 100 12 บาท
330uf 30V 10x12mm 30 บาท
-MBR0540 5 บาท            Diode Booster 
-2N7002 5 บาท
-MDU3603 18 บาท
-SN74LVC1T45DBVR 18บาท

-330uf 2V SMD cap. 22 บาท
Inductor 100&220 ตัวละ12
DS pic 33ep16 18206EV 75บาท

รวม Kernel Log 
thread.c:309:is_temp_reopen_core: current chip max temperature(86) is too high, >= 86
อุณหภูมิร้อนเกิน 85 C


check_adc_voltage: FAIL domain volt check: chain 1 domain 11 volt 0.000 less then request 0.800 (index 0)
มีปัญหาจ่ายไฟ การ์ดที่ 2 (Chain 1) โดเมนที่ 12 (เวลานับ มันนับ Domain 0 คือ Domain ที่  1 ดังนั้นถ้าเป็น Kernel Log ระบุเป็น Domain 11 ต้องเป็น โดเมนที่ 12 แต่ประเด็นคือ โดเมนที่ 12 -13 คือ 2 โดเมนสุดท้ายที่รับไฟจาก Booster นั่นคือ ไม่ LDO (LDO ก็มี 2ตัว) ก็ Booster เสียนั่นเอง 

-------------------------------
2022-02-17 16:48:50:auto_adapt.c:100:_get_board_info: chain[0] board bin: 1, chip bin: 4, chip ft: A3V1, chip version: AD
2022-02-17 16:48:50:auto_adapt.c:100:_get_board_info: chain[1] board bin: 1, chip bin: 4, chip ft: A3V1, chip version: AB
2022-02-17 16:48:50:auto_adapt.c:100:_get_board_info: chain[2] board bin: 1, chip bin: 3, chip ft: A4V4, chip version: AB
2022-02-17 16:48:50:driver-btm-api.c:2164:get_calibration_voltage: calibration voltage flag is error data.
2022-02-17 16:48:50:driver-btm-api.c:486:check_chain_conf_same: Config are different, min = 1760, max = 1840,  diff is too large.
2022-02-17 16:48:50:auto_adapt.c:273:is_sweep_failed_before: open sweep tag failed
2022-02-17 16:48:50:driver-btm-api.c:247:set_miner_status: ERROR_SOC_INIT
----------------------------
เคสนี้ เกิดจาก การ์ดแตกต่างกันมากเกินไป ทำให้ จ่ายไฟต่างกันมากเกินไป โดยเฉพาะการ์ด 3 (ที่เพิ่มเข้าไป) Chain 2 มันใช้ชิป A4V4 ต่างจาก 2 การ์ดแรกที่ไม่เสีย คือ A3V1 


การใช้ PSU ผิด เช่น ใช้ APW9 กับรุ่น S17e หรือ T17+
--------------------
power_api.c:245:power_init: power type version error
--------------------
power_api คือ การสื่อสารกับ PSU ที่ผิดพลาด นั่นคือ อาจใช้รุ่นผิด





 

ไม่มีความคิดเห็น:

แสดงความคิดเห็น