ASIC Status
1. กรณี การ์ดทุกใบ ชิปขึ้น xxx ทั้งหมด
1.1 อาจเกิดจากไฟรั่วลงเคส ของตัวขุด หรืออาจ ต่อสายดิน ไว้ไม่ดี
วิธีทดสอบ ให้เอามัลติมิเตอร์ไปจิ้มไปที่ ตัวถัง และชั้นวางโลหะ ถ้ามีแรงดันไฟฟ้ามีมากกว่า 1V ก็แสดงว่า ไฟรั่วลงเคสตัวถัง
1.2 ขั้วสายแลน อาจแตะกับตัวเคส

วิธีทดสอบ ให้เอามัลติมิเตอร์จิ้มไปที่ Lan กับตัวถัง ถ้าแรงดันมากกว่า 1V ก็ใช่เลย ไฟจากแลน รั่วลง เคส
กรณีนี้ เราแก้ไขด้วยการ ถอดออกมา ประกอบใหม่ให้ดี อย่าให้ Control Board แตะกับตัวถัง(เคส) เพื่อป้องกันไฟรั่วลงเคส
2. กรณี ไม่ขึ้นข้อมูลขุดใดๆ
2.1 หา HashBoard ไม่เจอทั้งหมด
คำแนะนำ เริ่มต้น คือ ตรวจสอบ สาย IO เสียบดีหรือไม่ และ Update Firmware ให้เป็นเวอร์ชั่นล่าสุด
(Kernel Log อาจขึ้นเป็น ERROR_SOC_INIT)
2.2 กรอก URL ของ Pool ผิด หรือ ชื่อ User ผิด ASIC จะไม่เริ่มขุด
คำแนะนำ เอา Pool ที่กรอก ลองไป ทดสอบ Ping ในหน้า Network >> Diagnostics และตรวจสอบ User อีกครั้ง
2.3 พัดลมมีปัญหา
คำแนะนำ ก่อนที่เครื่องจะทำการขุด เครื่องจะทดสอบหลายอย่าง หากพบสิ่งผิดปกติ เครื่องจะไม่ทำงาน หนึ่งในนั้นคือ พัดลม หากเสียแค่ตัวเดียว บางรุ่นอาจไม่ทำงานทุกอย่างเลย ให้เข้าไปตรวจสอบใน Kernel Log อีกครั้ง เพื่อยืนยันว่า พัดลม Error จริงๆ
2.4 อุณหภูมิสูงเกินไป
คำแนะนำ เครื่องขุด ASIC รุ่นหลังๆ โปรแกรมจะถูกทดสอบว่า หากบอร์ดมีอุณหภูมิสูงเกินกว่า 85C จะเข้าโหมดป้องกันตัวเอง คือจะหยุดการทำงาน ต้องเข้าไปตรวจสอบ Kernel Log ขณะที่ ในคู่มือแนะนำให้วางเครื่องขุดในอุณหภูมิห้องไม่ควรเกิน 35C
เราแนะนำให้ ถอด Hash Board ออกมาเป่าฝุ่นบ้าง เพราะฝุ่นทำให้ การระบายความร้อนทำได้ไม่ดีเท่าที่ควร
2.5 PSU มีปัญหา
หากตรวจสอบความเรียบร้อยทั้งหมดแล้ว ยังไม่สามารถหาปัญหาได้ เราแนะนำให้ลองหา PSU มาเปลี่ยน ดูก่อน
Kernel Log
เราจะเรียงการตรวจสอบหลักๆ ของเครื่องไล่ไปทีละ Step ดังนี้
1. พัดลม
ถ้าโปรแกรม ตรวจสอบพัดลมไม่ผ่าน ไม่ว่าจะไม่หมุน หรือ หมุนแต่รอบพัดลมไม่ถึงที่กำหนด มันจะไม่ยอมตรวจสอบอย่างอื่นต่อ และจะไม่ทำงานใดๆ ดังนั้น หากเครื่องไม่ทำงาน ให้ตรวจสอบพัดลมก่อนอื่น (เฉพาะรุ่นหลังๆ)
วิธีทดสอบ ให้เอามัลติมิเตอร์ไปจิ้มไปที่ ตัวถัง และชั้นวางโลหะ ถ้ามีแรงดันไฟฟ้ามีมากกว่า 1V ก็แสดงว่า ไฟรั่วลงเคสตัวถัง
1.2 ขั้วสายแลน อาจแตะกับตัวเคส
วิธีทดสอบ ให้เอามัลติมิเตอร์จิ้มไปที่ Lan กับตัวถัง ถ้าแรงดันมากกว่า 1V ก็ใช่เลย ไฟจากแลน รั่วลง เคส
กรณีนี้ เราแก้ไขด้วยการ ถอดออกมา ประกอบใหม่ให้ดี อย่าให้ Control Board แตะกับตัวถัง(เคส) เพื่อป้องกันไฟรั่วลงเคส
2. กรณี ไม่ขึ้นข้อมูลขุดใดๆ
คำแนะนำ เริ่มต้น คือ ตรวจสอบ สาย IO เสียบดีหรือไม่ และ Update Firmware ให้เป็นเวอร์ชั่นล่าสุด
(Kernel Log อาจขึ้นเป็น ERROR_SOC_INIT)
2.2 กรอก URL ของ Pool ผิด หรือ ชื่อ User ผิด ASIC จะไม่เริ่มขุด
คำแนะนำ เอา Pool ที่กรอก ลองไป ทดสอบ Ping ในหน้า Network >> Diagnostics และตรวจสอบ User อีกครั้ง
2.3 พัดลมมีปัญหา
คำแนะนำ ก่อนที่เครื่องจะทำการขุด เครื่องจะทดสอบหลายอย่าง หากพบสิ่งผิดปกติ เครื่องจะไม่ทำงาน หนึ่งในนั้นคือ พัดลม หากเสียแค่ตัวเดียว บางรุ่นอาจไม่ทำงานทุกอย่างเลย ให้เข้าไปตรวจสอบใน Kernel Log อีกครั้ง เพื่อยืนยันว่า พัดลม Error จริงๆ
2.4 อุณหภูมิสูงเกินไป
คำแนะนำ เครื่องขุด ASIC รุ่นหลังๆ โปรแกรมจะถูกทดสอบว่า หากบอร์ดมีอุณหภูมิสูงเกินกว่า 85C จะเข้าโหมดป้องกันตัวเอง คือจะหยุดการทำงาน ต้องเข้าไปตรวจสอบ Kernel Log ขณะที่ ในคู่มือแนะนำให้วางเครื่องขุดในอุณหภูมิห้องไม่ควรเกิน 35C
เราแนะนำให้ ถอด Hash Board ออกมาเป่าฝุ่นบ้าง เพราะฝุ่นทำให้ การระบายความร้อนทำได้ไม่ดีเท่าที่ควร
2.5 PSU มีปัญหา
หากตรวจสอบความเรียบร้อยทั้งหมดแล้ว ยังไม่สามารถหาปัญหาได้ เราแนะนำให้ลองหา PSU มาเปลี่ยน ดูก่อน
Kernel Log
เราจะเรียงการตรวจสอบหลักๆ ของเครื่องไล่ไปทีละ Step ดังนี้
1. พัดลม
ถ้าโปรแกรม ตรวจสอบพัดลมไม่ผ่าน ไม่ว่าจะไม่หมุน หรือ หมุนแต่รอบพัดลมไม่ถึงที่กำหนด มันจะไม่ยอมตรวจสอบอย่างอื่นต่อ และจะไม่ทำงานใดๆ ดังนั้น หากเครื่องไม่ทำงาน ให้ตรวจสอบพัดลมก่อนอื่น (เฉพาะรุ่นหลังๆ)
จากรูปจะเห็นว่า แม้ว่า พัดลมหมุน แต่ไม่แรงพอก็ขึ้น error fan lost เช่นกัน
2. CRC_Error
------------------
3. EEPRom Error
กรณีนี้ ทาง Zeus ระบุว่า เกิดจาก Firmware ของ Control Board มีปัญหา แนะนำให้ Update Firmware ด้วย SD Card เท่านั้น

------------------
2021-10-09 20:35:25:driver-btm-api.c:2295:bitmain_basic_init: Fixture data load failed, exit.
2021-10-09 20:35:25:driver-btm-api.c:247:set_miner_status: ERROR_SOC_INIT
--------------------
ERROR_SOC_INIT ความหมายคือ Control Board ไม่ได้เชื่อมต่อกับ Hash Board อย่างเหมาะสม เราจะเริ่มต้นด้วยการเปลี่ยนสายแพร์ (ribbon data cable) ก่อน หรือเสียบสายให้แน่นมากขึ้นก่อนที่จะไปทำอย่างอื่น
--------------------
ERROR_SOC_INIT ความหมายคือ Control Board ไม่ได้เชื่อมต่อกับ Hash Board อย่างเหมาะสม เราจะเริ่มต้นด้วยการเปลี่ยนสายแพร์ (ribbon data cable) ก่อน หรือเสียบสายให้แน่นมากขึ้นก่อนที่จะไปทำอย่างอื่น
3. EEPRom Error
กรณีนี้ ทาง Zeus ระบุว่า เกิดจาก Firmware ของ Control Board มีปัญหา แนะนำให้ Update Firmware ด้วย SD Card เท่านั้น
4. ตจวจ PIC (EEPRom Error)
หลังตรวจพัดลม แล้ว มันจะเริ่มต้นการตรวจสอบ PIC Chip ของ Hash Board แต่ละใบ ว่า ถูกต้องหรือไม่
หากมีเครื่องขุดหลายเครื่อง เราแนะนำให้ซื้อ PIC KIT 3.5 (350 บาท) เก็บไว้ที่เหมืองเลยจะดีกว่า
5. จ่ายไฟถูกต้องหรือไม่
6. ตรวจเวอร์ชั่นของ CGMiner
มันจะตรวจสอบ CGMiner ว่า Version ถูกต้องหรือไม่ เพราะมันจะเป็นโปรแกรมที่ใช้ในการขุด เพื่อให้เป็นไปตามอัลกอริทึ่ม (บางคนจะล้อว่า มันตรวจเพื่อดูว่า จ่ายค่าธรรมเนียมการขุดถูกต้องหรือไม่) ถ้าไม่ถูกต้องให้ ลง Firmware และ PIC Rom ใหม่อีกครั้ง
7. ตรวจ HashBoard แต่ละใบเห็น ชิปกี่ตัว
ถึงตรงนี้ จะขึ้นอยู่กับรุ่นของ HashBoard ถ้าเจอชิปไม่ครบ โอกาสที่ชิปเสียจะเยอะมาก แนะนำให้ส่งให้ช่างซ่อม

กรณีนี้จะแยกเป็น 2 กรณี หลักๆ คือ 1. เห็นชิป 0 ตัว ให้ตรวจระบบไฟก่อน 2. เห็นชิปไม่ครบ ต้องตรวจดูอย่างละเอียดต่อไป
8. CRC Error ( ซ้ำรึกับข้างนหรือไม่ แต่ครั้งนี้ เขาว่าเป็นการตรวจ ความเสถียรของชิปแต่ละตัว)
ทำได้เพียง ลง Firmware ใหม่ และ เปลี่ยน PSU ไม่เช่นนั้นต้องส่งช่างซ่อม(มีโอกาสที่ต้องยกชิปเปลี่ยนชิปสูง)
- 8.1 ตรวจ Voltage (เฉพาะบางรุ่น) เป็นการตรวจ Voltage ของแต่ละโดเมน จุดนี้ จะทำให้เราสามารถสรุปประเด็นได้ดียิ่งขึ้นว่า จุดจ่ายไฟตรงไหนที่จ่ายไฟไม่คงที่อีกด้วย (อาจเป็นที่ LDO ของแต่ละโดเมนไม่ดี)

9. Net Error (เครือข่ายไม่เสถียร)
ตรวจสอบ เครือข่าย และอินเตอร์เน็ต ว่ายังใช้งานได้ดีหรือไม่
10. Temp error และ Network Error (ปกติมันจะตรวจพร้อมกัน)
กรณี Temp Error จะมี 2 กรณี คือ ชิป Temp Error หรือ อุณหภูมิสูงหรือต่ำเกินไปหรือไม่(แม้ว่าพัดลมจะทำงานแล้วก็ตาม)

ในกรณี ชิป Temp Error มักจะเกิดจาก การ์ดมัน Detect ไม่เจอชิป แต่ความจริงแล้วชิป Temp Sensor มันเสียค่อนข้างยาก แต่ส่วนใหญ่มันเกิดจาก ชิปตัวที่ 1 (U1) หรือชิปตัวสุดท้ายเสีย มากกว่า หรือ Power Supply จ่ายไฟ Under Voltage (ยิ่งต่ำกว่า 230V ยิ่งมีโอกาสเกิดสูง) อีกสาเหตุคือ การสลับ Hash Board ข้ามเครื่อง เพราะ Firmware บางเครื่องไม่สามารถอ่าน Temp Sensor บางรุ่นได้
กรณีนี้ จะเป็นกรณี Temp sensor fail ... ทาง Zeus เชื่อว่า เป็นเพราะจ่ายไฟไม่พอ (ปัจจุบันยังเป็นปริศนาว่า เกิดจากอะไร) แต่คนที่ทำสำเร็จแล้ว จะประมาณนี้
1. ลงเฟิมแวร์ใหม่ (อาจเป็นเพราะมันรองรับชิปก็ได้)
2. เปลี่ยน PSU หรือ ถอดออกมาทำความสะอาด
แต่ถ้าต้องเปลี่ยน T17 มี 4 ตัว อยู่ใกล้กับชิป 9, ชิป 7, ชิป 22, ชิป 24
ชิป Temp Sensor จะมี 2 รุ่นคือ NCT218 และ TMP451
NCT218 กินไฟ 1.4-2.75V
TMP451 กินไฟต่ำสุด 1.7V -3.6V

กรณี อุณหภูมิสูงเกินไป
กรณีนี้ แก้ไขด้วยการ ถอดฮีทซิงค์ ที่ใกล้ชิป ตัวที่มีปัญหาแล้วใส่ฮีทซิงค์กลับเข้าไปใหม่
อันหลัง ให้ตรวจสอบ ว่า ใส่ Pool ถูกต้องหรือไม่
ตรวจสอบไฟหน้าเครื่อง
1. ไฟเขียวกระพริบ ไฟแดงดับ ปกติ
2. ไฟแดงกระพริบ เน็ตถูกตัดการเชื่อมต่อ หรืออุณหภูมิสูงเกินไป
3. ไฟแดงติด การ์ด hash Board มีปัญหา
4. ไฟเขียวดับ ไฟแดงดับ พัดลมไม่ทำงาน
ปัญหาอื่นๆ
1. เครื่องรีสตาร์ทเอง บ่อยเกินไป
มีต้นเหตุหลายกรณี ตั้งแต่ อินเตอร์เน็ตล่ม ไฟแรงดันตก อุณหภูมิบอร์ดสูงเกินไป รวมถึงไฟรั่ว
2. ระหว่างอัพเกรด เฟิมแวร์ แล้วไฟดับ หรือเผลอไปปิดเครื่อง
ลองลงใหม่ด้วย SD Card ถ้าไม่ผ่านต้องส่ง Control Board ไปซ่อม หรือ ต้องซื้อใหม่
3. เปิดเครื่องแล้วไฟที่ Control Boaard ดับทุกดวง
แนะนำให้ ถอดการ์ดออกทุกใบ แล้วเปิดเฉพาะ Control Board ถ้ายังไม่มีไฟติด นั่นคือ มันกลับสู่สวรรค์แล้ว โชคดี
บทเรียน พื้นฐานการซ่อม ASIC (ทางทฤษฎี)
Fix ASIC 101 : บทที่ 1 การตรวจสอบ Kernel Log และ ASIC Status และการซ่อมด้วยตัวเอง
Fix ASIC 101 : บทที่ 2 ความรู้พื้นฐานเกี่ยวกับ Domain Voltage
Fix ASIC 101 : บทที่ 3 วิธีการใช้งาน PICKIT3.5
หลังตรวจพัดลม แล้ว มันจะเริ่มต้นการตรวจสอบ PIC Chip ของ Hash Board แต่ละใบ ว่า ถูกต้องหรือไม่
หากมีเครื่องขุดหลายเครื่อง เราแนะนำให้ซื้อ PIC KIT 3.5 (350 บาท) เก็บไว้ที่เหมืองเลยจะดีกว่า
5. จ่ายไฟถูกต้องหรือไม่
ตัวอย่างจากรูป จะเห็นว่า จ่ายไฟ การ์ดที่ 1 (Chain 0 ) ผิดพลาด S17+ ต้องจ่ายไฟระหว่าง 18-21V
คำแนะนำคือ ให้นำขั้วต่อต่างๆ มาขัด เนื่องจากกระแสไฟฟ้าเดินไม่สะดวก เพราะฝุ่นและสนิม (จากรูปด้านล่าง จะประมาณนั้น)

คำแนะนำคือ ให้นำขั้วต่อต่างๆ มาขัด เนื่องจากกระแสไฟฟ้าเดินไม่สะดวก เพราะฝุ่นและสนิม (จากรูปด้านล่าง จะประมาณนั้น)
6. ตรวจเวอร์ชั่นของ CGMiner
มันจะตรวจสอบ CGMiner ว่า Version ถูกต้องหรือไม่ เพราะมันจะเป็นโปรแกรมที่ใช้ในการขุด เพื่อให้เป็นไปตามอัลกอริทึ่ม (บางคนจะล้อว่า มันตรวจเพื่อดูว่า จ่ายค่าธรรมเนียมการขุดถูกต้องหรือไม่) ถ้าไม่ถูกต้องให้ ลง Firmware และ PIC Rom ใหม่อีกครั้ง
7. ตรวจ HashBoard แต่ละใบเห็น ชิปกี่ตัว
ถึงตรงนี้ จะขึ้นอยู่กับรุ่นของ HashBoard ถ้าเจอชิปไม่ครบ โอกาสที่ชิปเสียจะเยอะมาก แนะนำให้ส่งให้ช่างซ่อม
กรณีนี้จะแยกเป็น 2 กรณี หลักๆ คือ 1. เห็นชิป 0 ตัว ให้ตรวจระบบไฟก่อน 2. เห็นชิปไม่ครบ ต้องตรวจดูอย่างละเอียดต่อไป
8. CRC Error ( ซ้ำรึกับข้างนหรือไม่ แต่ครั้งนี้ เขาว่าเป็นการตรวจ ความเสถียรของชิปแต่ละตัว)
ทำได้เพียง ลง Firmware ใหม่ และ เปลี่ยน PSU ไม่เช่นนั้นต้องส่งช่างซ่อม(มีโอกาสที่ต้องยกชิปเปลี่ยนชิปสูง)
- 8.1 ตรวจ Voltage (เฉพาะบางรุ่น) เป็นการตรวจ Voltage ของแต่ละโดเมน จุดนี้ จะทำให้เราสามารถสรุปประเด็นได้ดียิ่งขึ้นว่า จุดจ่ายไฟตรงไหนที่จ่ายไฟไม่คงที่อีกด้วย (อาจเป็นที่ LDO ของแต่ละโดเมนไม่ดี)
9. Net Error (เครือข่ายไม่เสถียร)
ตรวจสอบ เครือข่าย และอินเตอร์เน็ต ว่ายังใช้งานได้ดีหรือไม่
10. Temp error และ Network Error (ปกติมันจะตรวจพร้อมกัน)
กรณี Temp Error จะมี 2 กรณี คือ ชิป Temp Error หรือ อุณหภูมิสูงหรือต่ำเกินไปหรือไม่(แม้ว่าพัดลมจะทำงานแล้วก็ตาม)
ในกรณี ชิป Temp Error มักจะเกิดจาก การ์ดมัน Detect ไม่เจอชิป แต่ความจริงแล้วชิป Temp Sensor มันเสียค่อนข้างยาก แต่ส่วนใหญ่มันเกิดจาก ชิปตัวที่ 1 (U1) หรือชิปตัวสุดท้ายเสีย มากกว่า หรือ Power Supply จ่ายไฟ Under Voltage (ยิ่งต่ำกว่า 230V ยิ่งมีโอกาสเกิดสูง) อีกสาเหตุคือ การสลับ Hash Board ข้ามเครื่อง เพราะ Firmware บางเครื่องไม่สามารถอ่าน Temp Sensor บางรุ่นได้
กรณีนี้ จะเป็นกรณี Temp sensor fail ... ทาง Zeus เชื่อว่า เป็นเพราะจ่ายไฟไม่พอ (ปัจจุบันยังเป็นปริศนาว่า เกิดจากอะไร) แต่คนที่ทำสำเร็จแล้ว จะประมาณนี้
1. ลงเฟิมแวร์ใหม่ (อาจเป็นเพราะมันรองรับชิปก็ได้)
2. เปลี่ยน PSU หรือ ถอดออกมาทำความสะอาด
แต่ถ้าต้องเปลี่ยน T17 มี 4 ตัว อยู่ใกล้กับชิป 9, ชิป 7, ชิป 22, ชิป 24
ชิป Temp Sensor จะมี 2 รุ่นคือ NCT218 และ TMP451
NCT218 กินไฟ 1.4-2.75V
TMP451 กินไฟต่ำสุด 1.7V -3.6V
กรณี อุณหภูมิสูงเกินไป
กรณีนี้ แก้ไขด้วยการ ถอดฮีทซิงค์ ที่ใกล้ชิป ตัวที่มีปัญหาแล้วใส่ฮีทซิงค์กลับเข้าไปใหม่
อันหลัง ให้ตรวจสอบ ว่า ใส่ Pool ถูกต้องหรือไม่
ตรวจสอบไฟหน้าเครื่อง
1. ไฟเขียวกระพริบ ไฟแดงดับ ปกติ
2. ไฟแดงกระพริบ เน็ตถูกตัดการเชื่อมต่อ หรืออุณหภูมิสูงเกินไป
3. ไฟแดงติด การ์ด hash Board มีปัญหา
4. ไฟเขียวดับ ไฟแดงดับ พัดลมไม่ทำงาน
ปัญหาอื่นๆ
1. เครื่องรีสตาร์ทเอง บ่อยเกินไป
มีต้นเหตุหลายกรณี ตั้งแต่ อินเตอร์เน็ตล่ม ไฟแรงดันตก อุณหภูมิบอร์ดสูงเกินไป รวมถึงไฟรั่ว
2. ระหว่างอัพเกรด เฟิมแวร์ แล้วไฟดับ หรือเผลอไปปิดเครื่อง
ลองลงใหม่ด้วย SD Card ถ้าไม่ผ่านต้องส่ง Control Board ไปซ่อม หรือ ต้องซื้อใหม่
3. เปิดเครื่องแล้วไฟที่ Control Boaard ดับทุกดวง
แนะนำให้ ถอดการ์ดออกทุกใบ แล้วเปิดเฉพาะ Control Board ถ้ายังไม่มีไฟติด นั่นคือ มันกลับสู่สวรรค์แล้ว โชคดี
บทเรียน พื้นฐานการซ่อม ASIC (ทางทฤษฎี)
Fix ASIC 101 : บทที่ 1 การตรวจสอบ Kernel Log และ ASIC Status และการซ่อมด้วยตัวเอง
Fix ASIC 101 : บทที่ 2 ความรู้พื้นฐานเกี่ยวกับ Domain Voltage
Fix ASIC 101 : บทที่ 3 วิธีการใช้งาน PICKIT3.5
ขอบคุณครับ
ตอบลบ