Προς το περιεχόμενο

Linux Mint 20.2 και boot errors [solved]


Προτεινόμενες αναρτήσεις

Δημοσ. (επεξεργασμένο)

Καλησπέρα,

Εχω απενεργοποιήσει το splash και βλέπω την πορεία του boot οταν φορτώνει το λογισμικό.

Τελευταία παρατηρώ τα παρακάτω χωρίς ομως να βλέπω κάτι να εχει πάθει το λειτουργικό.

Ωστόσο σκέφτομαι οτι εχει γίνει ποιο αργό το boot

Αναφορά σε κείμενο

petros@mint:~$ dmesg | grep error
[   13.211155] EXT4-fs (sdc1): re-mounted. Opts: errors=remount-ro
[   28.444698] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   28.445615] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[   64.619346] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   64.619466] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[  512.684318] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[  512.684340] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[  518.684244] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[  518.684252] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000

Edit: Συμφωνα με ψαξιμο διαβασα οτι :

Αναφορά σε κείμενο

It's not an error, it just tells you that the partition /dev/sda1 has been remounted with the mount option errors=remount-ro. It's nothing you need to worry about. It may happen e.g. during a normal system startup if /dev/sda1 is your root partition.

(εμενα ειναι το /sdc1)

The mount option means that the system should mount the partition read-only if an error occurs to minimize further damage or data loss and is used by default.

Μενει να ψαξω λιγο τα errοrs που εχει απο κατω

Επεξ/σία από Petros Electron
Δημοσ.

Καλησπέρα. Δυστυχώς εγώ δεν γνωρίζω γιατί σου βγάζει αυτά τα λάθη. Και σε μένα στην αρχή του boot μου εμφανίζει ACPI Errors αλλά μετά το λειτουργικό τρέχει κανονικά, αν και παρατηρώ τελευταία ότι ο σκληρός δίσκος μόλις έχει φορτώσει το λειτουργικό διαβάζει στην αρχή για κάμποση ώρα. Μιλάω για το Linux Mint 20.2 Cinnamon σε Toshiba λάπτοπ.

Δημοσ.
29 λεπτά πριν, cvb~ είπε

Καλησπέρα. Δυστυχώς εγώ δεν γνωρίζω γιατί σου βγάζει αυτά τα λάθη. Και σε μένα στην αρχή του boot μου εμφανίζει ACPI Errors αλλά μετά το λειτουργικό τρέχει κανονικά, αν και παρατηρώ τελευταία ότι ο σκληρός δίσκος μόλις έχει φορτώσει το λειτουργικό διαβάζει στην αρχή για κάμποση ώρα. Μιλάω για το Linux Mint 20.2 Cinnamon σε Toshiba λάπτοπ.

καλησπερα,

Ψάχνοντας βαθύτερα ειδα οτι αν κανεις edit to grub και προσθέσεις το

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"

τοτε θα εχεις no pci advanced error reporting συνεπώς και δεν θα εχεις τα σφαλματα (η δεν θα εμφανιζονται).

Αυτο ειναι και καλο , αλλα και κακο ισως, γιατι δεν θα βρεις την πραγματική αιτια. Καλο γιατι μπορεί να μην ειναι κάποιο υπαρκτό πρόβλημα εφόσον το λειτουργικό σου λειτουργεί σωστά.

Επίσης σε οτι άφορα έμενα, το σφάλμα μπορεί να ειναι απο την καρτα γραφικών nvidia geforce gtx 950m. Υπάρχει ενα update το 470, εγω εχω το  x-org video noveau αλλα δεν θελω να το κάνω γιατι το 470 μου εκανε προβλήματα στο logging screen. Το ψάχνω και θα επανέλθω.

 

Δημοσ. (επεξεργασμένο)

κρυβει τα errors αυτο που εκανες

nvme ειναι ο δισκος? γιατι βλεπω ειναι πανω σε pcie lane

sudo tune2fs -c 1 /dev/sdc1

επανεκκινηση γιατι δεν μπορεις να κανεις repair σε mounted partition (υποθετω ειναι το mint σου), ουσιαστικα αλλαζει τον ανα 30 μερες αυτοματο ελεγχο του δισκου σε 1

κατα το μπουτ θα προσεξεις το prompt και θα κανεις repair κλπ

μετα

sudo tune2fs -c 30 /dev/sdc1

 

edit παιζει να λεω κ βλακειες κ να ειναι οντως ταχαμου errors μεταβασης σε χαμηλοτερο power state ,αυτο που εκανες πρεπει να ειναι οκ

Επεξ/σία από Neural_handshake
  • Thanks 1
Δημοσ.
19 λεπτά πριν, Neural_handshake είπε

κρυβει τα errors αυτο που εκανες

nvme ειναι ο δισκος? γιατι βλεπω ειναι πανω σε pcie lane

sudo tune2fs -c 1 /dev/sdc1

επανεκκινηση γιατι δεν μπορεις να κανεις repair σε mounted partition (υποθετω ειναι το mint σου), ουσιαστικα αλλαζει τον ανα 30 μερες αυτοματο ελεγχο του δισκου σε 1

κατα το μπουτ θα προσεξεις το prompt και θα κανεις repair κλπ

μετα

sudo tune2fs -c 30 /dev/sdc1

 

edit παιζει να λεω κ βλακειες κ να ειναι οντως ταχαμου errors μεταβασης σε χαμηλοτερο power state ,αυτο που εκανες πρεπει να ειναι οκ

Καλησπερα οχι, ειναι μηχανικος σε USB 3.0 εξωτερικο case. μπορει να ειναι και καποιο σφαλμα στον δισκο αλλα στην αρχη δεν το ειχα και απο το hdsentinel τα βλεπω ολα καλως. Θα παω σε SSD συντομα και θα δω απο εκει πλεον αν ηταν αυτο.

Εχω δυο δίσκους στο λαπτοπ. Εναν Nvme και εναν 2.5 μηχανικό. Οπως ειπα το mint το τρέχω απο εξ/κο USB 3.0. Το UEFI boot ειναι στον SSD (dual boot).

Μετα απο update του kernel (δεν ξερω αν παιζει ρολο) και trim του Nvme μεσω (win10, δευτερο λειτουργικό) εχω :

Αναφορά σε κείμενο

petros@mint:~$ dmesg | grep error
[   14.261132] EXT4-fs (sdc1): re-mounted. Opts: errors=remount-ro
[   80.982363] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   80.982484] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00000000

Δηλαδη κάποια error δεν ξαναβγήκαν. Τελος πάντων επειδή οσο το ψαχνω και ενδεχομένως να το crush-αρω στο τελος θα το αφήσω ετσι προς το παρον αφου δεν βλέπω καποιο προβλημα στην λειτουργία του και θα επανέλθω με την νεα ssd εγ/ση οπου θα γίνει με clone disk.

  • Like 1
Δημοσ.

Κλείνω το θέμα γιατι πιστεύω οτι δεν υπάρχει καποιο θέμα.

Την μια τα error βγαίνουν την άλλη με ενα reboot οχι. Χωρις να κανω καποια πχ αλλαγη σε κατι.

Το hardware δεν εχει θεμα, εχω δοκιμασει με διαγνωστικά τα πάντα. Θεωρώ οτι ειναι bug του Mint. Όποτε

GRUB_CMDLINE_LINUX_DEFAULT="pci=noaer" και output μετά απο reboot ;

Αναφορά σε κείμενο

petros@mint:~$ dmesg | grep error
[   14.034765] EXT4-fs (sdc1): re-mounted. Opts: errors=remount-ro

βελτίωση επίσης του boot (σε time).

Δημοσ. (επεξεργασμένο)

ξερεις τι ,απλα το linux ειναι διαφανο ,δεν σου κρυβει πραγματα ,αντιθετα με τα win κ ios που προσπαθουν υπερβολικα πολυ να μην αναστατωνουν κρυβοντας τα παντα κατω απο το χαλι μεχρι που σου σκανε με blue screens κλπ

στα γρηγορα που ντακντακαρα :p χθες ειδα στο arch forum παρομοια errors κ ειχε να κανει με την vga που εσκαγε ταχαμου errors επειδη εμπαινε σε καποιο power state, για αυτο κ το pcie αφου δεν εχεις nvme

μην κανεις hide τα errors του δισκου γενικως ,επισης η αλλαγη που εκανες στο /etc/fstab ειναι σε περιπτωση σφαλματων να σου κανει mount το λειτουργικο σε read only πραγμα που δεν θες

αν ο δισκος ειναι του linux κανε sudo tune2fs -c 1 /dev/sdc1 ,επανεκκινηση κ μετα ξανα sudo tune2fs -c 30 /dev/sdc1

βασικα τα καλυτερα wiki θα τα βρεις στο arch εκει διαβαζε γιατι πολλα συμπιπτουν με το mint k γενικοτερα στα distros

κ μια συμβουλη ξερω ολα τωρα στην αρχη σου φαινονται εξωγηινα κ υπερβολικα ,σε λιγο θα ξερεις τα βασικα κ πως να ψαχνεις κ θα κανεις ενα συστημα στα μετρα σου

edit επισης οταν κανεις αλλαγη στον grub πρεπει να τον κανεις update για να δημιουργησει ξανα τις καταχωρησεις του

https://itsfoss.com/update-grub/

Επεξ/σία από Neural_handshake
  • Like 1
Δημοσ. (επεξεργασμένο)

Ευχαριστω για την απαντηση

25 λεπτά πριν, Neural_handshake είπε

ξερεις τι ,απλα το linux ειναι διαφανο ,δεν σου κρυβει πραγματα ,αντιθετα με τα win κ ios που προσπαθουν υπερβολικα πολυ να μην αναστατωνουν κρυβοντας τα παντα κατω απο το χαλι μεχρι που σου σκανε με blue screens κλπ

στα γρηγορα που ντακντακαρα 😛 χθες ειδα στο arch forum παρομοια errors κ ειχε να κανει με την vga που εσκαγε ταχαμου errors επειδη έμπαινε σε καποιο power state, για αυτο κ το pcie αφου δεν εχεις nvme

μην κανεις hide τα errors του δισκου γενικως ,επισης η αλλαγη που εκανες στο /etc/fstab ειναι σε περιπτωση σφαλματων να σου κανει mount το λειτουργικο σε read only πραγμα που δεν θες

αν ο δισκος ειναι του linux κανε sudo tune2fs -c 1 /dev/sdc1 ,επανεκκινηση κ μετα ξανα sudo tune2fs -c 30 /dev/sdc1

βασικα τα καλυτερα wiki θα τα βρεις στο arch εκει διαβαζε γιατι πολλα συμπιπτουν με το mint k γενικοτερα στα distros

κ μια συμβουλη ξερω ολα τωρα στην αρχη σου φαινονται εξωγηινα κ υπερβολικα ,σε λιγο θα ξερεις τα βασικα κ πως να ψαχνεις κ θα κανεις ενα συστημα στα μετρα σου

edit επισης οταν κανεις αλλαγη στον grub πρεπει να τον κανεις update για να δημιουργησει ξανα τις καταχωρησεις του

https://itsfoss.com/update-grub/

Eυχαριστω για την απάντηση. Το linux ναι μεν ειναι διάφανο οπως λες , αλλα δεν λείπουν και τα errors και τα bugs. Κανένα λειτουργικό δεν ειναι "τελειο" αλλιώς δεν θα βγαίναν τα updates, κτλπ.

Φυσικά και εγινε update το grub, (sudo update-grub) ειναι αυτονόητο μετα απο καθε αλλαγη του grub (για αυτο δεν το ανέφερα). Καλο που το αναφέρεις για κάποιον που ενδεχομένως δεν ξερει και διαβαζει το νημα.

 Eιμαι στην διαδικασία (οπως έγραψα και παραπάνω) να αλλάξω δίσκο σε ssd μετα θα ενεργοποιήσω παλι τον ελεγχο και θα δω. Προς το παρον δεν με απασχολεί και φυσικά εχω πλήρη (clone disk) για την επαναφορά περα απο το time shift, αν γινει κάτι. Προσωπικά οπως και στα windows αν δεν φτάσω σε ενα σημείο να χαλάσω ενα λειτουργικό δεν θα το μαθω :P

 

Επεξ/σία από Petros Electron
  • Like 1
Δημοσ.
Στις 8/11/2021 στις 3:24 ΜΜ, Petros Electron είπε

Μενει να ψαξω λιγο τα errοrs που εχει απο κατω

Στις 8/11/2021 στις 5:31 ΜΜ, Petros Electron είπε

Επίσης σε οτι άφορα έμενα, το σφάλμα μπορεί να ειναι απο την καρτα γραφικών nvidia geforce gtx 950m. Υπάρχει ενα update το 470, εγω εχω το  x-org video noveau αλλα δεν θελω να το κάνω γιατι το 470 μου εκανε προβλήματα στο logging screen. Το ψάχνω και θα επανέλθω.

Βλέποντας στο pci.ids (στο /usr/share, /usr/share/misc, /usr/share/ids, κτλ ανάλογα με την διανομή) βλέπω τα παρακάτω:

8086  Intel Corporation
        a105  Sunrise Point-H SATA Controller [RAID mode]
        a106  Q170/H170/Z170/CM236 Chipset SATA Controller [RAID Mode]
        a107  HM170/QM170 Chipset SATA Controller [RAID Mode]
        a10f  Sunrise Point-H SATA Controller [RAID mode]
        a110  100 Series/C230 Series Chipset Family PCI Express Root Port #1
        a111  100 Series/C230 Series Chipset Family PCI Express Root Port #2
        a112  100 Series/C230 Series Chipset Family PCI Express Root Port #3
        a113  100 Series/C230 Series Chipset Family PCI Express Root Port #4
        a114  100 Series/C230 Series Chipset Family PCI Express Root Port #5
        a115  100 Series/C230 Series Chipset Family PCI Express Root Port #6

το οποίο δεν πολύ-βοηθάει. Μπορείς όμως να τρέξεις lspci -v -t και να δεις ποια συσκευή είναι κάτω από το 00:1c.5. Ίσως είναι η κάρτα γραφικών όπως είπες ίσως είναι κάτι άλλο.

 

Στις 8/11/2021 στις 5:31 ΜΜ, Petros Electron είπε

Ψάχνοντας βαθύτερα ειδα οτι αν κανεις edit to grub και προσθέσεις το

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"

τοτε θα εχεις no pci advanced error reporting συνεπώς και δεν θα εχεις τα σφαλματα (η δεν θα εμφανιζονται).

Αυτο ειναι και καλο , αλλα και κακο ισως, γιατι δεν θα βρεις την πραγματική αιτια. Καλο γιατι μπορεί να μην ειναι κάποιο υπαρκτό πρόβλημα εφόσον το λειτουργικό σου λειτουργεί σωστά.

 

10 ώρες πριν, Petros Electron είπε

Κλείνω το θέμα γιατι πιστεύω οτι δεν υπάρχει καποιο θέμα.

Την μια τα error βγαίνουν την άλλη με ενα reboot οχι. Χωρις να κανω καποια πχ αλλαγη σε κατι.

Το hardware δεν εχει θεμα, εχω δοκιμασει με διαγνωστικά τα πάντα. Θεωρώ οτι ειναι bug του Mint. Όποτε

GRUB_CMDLINE_LINUX_DEFAULT="pci=noaer" και output μετά απο reboot ;

βελτίωση επίσης του boot (σε time).

Στο πανεπιστήμιο είχαμε ένα τεράστιο online ups το οποίο εξυπηρετούσε ένα κάρο servers. Κάποια στιγμή εμφάνισε ένα πρόβλημα και έκανε ένα beeeep κάθε 30 δευτερόλεπτα ή κάθε τόσο τέλος πάντων. Επειδή όλα τα προβλήματα περιμένουν κάποια τέτοια στιγμή για να βγουν και ο Ψ server θα είχε downtime και θα υπήρχε πρήξιμο από τους καθηγητές, κανείς δεν ήθελε να ασχοληθεί και να ενεργοποιήσει το εφεδρικό 2ο ups για να βγει offline αυτό για να το ελέγξουμε. Μια φορά έγινε μια σύσκεψη ή κάτι τέτοιο εκεί οπότε οι καθηγητές τσατίστηκαν και ο υπεύθυνος είπε να φτιαχτεί άμεσα. Ξέρεις τι έγινε; Ανοίχθηκε το UPS την ώρα που δούλευε και κόπηκε το καλώδιο που έδινε ρεύμα στο κουδούνι. Αυτός που το ανέλαβε είπε μια παπάτζα για το τι έφταιγε και ο καθηγητής είπε μπράβο για το πόσο γρήγορα επιδιορθώθηκε η βλάβη.

Με άλλα λόγια, η βλάβη δεν φτιάχθηκε απλά κρύφτηκε το "error message". Αυτό που έκανες και εσύ τώρα :)

Ρίχνοντας μια γρήγορη ματιά στο /path/to/kernel/source/Documentation/admin-guide/kernel-parameters.txt, βλέπω τα παρακάτω που _ίσως_ βοηθήσουν στη διόρθωση χωρίς να το κρύβεις κάτο από το χαλί.

pci=option[,option...]  [PCI] various PCI subsystem options.

        nomsi           [MSI] If the PCI_MSI kernel config parameter is
                        enabled, this kernel boot option can be used to 
                        disable the use of MSI interrupts system-wide.

pcie_aspm=      [PCIE] Forcibly enable or disable PCIe Active State Power
                Management.
        off     Disable ASPM.
        force   Enable ASPM even on devices that claim not to support it.
                WARNING: Forcing ASPM on may cause system lockups.

IMHO, το nomsi είναι το λιγότερο πιθανό. Χρειάζονταν σε κάποιους αρχικούς ryzen αν θυμάμαι καλά.

My money είναι σε power management ειδικά όταν διαβάζω ότι έχεις NVMe. Δοκίμασε να κλείσεις το ASPM με pcie_aspm=off και επίσης δοκίμασε και το ALPM που είναι μόνο για τους δίσκους αν δεν σε καίει να έχεις εκείνα τα devsleep και πως τα λένε τα low power modes στους SSDs. Μερικοί συνδυασμοί SSD και μητρικής είναι γνωστοί για corruption όταν κλείνει και ανοίγει ο δίσκος οπότε δεν ισχύει αυτό που είπες ότι δεν υπάρχει θέμα.

Για να δεις τι link management έχεις μπορείς να τρέξεις το παρακάτω:

% cat /sys/class/scsi_host/host*/link_power_management_policy

Αν δεις να λέει max performance, τότε είσαι οκ. Αν λέει med_power_with_κάτι, είναι η νέα policy που υλοποιήθηκε πριν καιρό και είναι ίδια με αυτή που χρησιμοποιούν τα windows οπότε μάλλον είσαι οκ. Αν λέει medium_power ή min_power, τότε άλλαξε το σε max_performance για να έχεις το κεφάλι σου ήσυχο.

Δεν μπορώ φυσικά να ξέρω από τι προκαλείται το πρόβλημά σου και αν αυτά που έγραψα θα στο λύσουν, απλά έγραψα επειδή είναι εύκολο να δοκιμάσεις αυτά που είπα. Έλεγξε πρώτα το ALPM και αν είναι max_performance, δοκίμασε να αφαιρέσεις το pci=noaer και να το δουλέψεις λίγες ημέρες με το pcie_apsm=off για να δεις τι θα γίνει.

  • Thanks 1
Δημοσ. (επεξεργασμένο)
Στις 10/11/2021 στις 9:42 ΠΜ, imitheos είπε

Βλέποντας στο pci.ids (στο /usr/share, /usr/share/misc, /usr/share/ids, κτλ ανάλογα με την διανομή) βλέπω τα παρακάτω:






8086  Intel Corporation
        a105  Sunrise Point-H SATA Controller [RAID mode]
        a106  Q170/H170/Z170/CM236 Chipset SATA Controller [RAID Mode]
        a107  HM170/QM170 Chipset SATA Controller [RAID Mode]
        a10f  Sunrise Point-H SATA Controller [RAID mode]
        a110  100 Series/C230 Series Chipset Family PCI Express Root Port #1
        a111  100 Series/C230 Series Chipset Family PCI Express Root Port #2
        a112  100 Series/C230 Series Chipset Family PCI Express Root Port #3
        a113  100 Series/C230 Series Chipset Family PCI Express Root Port #4
        a114  100 Series/C230 Series Chipset Family PCI Express Root Port #5
        a115  100 Series/C230 Series Chipset Family PCI Express Root Port #6

το οποίο δεν πολύ-βοηθάει. Μπορείς όμως να τρέξεις lspci -v -t και να δεις ποια συσκευή είναι κάτω από το 00:1c.5. Ίσως είναι η κάρτα γραφικών όπως είπες ίσως είναι κάτι άλλο.

 

 

Στο πανεπιστήμιο είχαμε ένα τεράστιο online ups το οποίο εξυπηρετούσε ένα κάρο servers. Κάποια στιγμή εμφάνισε ένα πρόβλημα και έκανε ένα beeeep κάθε 30 δευτερόλεπτα ή κάθε τόσο τέλος πάντων. Επειδή όλα τα προβλήματα περιμένουν κάποια τέτοια στιγμή για να βγουν και ο Ψ server θα είχε downtime και θα υπήρχε πρήξιμο από τους καθηγητές, κανείς δεν ήθελε να ασχοληθεί και να ενεργοποιήσει το εφεδρικό 2ο ups για να βγει offline αυτό για να το ελέγξουμε. Μια φορά έγινε μια σύσκεψη ή κάτι τέτοιο εκεί οπότε οι καθηγητές τσατίστηκαν και ο υπεύθυνος είπε να φτιαχτεί άμεσα. Ξέρεις τι έγινε; Ανοίχθηκε το UPS την ώρα που δούλευε και κόπηκε το καλώδιο που έδινε ρεύμα στο κουδούνι. Αυτός που το ανέλαβε είπε μια παπάτζα για το τι έφταιγε και ο καθηγητής είπε μπράβο για το πόσο γρήγορα επιδιορθώθηκε η βλάβη.

Με άλλα λόγια, η βλάβη δεν φτιάχθηκε απλά κρύφτηκε το "error message". Αυτό που έκανες και εσύ τώρα :)

Ρίχνοντας μια γρήγορη ματιά στο /path/to/kernel/source/Documentation/admin-guide/kernel-parameters.txt, βλέπω τα παρακάτω που _ίσως_ βοηθήσουν στη διόρθωση χωρίς να το κρύβεις κάτω από το χαλί.






pci=option[,option...]  [PCI] various PCI subsystem options.

        nomsi           [MSI] If the PCI_MSI kernel config parameter is
                        enabled, this kernel boot option can be used to 
                        disable the use of MSI interrupts system-wide.

pcie_aspm=      [PCIE] Forcibly enable or disable PCIe Active State Power
                Management.
        off     Disable ASPM.
        force   Enable ASPM even on devices that claim not to support it.
                WARNING: Forcing ASPM on may cause system lockups.

IMHO, το nomsi είναι το λιγότερο πιθανό. Χρειάζονταν σε κάποιους αρχικούς ryzen αν θυμάμαι καλά.

My money είναι σε power management ειδικά όταν διαβάζω ότι έχεις NVMe. Δοκίμασε να κλείσεις το ASPM με pcie_aspm=off και επίσης δοκίμασε και το ALPM που είναι μόνο για τους δίσκους αν δεν σε καίει να έχεις εκείνα τα devsleep και πως τα λένε τα low power modes στους SSDs. Μερικοί συνδυασμοί SSD και μητρικής είναι γνωστοί για corruption όταν κλείνει και ανοίγει ο δίσκος οπότε δεν ισχύει αυτό που είπες ότι δεν υπάρχει θέμα.

Για να δεις τι link management έχεις μπορείς να τρέξεις το παρακάτω:






% cat /sys/class/scsi_host/host*/link_power_management_policy

Αν δεις να λέει max performance, τότε είσαι οκ. Αν λέει med_power_with_κάτι, είναι η νέα policy που υλοποιήθηκε πριν καιρό και είναι ίδια με αυτή που χρησιμοποιούν τα windows οπότε μάλλον είσαι οκ. Αν λέει medium_power ή min_power, τότε άλλαξε το σε max_performance για να έχεις το κεφάλι σου ήσυχο.

Δεν μπορώ φυσικά να ξέρω από τι προκαλείται το πρόβλημά σου και αν αυτά που έγραψα θα στο λύσουν, απλά έγραψα επειδή είναι εύκολο να δοκιμάσεις αυτά που είπα. Έλεγξε πρώτα το ALPM και αν είναι max_performance, δοκίμασε να αφαιρέσεις το pci=noaer και να το δουλέψεις λίγες ημέρες με το pcie_apsm=off για να δεις τι θα γίνει.

Καλημέρα σε ευχαριστώ πολυ για την αρτια απάντηση!. Πραγματικά πολύ χρήσιμα αυτα που έγραψες, btw που ήσουν τοσο καιρο? :)

Το ξέρω οτι έκρυψα το "error" αλλα το εκανα για τον λογο οτι πχ στις 10 εκκινήσεις που θα κανω δεν εχω τα errors παντα. Αν κατι ας πουμε (χονδρικά) εχει χαλάσει η εχει πρόβλημα δεν θα επρεπε να τα εχω σε καθε εκινηση-επανεκινηση?

Σε οτι αφορα την lspci -v -t εχω output ;

Αναφορά σε κείμενο

petros@mint:~$ lspci -v -t
-[0000:00]-+-00.0  Intel Corporation Xeon E3-1200 v5/E3-1500 v5/6th Gen Core Processor Host Bridge/DRAM Registers
           +-01.0-[01-06]----00.0  NVIDIA Corporation GM107M [GeForce GTX 950M]
           +-02.0  Intel Corporation HD Graphics 530
           +-04.0  Intel Corporation Xeon E3-1200 v5/E3-1500 v5/6th Gen Core Processor Thermal Subsystem
           +-14.0  Intel Corporation 100 Series/C230 Series Chipset Family USB 3.0 xHCI Controller
           +-14.2  Intel Corporation 100 Series/C230 Series Chipset Family Thermal Subsystem
           +-16.0  Intel Corporation 100 Series/C230 Series Chipset Family MEI Controller #1
           +-17.0  Intel Corporation HM170/QM170 Chipset SATA Controller [AHCI Mode]
           +-1c.0-[07]----00.0  Realtek Semiconductor Co., Ltd. RTS522A PCI Express Card Reader
           +-1c.5-[08]----00.0  Intel Corporation Wireless 3165
           +-1c.6-[09]----00.0  Realtek Semiconductor Co., Ltd. RTL810xE PCI Express Fast Ethernet controller
           +-1f.0  Intel Corporation HM170 Chipset LPC/eSPI Controller
           +-1f.2  Intel Corporation 100 Series/C230 Series Chipset Family Power Management Controller
           +-1f.3  Intel Corporation 100 Series/C230 Series Chipset Family HD Audio Controller
           \-1f.4  Intel Corporation 100 Series/C230 Series Chipset Family SMBus

Για να καταλάβω σωστα αυτα που βλεπω, τα αρχικά μου errors ειναι στο +-01.0-[01-06] ? ή στο +-1c.5-[08]----00.0 ?

Στην πρώτη αφορα την κάρτα γραφικών ,  στην 2η τον ανταπτορα WIFI.

επισης ;

Αναφορά σε κείμενο

petros@mint:~$ cat /sys/class/scsi_host/host*/link_power_management_policy
med_power_with_dipm
med_power_with_dipm
med_power_with_dipm
med_power_with_dipm

Ευχαριστω και παλι.

edit ; μετα απο αλλαγη στο grub με pcie_aspm=off και update/reboot.

Αναφορά σε κείμενο

petros@mint:~$ dmesg | grep error
[   14.362712] EXT4-fs (sdc1): re-mounted. Opts: errors=remount-ro
[   29.283314] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   29.284095] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[   51.458401] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   51.458559] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[   51.537958] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   51.538094] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[   71.678847] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[   71.678967] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000
[  122.238416] pcieport 0000:00:1c.5: AER: Corrected error received: 0000:00:1c.5
[  122.238430] pcieport 0000:00:1c.5: AER:   device [8086:a115] error status/mask=00000001/00002000

 

Επεξ/σία από Petros Electron
Δημοσ.
2 ώρες πριν, Petros Electron είπε

Το ξέρω οτι έκρυψα το "error" αλλα το εκανα για τον λογο οτι πχ στις 10 εκκινήσεις που θα κανω δεν εχω τα errors παντα. Αν κατι ας πουμε (χονδρικά) εχει χαλάσει η εχει πρόβλημα δεν θα επρεπε να τα εχω σε καθε εκινηση-επανεκινηση?

Στην περίπτωσή σου το λάθος μπόρεσε να διορθωθεί οπότε ναι δεν έχεις θέμα. Απλά δεν ξέρεις αν αύριο θα έχεις κάποιο πιο σοβαρό θέμα που δεν θα το δεις λόγω του noerror.

Αν ήταν αυτό που ανέφερα με την power management policy σε δίσκους, πολλές φορές οδηγούσε σε θέματα corruption στο filesystem οπότε δεν έβλεπες ότι "είχε χαλάσει" κάτι αλλά υπήρχε σοβαρό θέμα. Για αυτό, και σε συνδυασμό με το ότι ήταν πολύ εύκολο να το ελέγξεις όπως έγραψα πριν, σου είπα να το κοιτάξεις. Δεν ήταν όμως τέτοιο θέμα στην περίπτωσή σου.

2 ώρες πριν, Petros Electron είπε

Σε οτι αφορα την lspci -v -t εχω output ;

Για να καταλάβω σωστα αυτα που βλεπω, τα αρχικά μου errors ειναι στο +-01.0-[01-06] ? ή στο +-1c.5-[08]----00.0 ?

Στην πρώτη αφορα την κάρτα γραφικών ,  στην 2η τον ανταπτορα WIFI.

Ίσως είναι μπροστά μου και δεν το βλέπω αλλά στο 1ο μήνυμά σου βλέπω 4 λάθη όλα στο 1c.5. Ποιο λάθος είναι στο 01-06 για να είναι κάρτα γραφικών;

2 ώρες πριν, Petros Electron είπε

edit ; μετα απο αλλαγη στο grub με pcie_aspm=off και update/reboot.

Οπότε δεν έκανε τίποτα η power management policy. Αν το πρόβλημα είναι στην κάρτα δικτύου, τότε βγάζει ένα νόημα γιατί δεν πρόλαβε να μπει σε power saving ώστε να επηρρεάζει. Βρήκα ένα bug με ολόιδιο μήνυμα λάθους με εσένα με ίδια κάρτα δικτύου αλλά δεν πρόλαβα να το κοιτάξω. Με μια γρήγορη ματιά που του έριξα ήταν ένα πρόβλημα με bbswitch σε κάποιο path του BIOS που γινόταν trigger με διακριτή κάρτα nvidia :P αλλά μπήκε πρόνοια για αυτό και διορθώθηκε το 2018 νομίζω.

Αν η μητρική σου έχει νεώτερη έκδοση bios και δεν βαριέσαι να την κάνεις, κάνε την αλλιώς άσε το έτσι αφού δεν σου προκαλεί προβλήματα.

  • Thanks 1
Δημοσ. (επεξεργασμένο)
9 ώρες πριν, imitheos είπε

Στην περίπτωσή σου το λάθος μπόρεσε να διορθωθεί οπότε ναι δεν έχεις θέμα. Απλά δεν ξέρεις αν αύριο θα έχεις κάποιο πιο σοβαρό θέμα που δεν θα το δεις λόγω του noerror.

Αν ήταν αυτό που ανέφερα με την power management policy σε δίσκους, πολλές φορές οδηγούσε σε θέματα corruption στο filesystem οπότε δεν έβλεπες ότι "είχε χαλάσει" κάτι αλλά υπήρχε σοβαρό θέμα. Για αυτό, και σε συνδυασμό με το ότι ήταν πολύ εύκολο να το ελέγξεις όπως έγραψα πριν, σου είπα να το κοιτάξεις. Δεν ήταν όμως τέτοιο θέμα στην περίπτωσή σου.

Ίσως είναι μπροστά μου και δεν το βλέπω αλλά στο 1ο μήνυμά σου βλέπω 4 λάθη όλα στο 1c.5. Ποιο λάθος είναι στο 01-06 για να είναι κάρτα γραφικών;

Οπότε δεν έκανε τίποτα η power management policy. Αν το πρόβλημα είναι στην κάρτα δικτύου, τότε βγάζει ένα νόημα γιατί δεν πρόλαβε να μπει σε power saving ώστε να επηρρεάζει. Βρήκα ένα bug με ολόιδιο μήνυμα λάθους με εσένα με ίδια κάρτα δικτύου αλλά δεν πρόλαβα να το κοιτάξω. Με μια γρήγορη ματιά που του έριξα ήταν ένα πρόβλημα με bbswitch σε κάποιο path του BIOS που γινόταν trigger με διακριτή κάρτα nvidia :P αλλά μπήκε πρόνοια για αυτό και διορθώθηκε το 2018 νομίζω.

Αν η μητρική σου έχει νεώτερη έκδοση bios και δεν βαριέσαι να την κάνεις, κάνε την αλλιώς άσε το έτσι αφού δεν σου προκαλεί προβλήματα.

Ευχαριστώ και παλι.

Έκανα update στο bios χθες, δεν ειδα κάποια διαφορά.

Επισης και με το pcie_aspm=off  δεν ειδα κατι διαφορετικό. Οποτε το αφησα στην πρωτη επιλογη (κρύψιμο κατω απο το χαλακι.. :) ) μιας και λειτουργεί καλα χωρις να βλεπω κατι να εχει πρόβλημα.

Επεξ/σία από Petros Electron
Δημοσ. (επεξεργασμένο)

imitheos

Καλησπερα. Μιας και εισαι γνωστής θελω να σε ρωτήσω σχετικά με τα παραπάνω γραφόμενα.

Εχω το εξης output οταν δινω την εντολη ; dmesg | grep iwlwifi

Αναφορά σε κείμενο

[   29.011896] iwlwifi 0000:08:00.0: pci_enable_msi failed - -22
[   29.961953] iwlwifi 0000:08:00.0: Found debug destination: EXTERNAL_DRAM
[   29.961954] iwlwifi 0000:08:00.0: Found debug configuration: 0
[   29.962160] iwlwifi 0000:08:00.0: loaded firmware version 29.1654887522.0 op_mode iwlmvm
[   31.749150] iwlwifi 0000:08:00.0: Detected Intel(R) Dual Band Wireless AC 3165, REV=0x210
[   31.762759] iwlwifi 0000:08:00.0: Applying debug destination EXTERNAL_DRAM
[   31.763175] iwlwifi 0000:08:00.0: Allocated 0x00400000 bytes for firmware monitor.
[   31.775440] iwlwifi 0000:08:00.0: base HW address: e0:94:67:12:64:07
[   32.055635] iwlwifi 0000:08:00.0 wlo1: renamed from wlan0
[   63.854891] iwlwifi 0000:08:00.0: Applying debug destination EXTERNAL_DRAM
[   63.935102] iwlwifi 0000:08:00.0: Applying debug destination EXTERNAL_DRAM
[   63.936845] iwlwifi 0000:08:00.0: FW already configured (0) - re-configuring

Απο οτι καταλαβαίνω (αν καταλαβαίνω καλα) το θεμα μου ειναι στην 1η γραμμή.

Διάβασα εδω οτι για να φτιαξω το pci_enable_msi failed  πρέπει να ξανακάνω rebuild the kernel ?!

Φυσικά ειναι δύσκολη διαδικασία, αλλα φαίνεται οτι απο εκει ξεκινάει το πρόβλημα καθώς στο kernel φαίνεται να λείπει(ουν)  η εντολή(λες) που αναφέρει το link.

Φυσικά δεν με προβληματίζει γιατι εχω κανονική λειτουργία στο wifi, απο οτι φαίνεται το linux χρησιμοποιεί διαφορετική διαδικασία για την επίλυση του προβλήματος για αυτο και κανει και rename απο wlo1 σε wlan0.

Η ερώτηση ειναι αν γίνεται να αποφύγω το rebuild του kernel δοκιμάζοντας κατι άλλο γιατι φυσικά δεν ξερω να κανω τέτοια διαδικασία (αν και υπάρχουν οι οδηγίες και κάποια στιγμή μπορεί να το τολμήσω, τροφή για σκέψη :P )

καλο βραδυ.

Επεξ/σία από Petros Electron
Δημοσ.
10 ώρες πριν, Petros Electron είπε

Καλησπερα. Μιας και εισαι γνωστής θελω να σε ρωτήσω σχετικά με τα παραπάνω γραφόμενα.

"Γνώστης" γενικά δεν μπορεί να είναι κανείς γιατί μιλάμε για ένα τεράστιο αντικείμενο. Ειδικά από ασύρματα δεν σκαμπάζω ντιπ. Παρόλα αυτά, ευχαρίστως να βοηθήσω (ή να μπερδέψω περισσότερο :P).

10 ώρες πριν, Petros Electron είπε

Απο οτι καταλαβαίνω (αν καταλαβαίνω καλα) το θεμα μου ειναι στην 1η γραμμή.

Διάβασα εδω οτι για να φτιαξω το pci_enable_msi failed  πρέπει να ξανακάνω rebuild the kernel ?!

Φυσικά ειναι δύσκολη διαδικασία, αλλα φαίνεται οτι απο εκει ξεκινάει το πρόβλημα καθώς στο kernel φαίνεται να λείπει(ουν)  η εντολή(λες) που αναφέρει το link.

Οι kernel maintainers των διανομών δημιουργούν ένα config το οποίο λειτουργεί σε όλα τα μηχανήματα (σύμφωνα με το όραμα της διανομής και του τι θεωρεί καλύτερο ο maintainer φυσικά για αυτό θα δεις διαφορές ανάμεσα σε fedora , arch, suse, κτλ). Σπάνια θα χρειαστείς να κάνεις compile ο ίδιος. Όσον αφορά την συγκεκριμένη περίπτωση, το νήμα στο reddit είναι του 2014 και παραπέμπει σε ένα νήμα του gentoo που είναι του 2013 και λέει ότι πρέπει να ενεργοποιήσεις τις MSI. Δεν νομίζω σήμερα να υπάρχει πυρήνας που να μην έχει ενεργοποιημένες τις MSI.

Αυτό είναι στο ίδιο μηχάνημα που είχες και τα μηνύματα για τα errors; Για την ασύρματη δεν είχαμε πει ότι ήτανε; Ένα πράγμα που είχα προτείνει ήταν να απενεργοποιήσεις τις MSI αλλά έκρινα ότι ήταν το λιγότερο πιθανό να είναι. Δοκίμασες να εκκινήσεις με pci=nomsi μήπως εξαφανιστούν και τα δύο μηνύματα;

  • Thanks 1
Δημοσ. (επεξεργασμένο)
12 ώρες πριν, imitheos είπε

Αυτό είναι στο ίδιο μηχάνημα που είχες και τα μηνύματα για τα errors; Για την ασύρματη δεν είχαμε πει ότι ήτανε; Ένα πράγμα που είχα προτείνει ήταν να απενεργοποιήσεις τις MSI αλλά έκρινα ότι ήταν το λιγότερο πιθανό να είναι. Δοκίμασες να εκκινήσεις με pci=nomsi μήπως εξαφανιστούν και τα δύο μηνύματα;

Καλησπέρα, ναι για το ιδιο μηχάνημα επρόκειτο και έχω γράψει παραπάνω οτι δοκίμασα το pci=nomsi αλλα ειχα παλι τα μηνύματα. Απο το error καταλαβαίνω οτι ειναι για την καρτα δικτύου.

edit. Απο λαθος εγραψα το παραπανω. Με το pci=nomsi δεν εχω τα μηνύματα οπως και με το pci=noaer

με το pcie_aspm=off τα ειχα παλι, και στις 2 παραπανω περιπτωσεις εχω το

[27.076441] iwlwifi 0000:08:00.0: pci_enable_msi failed - -22

12 ώρες πριν, imitheos είπε

Παρόλα αυτά, ευχαρίστως να βοηθήσω (ή να μπερδέψω περισσότερο :P).

Δεν πειραζει, καθε αποψη δεκτή. Άλλωστε "αν δεν χαλάσεις κατι" δεν πρόκειται και να το μάθεις.  :) Θα κατεβασω εναν kernel άλλωστε (source code) γιατι θελω να δω τι εχει μεσα γενικά.

 

Επεξ/σία από Petros Electron

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...