AVR-GCC unter die Haube geschaut…

In den letzten Tagen habe ich mich intensiv mit meiner AVR-Bibliothek beschäftigt und einige Treiber für die XMega- und die ATMega32-Peripherie weiter geschrieben bzw. in einer ersten Version als statische Bibliothek veröffentlicht.

Während der Codeentwicklung für das Batteriebackup-Systems, bzw. des Clocksystems des XMegas bin ich allerdings auf ein Hindernis gestoßen. Bei beiden Komponenten sind einzelne Bits durch das Configuration Change Protection-Register geschützt. Dies hat zur Folge, dass bestimmte Bits nur nach dem Setzen einer bestimmten Signatur im CCP-Register (hier 0xD8) geändert werden können.

Reset im CTRL-Register des Batteriebackup-Systems
Auswahl der Taktquelle im CTRL-Register der Clock

Erschwerend kommt hinzu, dass man nach dem Setzen der Signatur nur 4 Taktzyklen Zeit hat um eines der geschützten Register zu beschreiben. Danach wird es wieder gesperrt.

Gut, dachte ich. Also schreibe ich einfach folgende Funktion um die Taktquelle zu wechseln:

static inline void SysClock_SetClockSource(uint8_t Source)
{
   ATOMIC_BLOCK(ATOMIC_RESTORESTATE)
   {
       CCP = CCP_IOREG_gc;
       CLK.CTRL = Source;
   }
}

Der Atomic-Block soll dabei verhindern das diese Befehlsfolge durch einen Interrupt gestört und somit das Taktlimit überschritten wird (für den Reset des Batteriebackup-Systems gibt es eine Funktion mit einem identischen Aufbau).

Doch der Code funktionierte nicht. Eine Fehlersuche führte schnell zu der Erkenntnis, dass die Optimierung daran schuld ist. Damit dieser Code funktioniert ist mind. das Optimierungslevel -O1 erforderlich. Eine Optimierung ist aber für ein Debuggen sehr hinderlich, weil gewissen Programmblöcke nicht angesprungen werden können, da diese zu stark optimiert werden. Für eine Softwareentwicklung ist das also alles andere als optimal.

Aber was macht der Compiler aus diesem (für den Menschen) offensichtlichen Code? Es kann doch nicht sein, dass die Zuweisung

CLK.CTRL = Source;

mehr als vier Taktzyklen benötigt. Also habe ich mir das ganze Problem mal im Assembly angeschaut. Für eine einfachere Betrachtung habe ich den Code ausgelagert und mal geschaut was der Compiler aus dem Code macht:

int main(void)
{
    CCP = CCP_IOREG_gc;
    CLK.CTRL = CLK_SCLKSEL_RC32M_gc;
    return 0;
}

In diesem Beispiel habe ich einfach eine beliebige Taktquelle genommen. Der Wert, der in das CLK.CTRL-Register geschrieben wird ist nicht von Interesse. Das Disassembly zeigt Interessantes:

--- C:\Users\Kampi\Desktop\Assembler\Assembler\Debug/.././main.c ---------------
{
0000010C  PUSH R28		Push register on stack 
0000010D  PUSH R29		Push register on stack 
0000010E  IN R28,0x3D		In from I/O location 
0000010F  IN R29,0x3E		In from I/O location 
	CCP = CCP_IOREG_gc;
00000110  LDI R24,0x34		Load immediate 
00000111  LDI R25,0x00		Load immediate 
00000112  LDI R18,0xD8		Load immediate 
00000113  MOVW R30,R24		Copy register pair 
00000114  STD Z+0,R18		Store indirect with displacement 
	CLK.CTRL = CLK_SCLKSEL_RC32M_gc;
00000115  LDI R24,0x40		Load immediate 
00000116  LDI R25,0x00		Load immediate 
00000117  LDI R18,0x01		Load immediate 
00000118  MOVW R30,R24		Copy register pair 
00000119  STD Z+0,R18		Store indirect with displacement 
	return 0;
0000011A  LDI R24,0x00		Load immediate 
0000011B  LDI R25,0x00		Load immediate 
}
0000011C  POP R29		Pop register from stack 
0000011D  POP R28		Pop register from stack 
0000011E  RET 		Subroutine return 
--- No source file -------------------------------------------------------------

Nun ist das AVR Instruction Set gefragt, in dem die einzelnen Befehle nachgeschlagen werden können. Für eine genauere Betrachtung reicht der Block nach dem Setzen der Signatur:

	CLK.CTRL = CLK_SCLKSEL_RC32M_gc;
00000115  LDI R24,0x40		Load immediate 
00000116  LDI R25,0x00		Load immediate 
00000117  LDI R18,0x01		Load immediate 
00000118  MOVW R30,R24		Copy register pair 
00000119  STD Z+0,R18		Store indirect with displacement 
	return 0;

In dieser Codesequenz wird zuerst die die Registeradresse des CLK.CTRL-Registers geladen in die Register R24 und R25 geladen. Jeder LDI-Befehl dauert 1 Taktzyklus. Direkt im Anschluss daran wird der Wert 0x01 (die Einstellung für die Taktquelle) in das Register R18 kopiert. Dieser Vorgang dauert ebenfalls 1 Taktzyklus.

Anschließend wird der Wert aus R24 (also die Zieladresse) in das Register R30 kopiert. Das Register R30 stellt ein Register zur indirekten Adressierung dar, genauer das unterste Byte des Z-Registers. Hier wird also die Adresse des Zielregisters (0x40) gespeichert, damit dieses Zielregister mit der nächsten Instruktion adressiert werden kann. Dieser Vorgang dauert ebenfalls 1 Taktzyklus.

Über den STD-Befehl werden dann die Daten aus einem Register (hier R18) in ein adressiertes Register geschrieben. Durch den Zusatz Z+0 wird das Low-Byte des Z-Registers angesprochen. Damit werden also die Daten des Registers R18 indirekt über die Adresse in R30 in die Speicherstelle 0x40 kopiert. Der STD-Befehl benötigt mind. 1 Taktzyklus.

Insgesamt benötigt das Kopieren des Wertes in das CLK.CTRL-Register, nachdem das Signaturbyte gesetzt worden ist, also 5 Taktzyklen und ist damit 1 Taktzyklus zu lang. Als Kontrast dazu der Code mit eingeschalteter Optimierung:

--- C:\Users\Kampi\Desktop\Assembler\Assembler\Debug/.././main.c ---------------
{
	CCP = CCP_IOREG_gc;
0000010C  LDI R24,0xD8		Load immediate 
0000010D  OUT 0x34,R24		Out to I/O location 
	CLK.CTRL = CLK_SCLKSEL_RC32M_gc;
0000010E  LDI R24,0x01		Load immediate 
0000010F  STS 0x0040,R24		Store direct to data space 
}
00000111  LDI R24,0x00		Load immediate 
00000112  LDI R25,0x00		Load immediate 
00000113  RET 		Subroutine return 
--- No source file -------------------------------------------------------------

Die entstandene Codesequenz ist deutlich kürzer und auch das Beschreiben des CLK.CTRL-Registers dauert jetzt nur noch 3 Zyklen:

1 Zyklus um den Wert für die Clocksource in das Register R24 zu laden
2 Zyklen um den Wert aus R24 mittels des STS-Befehls in das CLK.CTRL-Register zu schreiben

Damit der Code auch ohne eingeschaltete Optimierung funktionieren (weil man z .B. den Debugger nutzen möchte) kann, sollte er direkt in Assembler verfasst werden. Wenn eine Kombination aus C und Assembler verwendet wird muss unbedingt das entsprechende ABI, hier also AVR-GCC-ABI, berücksichtigt werden.

Kurz gesagt: Ein ABI definiert wie bestimmte Schnittstellen und Datentypen in Maschinencode umgewandelt werden. Bei einer Schnittstelle können z. B. Funktionsaufrufe betrachtet werden.

Der Übergabeparameter der Funktion steht in Register R24. Die Berechnung erfolgt durch den, im ABI beschriebenen, Weg:

R26 ist die Ausgangsbasis
Es wird ein uin8_t übergeben. Dieser ist 1 Byte groß und damit ungerade → Aufrunden auf 2
R26 – 2 = R24

Bei weiteren Argumenten wird analog vorgegangen, wobei die Ausgangsbasis immer die berechnete Registeradresse ist. Die resultierende Adresse beschreibt immer die Position des LSB. Alle anderen Teile des Übergabewertes werden dann in der jeweils um eins inkrementierten Adresse abgelegt.

Mit diesem Wissen kann die Funktion nun angepasst werden:

static inline void SysClock_SetClockSource(ClockSource Source)
{
    ATOMIC_BLOCK(ATOMIC_RESTORESTATE)
    {
        asm volatile("movw r30,  %0" :: "r" (&CLK.CTRL));
        asm volatile("ldi  r16,  %0" :: "M" (CCP_IOREG_gc));
        asm volatile("out   %0, r16" :: "i" (&CCP));
        asm volatile("st     Z,  %0" :: "r" (Source));
    }
}

Zuerst kopiert die Funktion die Adresse des CLK.CTRL-Registers in das Register R30 (Low-Byte des Z-Registers).
Anschließend wird die Schutzsignatur 0x0D aus dem Speicher in das Register R16 geladen
Direkt danach wird der Inhalt aus Register R16 mittels OUT-Befehl in das CCP-Register kopiert
Zu guter letzt kopiert der ST-Befehl den Übergabeparameter für die Taktquelle in das, durch das Z-Register adressierte, Register

Mit dieser Lösung lässt sich die Taktquelle unabhängig von dem eingestellten Optimierungslevel ändern. Allerdings ist dieser Code noch nicht ganz optimal, wie das Disassembly zeigt:

--- C:\Users\Kampi\Desktop\Assembler\Assembler\Debug/.././main.c ---------------
{
0000010C  PUSH R28		Push register on stack 
0000010D  PUSH R29		Push register on stack 
0000010E  IN R28,0x3D		In from I/O location 
0000010F  IN R29,0x3E		In from I/O location 
	asm volatile("movw r30,  %0" :: "r" (&CLK.CTRL));
00000110  LDI R24,0x40		Load immediate 
00000111  LDI R25,0x00		Load immediate 
00000112  MOVW R30,R24		Copy register pair 
	asm volatile("ldi  r16,  %0" :: "M" (CCP_IOREG_gc));
00000113  LDI R16,0xD8		Load immediate 
	asm volatile("out   %0, r16" :: "i" (&CCP));
00000114  OUT 0x34,R16		Out to I/O location 
	asm volatile("st     Z,  %0" :: "r" (0x02));
00000115  LDI R24,0x02		Load immediate 
00000116  LDI R25,0x00		Load immediate 
00000117  STD Z+0,R24		Store indirect with displacement 
00000118  LDI R24,0x00		Load immediate 
00000119  LDI R25,0x00		Load immediate 
}
0000011A  POP R29		Pop register from stack 
0000011B  POP R28		Pop register from stack 
0000011C  RET 		Subroutine return 
--- No source file -------------------------------------------------------------

Wie man erkennt, dauert es trotzdem noch 3 Taktzyklen, bis das CLK.CTRL-Register beschrieben wurde, da vor dem Beschreiben des Registers noch die Werte geladen werden:

	asm volatile("st     Z,  %0" :: "r" (0x02));
00000115  LDI R24,0x02		Load immediate 
00000116  LDI R25,0x00		Load immediate 
00000117  STD Z+0,R24		Store indirect with displacement

Wünschenswert wäre es, wenn die Werte geladen werden bevor die Schutzsignatur in das CCP-Register geschrieben wird. Das mehrfache Aufrufen von asm()-Befehlen ist zudem unschön und äußerst fehleranfällig, da sich der erzeugte Code ändern kann, bzw. die einzelnen asm()-Befehle nicht als ganzes betrachtet werden und der Compiler diese dadurch falsch interpretieren könnte. Es empfiehlt sich daher alle Assembler-Befehle in eine einzige asm()-Anweisung zu schreiben:

asm volatile(	"movw r30,  %0"        "\n\t"
                "ldi  r16,  %2"        "\n\t"
                "out   %3, r16"        "\n\t"
                "st     Z,  %1"       "\n\t"
                :: "r" (&CLK.CTRL), "r" (Source), "M" (CCP_IOREG_gc), "i" (&CCP) : "r16", "r30", "r31");

Zusätzlich wird noch eine Clobber-Liste verwendet um den Compiler über sich ändernde Register zu informieren. Damit ergibt sich das gewünschte Verhalten und der Code ist sauber geschrieben:

00000CDC  LDI R24,0x40		Load immediate 
00000CDD  LDI R25,0x00		Load immediate 
00000CDE  MOVW R30,R24		Copy register pair 
00000CDF  LDD R18,Z+0		Load indirect with displacement 
00000114  LDI R24,0x01		Load immediate 
00000115  LDI R25,0x00		Load immediate 
00000116  MOVW R30,R18		Copy register pair 
00000117  LDI R16,0xD8		Load immediate 
00000118  OUT 0x34,R16		Out to I/O location 
00000119  STD Z+0,R24		Store indirect with displacement

Das Register R24 wird mit der Adresse für das CLK.CTRL-Register geladen, welche dann in das Register R30 geschrieben wird. Nun wird der Wert für die Clocksource in das Register R24 geladen und der Wert der Schutzsignatur wird mittels OUT-Befehl in das CCP-Register geschrieben. Direkt mit dem nächsten Takt wird dann der Wert aus Register R24, also die 0x01, in das durch R30 adressierte Register geschrieben.

3 Kommentare

Stefan sagt:

27. August 2019 um 12:07 Uhr

Wenn ich:
asm volatile( „movw r30, %0“ „\n\t“
„ldi r16, %2“ „\n\t“
„out %3, r16“ „\n\t“
„st Z, %1“ „\n\t“
:: „r“ (&CLK.CTRL), „r“ (Source), „M“ (CCP_IOREG_gc), „i“ (&CCP) : „r16“, „r30“, „r31“);
So in meinen Quellcode einfüge, erhalte ich eine Fehlermeldung:
> ‚Source‘ undeclared (first use in this function)
Also Source ist nicht definert. Wie komme ich da raus?

Antworten
1. Kampi sagt:
  
  27. August 2019 um 13:10 Uhr
  
  Hallo Stefan,
  
  du musst auch schon den Funktionsheder mit einfügen :)
  Source ist der Übergabeparameter der Funktion.
  
  Gruß
  Daniel
  
  Antworten
stefan sagt:

27. August 2019 um 13:34 Uhr

Ich wollte es nicht als Funktion realsisieren.
Daber habe ich den asm Teil einfach in meinen restliche C-Code kopiert.
Jetzt habe ich ‚Source‘ durch das gewünschte Bitmuster (0b001)
ersetzt und jetzt geht es.
Fehlt nur noch ATOMIC?
Vielen Dank!

Antworten

Item-Tag	Beschreibung
Usage Page	Spezifiziert die Usage Page der verwendeten Elemente.
Logical Minimum	Kleinste logische Einheit die übertragen wird.
Logical Maximum	Größte logische Einheit die übertragen wird.
Physical Minimum	Das Feld Logical Minimum in physikalische Größen umgerechnet.
Physical Maximum	Das Feld Logical Maximum in physikalische Größen umgerechnet.
Unit Exponent	Einheitenexponent zur Basis 10 (z. B. 3 für Kilo)
Unit	Einheiten-ID um die Einheit des Datenfeldes festzulegen (z. B. 2 für Masse).
Report Size	Legt die Größe eines Datenfeldes für ein Element in Bit fest.
Report ID	Report ID für ein Element. Wenn ein Report ID-Element genutzt wird, werden alle Reports um ein 8-bit großes Datenfeld für die ID erweitert.
Report Count	Legt die Anzahl der Datenfelder für ein Element fest.
Push	Platziert eine Kopie der globalen Statustabelle der Elemente auf dem Stack.
Pop	Ersetzt die Statustabelle für die Elemente mit der aktuellen Tabelle vom Stack.

Item-Tag	Beschreibung
Input	Ausgelesene Daten von einem oder mehreren Steuerungselementen.
Output	Daten für die Steuerung von einem oder mehreren Elementen.
Feature	Ein- oder Ausgabedaten, die nicht für eine Interaktion mit dem Nutzer verwendet werden.
Collection	Eine Gruppierung von Input-, Output- oder Feature-Items.
End Collection	Markiert das Ende einer Collection.

bmRequestType	bReqest	wValue	wIndex	wLength	Data
0xA1	GET_REPORT (1)	Art des Reports und die Report-ID	Interface	Länge des Reports	Report
0xA1	GET_IDLE (2)	0	Interface	1	Idle-Zeit
0xA1	GET_PROTOCOL (3)	0	Interface	1	0 – Boot-Protokoll 1 – Report Protokoll
0x21	SET_REPORT (9)	Art des Reports und die Report ID	Interface	Länge des Reports	Report
0x21	SET_IDLE (10)	Idle-Zeit und Report-ID	Interface	0	–
0x21	SET_PROTOCOL (11)	0 – Boot-Protokoll 1 – Report Protokoll	Interface	0	–

Item-Tag	Beschreibung
Usage	Spezifiziert den Usage Index und ergibt zusammen mit der Usage Page die fertige Gruppe.
Usage Minimum	Definiert den Startwert für eine Gruppe von Anwendungszwecken für mehrere Eingabemethoden.
Usage Maximum	Definiert den Endwert für eine Gruppe von Anwendungszwecken für mehrere Eingabemethoden.
Designator Index	Bezeichner eines entsprechenden Physical-Deskriptors um die Art der Eingabe zu definieren.
Designator Minimum	Definiert den Startwert für eine Gruppe von Bezeichnern für mehrere Eingabemethoden.
Designator Maximum	Definiert den Endwert für eine Gruppe von Bezeichnern für mehrere Eingabemethoden.
String Index	Index des String-Deskriptors um die jeweilige Eingabemethode zu beschreiben.
String Minimum	Legt den Startwert für eine Gruppe von Strings fest um mehrere Eingabemethoden zu benennen.
String Maximum	Legt den Endwert für eine Gruppe von Strings fest um mehrere Eingabemethoden zu benennen.
Delimiter	Definiert den Angang (1) oder das Ende (0) eines lokalen Elements.

bmRequestType	bReqest	wValue	wIndex	wLength	Data
0x00 0x01 0x02	CLEAR_FEATURE (1)	Feature	Null Interface Endpunkt	0	–
0x80	GET_CONFIGURATION (8)	0	0	1	Konfiguration
0x80	GET_DESCRIPTOR (6)	Deskriptortyp (H) und Deskriptorindex (L)	Null oder Sprach ID	Länge des Deskriptors	Deskriptor
0x81	GET_INTERFACE (10)	0	Interface	1	Interface
0x80 0x81 0x82	GET_STATUS (0)	0	0 Interface Endpunkt	2	Gerät-, Interface- oder Endpunktstatus
0x00	SET_ADDRESS (5)	Geräteadresse	0	0	–
0x00	SET_CONFIGURATION (9)	Konfiguration	0	0	–
0x00	SET_DESCRIPTOR (7)	Deskriptortyp (H) und Deskriptorindex (L)	Null oder Sprach ID	Länge des Deskriptors	Deskriptor
0x00 0x01 0x02	SET_FEATURE (3)	Feature	0 Interface Endpunkt	0	–
0x01	SET_INTERFACE (11)	Interface	Interface	0	–
0x82	SYNCH_FRAME (12)	0	Endpunkt	2	Framezähler

AVR-GCC unter die Haube geschaut…

3 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Stringdeskriptor 0

Allgemeiner Stringdeskriptor

Offset	Feld	Größe	Beschreibung
0	bLength	1	Größe des Deskriptors in Bytes
1	bDescriptorType	1	ENDPOINT Deskriptor (Feld = 5)
2	bEndpointAddress	1	Adresse des Endpunktes
			Bit 7: Richtung	0 = OUT 1 = IN
			Bit 6 – 4	0
			Bit 3 – 0: Endpunktnummer	0 – 15
3	bmAttributes	1	Bit 7 – 6	0
			Bit 5 – 4: Verwendung	Nur für Isochrone Endpunkte. Andernfalls 0. 0 = Data endpoint 1 = Feedback endpoint 2 = Implicit feedback Data endpoint 3 = Reserved
			Bit 3 – 2: Synchronisation	Nur für Isochrone Endpunkte. Andernfalls 0. 0 = No Synchronisation 1 = Asynchronous 2 = Adaptive 3 = Synchronous
			Bit 1 – 0: Transfer	0 = Control 1 = Isochronous 2 = Bulk 3 = Interrupt
4	wMaxPacketSize	2	Maximale Paketgröße, die dieser Endpunkt senden oder empfangen kann
6	bInterval	1	Polling Intervall für den Endpunkt in ms Schritten für Low und Full Speed Devices oder in 125 us Schritten für High Speed Devices

Offset	Feld	Größe	Beschreibung
0	bLength	1	Größe des Deskriptors in Bytes
1	bDescriptorType	1	GERÄTE-Deskriptor (Feld = 0x01)
2	bcdUSB	2	Verwendete USB Version
4	bDeviceClass	1	Durch das USB-IF vergebener Klassencode
5	bDeviceSubClass	1	Durch das USB-IF vergebener Subklassencode
6	bDeviceProtocol	1	Durch das USB-IF vergebener Protokolcode
7	bMaxPacketSize0	1	Maximale Paketgröße für Endpunkt 0. Muss entweder 8, 16, 32 oder 64 sein
8	idVendor	2	Durch das USB-IF vergebene Vendor-ID
10	idProduct	2	Durch den Hersteller vergebene Produkt-ID
12	bcdDevice	2	Releasenummer des Gerätes
14	iManufacturer	1	Index des Stringdeskriptors, der den Hersteller beschreibt
15	iProduct	1	Index des Stringdeskriptors, der das Produkt beschreibt
16	iSerialNumber	1	Index des Stringdeskriptors, der die Seriennummer beschreibt
17	bNumConfigurations	1	Anzahl der Gerätekonfigurationen

Offset	Feld	Größe	Beschreibung
0	bLength	1	Größe des Deskriptors in Bytes
1	bDescriptorType	1	INTERFACE-Deskriptor (Feld = 0x04)
2	bInterfaceNumber	1	Interface ID
3	bAlternateSetting	1	Alternative Einstellungen für dieses Interface
4	bNumEndpoints	1	Anzahl der Endpunkte, die für dieses Interface genutzt werden (ohne Endpunkt 0)
5	bInterfaceClass	1	Durch das USB-IF vergebener Klassencode
6	bInterfaceSubClass	1	Durch das USB-IF vergebener Subklassencode
7	bInterfaceProtocol	1	Durch das USB-IF vergebener Protokollcode
8	iInterface	1	Index des Stringdeskriptors, der dieses Interface beschreibt

Offset	Feld	Größe	Beschreibung
0	bLength	1	Größe des Deskriptors in Bytes
1	bDescriptorType	1	STRING-Deskriptor (Feld = 0x03)
2	wLANGID[0]	2	LANGID Code 0
…	…	…	…
2 + x * 2	wLANGID[x]	2	LANGID Code x