Move the unicode identifiers (_Py_Identifer) to _PyRuntimeState.

python · ericsnowcurrently · Dec 16, 2021 · Dec 16, 2021 · Dec 17, 2021 · Dec 17, 2021
commit e79afd9acda243ecbc6927a2d233cef8e9ffc164
@@ -54,6 +54,17 @@ struct _Py_global_objects {
          * -_PY_NSMALLNEGINTS (inclusive) to _PY_NSMALLPOSINTS (exclusive).
          */
         PyLongObject small_ints[_PY_NSMALLNEGINTS + _PY_NSMALLPOSINTS];
+
+        /* Unicode identifiers (_Py_Identifier): see _PyUnicode_FromId() */
+        struct _Py_unicode_ids {
+            PyThread_type_lock lock;
+            // next_index value must be preserved when Py_Initialize()/Py_Finalize()
+            // is called multiple times: see _PyUnicode_FromId() implementation.
+            Py_ssize_t next_index;
+
+            Py_ssize_t size;
+            PyObject **array;
+        } unicode_ids;
     } singletons;
 };
 

@@ -116,8 +116,6 @@ typedef struct pyruntimestate {
     void *open_code_userdata;
     _Py_AuditHookEntry *audit_hook_head;
 
-    struct _Py_unicode_runtime_ids unicode_ids;
-
     struct _Py_global_objects global_objects;
     // If anything gets added after global_objects then
     // _PyRuntimeState_reset() needs to get updated to clear it.

diff --git a/Include/internal/pycore_unicodeobject.h b/Include/internal/pycore_unicodeobject.h
@@ -19,13 +19,6 @@ extern void _PyUnicode_Fini(PyInterpreterState *);
 
 /* other API */
 
-struct _Py_unicode_runtime_ids {
-    PyThread_type_lock lock;
-    // next_index value must be preserved when Py_Initialize()/Py_Finalize()
-    // is called multiple times: see _PyUnicode_FromId() implementation.
-    Py_ssize_t next_index;
-};
-
 /* fs_codec.encoding is initialized to NULL.
    Later, it is set to a non-NULL string by _PyUnicode_InitEncodings(). */
 struct _Py_unicode_fs_codec {
@@ -35,11 +28,6 @@ struct _Py_unicode_fs_codec {
     _Py_error_handler error_handler;
 };
 
-struct _Py_unicode_ids {
-    Py_ssize_t size;
-    PyObject **array;
-};
-
 struct _Py_unicode_state {
     // The empty Unicode object is a singleton to improve performance.
     PyObject *empty_string;
@@ -57,9 +45,6 @@ struct _Py_unicode_state {
        count of a string is:  s->ob_refcnt + (s->state ? 2 : 0)
     */
     PyObject *interned;
-
-    // Unicode identifiers (_Py_Identifier): see _PyUnicode_FromId()
-    struct _Py_unicode_ids ids;
 };
 
 extern void _PyUnicode_ClearInterned(PyInterpreterState *);

diff --git a/Objects/unicodeobject.c b/Objects/unicodeobject.c
@@ -233,6 +233,8 @@ static int unicode_is_singleton(PyObject *unicode);
 #endif
 
 
+#define IDENTIFIERS _Py_SINGLETON(unicode_ids)
+
 static struct _Py_unicode_state*
 get_unicode_state(void)
 {
@@ -2331,30 +2333,25 @@ PyUnicode_FromString(const char *u)
 PyObject *
 _PyUnicode_FromId(_Py_Identifier *id)
 {
-    PyInterpreterState *interp = _PyInterpreterState_GET();
-    struct _Py_unicode_ids *ids = &interp->unicode.ids;
-
     Py_ssize_t index = _Py_atomic_size_get(&id->index);
     if (index < 0) {
-        struct _Py_unicode_runtime_ids *rt_ids = &interp->runtime->unicode_ids;
-
-        PyThread_acquire_lock(rt_ids->lock, WAIT_LOCK);
+        PyThread_acquire_lock(IDENTIFIERS.lock, WAIT_LOCK);
         // Check again to detect concurrent access. Another thread can have
         // initialized the index while this thread waited for the lock.
         index = _Py_atomic_size_get(&id->index);
         if (index < 0) {
-            assert(rt_ids->next_index < PY_SSIZE_T_MAX);
-            index = rt_ids->next_index;
-            rt_ids->next_index++;
+            assert(IDENTIFIERS.next_index < PY_SSIZE_T_MAX);
+            index = IDENTIFIERS.next_index;
+            IDENTIFIERS.next_index++;
             _Py_atomic_size_set(&id->index, index);
         }
-        PyThread_release_lock(rt_ids->lock);
+        PyThread_release_lock(IDENTIFIERS.lock);
     }
     assert(index >= 0);
 
     PyObject *obj;
-    if (index < ids->size) {
-        obj = ids->array[index];
+    if (index < IDENTIFIERS.size) {
+        obj = IDENTIFIERS.array[index];
         if (obj) {
             // Return a borrowed reference
             return obj;
@@ -2368,38 +2365,37 @@ _PyUnicode_FromId(_Py_Identifier *id)
     }
     PyUnicode_InternInPlace(&obj);
 
-    if (index >= ids->size) {
+    if (index >= IDENTIFIERS.size) {
         // Overallocate to reduce the number of realloc
         Py_ssize_t new_size = Py_MAX(index * 2, 16);
-        Py_ssize_t item_size = sizeof(ids->array[0]);
-        PyObject **new_array = PyMem_Realloc(ids->array, new_size * item_size);
+        Py_ssize_t item_size = sizeof(IDENTIFIERS.array[0]);
+        PyObject **new_array = PyMem_Realloc(IDENTIFIERS.array, new_size * item_size);
         if (new_array == NULL) {
             PyErr_NoMemory();
             return NULL;
         }
-        memset(&new_array[ids->size], 0, (new_size - ids->size) * item_size);
-        ids->array = new_array;
-        ids->size = new_size;
+        memset(&new_array[IDENTIFIERS.size], 0, (new_size - IDENTIFIERS.size) * item_size);
+        IDENTIFIERS.array = new_array;
+        IDENTIFIERS.size = new_size;
     }
 
     // The array stores a strong reference
-    ids->array[index] = obj;
+    IDENTIFIERS.array[index] = obj;
 
     // Return a borrowed reference
     return obj;
 }
 
 
 static void
-unicode_clear_identifiers(struct _Py_unicode_state *state)
+unicode_clear_identifiers(void)
 {
-    struct _Py_unicode_ids *ids = &state->ids;
-    for (Py_ssize_t i=0; i < ids->size; i++) {
-        Py_XDECREF(ids->array[i]);
+    for (Py_ssize_t i=0; i < IDENTIFIERS.size; i++) {
+        Py_XDECREF(IDENTIFIERS.array[i]);
     }
-    ids->size = 0;
-    PyMem_Free(ids->array);
-    ids->array = NULL;
+    IDENTIFIERS.size = 0;
+    PyMem_Free(IDENTIFIERS.array);
+    IDENTIFIERS.array = NULL;
     // Don't reset _PyRuntime next_index: _Py_Identifier.id remains valid
     // after Py_Finalize().
 }
@@ -16095,7 +16091,7 @@ _PyUnicode_Fini(PyInterpreterState *interp)
 
     _PyUnicode_FiniEncodings(&state->fs_codec);
 
-    unicode_clear_identifiers(state);
+    unicode_clear_identifiers();
 
     for (Py_ssize_t i = 0; i < 256; i++) {
         Py_CLEAR(state->latin1[i]);

@@ -120,8 +120,9 @@ init_runtime(_PyRuntimeState *runtime,
     // Set it to the ID of the main thread of the main interpreter.
     runtime->main_thread = PyThread_get_thread_ident();
 
-    runtime->unicode_ids.next_index = unicode_next_index;
-    runtime->unicode_ids.lock = unicode_ids_mutex;
+    struct _Py_unicode_ids *ids = &runtime->global_objects.singletons.unicode_ids;
+    ids->next_index = unicode_next_index;
+    ids->lock = unicode_ids_mutex;
 
     runtime->_initialized = 1;
 }
@@ -137,7 +138,8 @@ _PyRuntimeState_Init(_PyRuntimeState *runtime)
     _Py_AuditHookEntry *audit_hook_head = runtime->audit_hook_head;
     // bpo-42882: Preserve next_index value if Py_Initialize()/Py_Finalize()
     // is called multiple times.
-    Py_ssize_t unicode_next_index = runtime->unicode_ids.next_index;
+    struct _Py_unicode_ids *ids = &runtime->global_objects.singletons.unicode_ids;
+    Py_ssize_t unicode_next_index = ids->next_index;
 
     PyThread_type_lock lock1, lock2, lock3;
     if (alloc_for_runtime(&lock1, &lock2, &lock3) != 0) {
@@ -164,7 +166,8 @@ _PyRuntimeState_Fini(_PyRuntimeState *runtime)
 
     FREE_LOCK(runtime->interpreters.mutex);
     FREE_LOCK(runtime->xidregistry.mutex);
-    FREE_LOCK(runtime->unicode_ids.lock);
+    struct _Py_unicode_ids *ids = &runtime->global_objects.singletons.unicode_ids;
+    FREE_LOCK(ids->lock);
 
 #undef FREE_LOCK
     PyMem_SetAllocator(PYMEM_DOMAIN_RAW, &old_alloc);
@@ -186,7 +189,8 @@ _PyRuntimeState_ReInitThreads(_PyRuntimeState *runtime)
 
     int reinit_interp = _PyThread_at_fork_reinit(&runtime->interpreters.mutex);
     int reinit_xidregistry = _PyThread_at_fork_reinit(&runtime->xidregistry.mutex);
-    int reinit_unicode_ids = _PyThread_at_fork_reinit(&runtime->unicode_ids.lock);
+    struct _Py_unicode_ids *ids = &runtime->global_objects.singletons.unicode_ids;
+    int reinit_unicode_ids = _PyThread_at_fork_reinit(&ids->lock);
 
     PyMem_SetAllocator(PYMEM_DOMAIN_RAW, &old_alloc);