Change CDATA to RAWTEXT (spec r3562). This breaks test-compat.

gsnedders · gsnedders · commit 7d29315fcaf1 · 2009-10-23T10:46:46.000+02:00
diff --git a/src/html5lib/constants.py b/src/html5lib/constants.py
@@ -267,7 +267,7 @@
 contentModelFlags = {
     "PCDATA":0,
     "RCDATA":1,
-    "CDATA":2,
+    "RAWTEXT":2,
     "PLAINTEXT":3
 }
 
diff --git a/src/html5lib/html5parser.py b/src/html5lib/html5parser.py
@@ -77,7 +77,7 @@ def __init__(self, tree = simpletree.TreeBuilder,
             # XXX "inHeadNoscript": InHeadNoScriptPhase(self, self.tree),
             "afterHead": AfterHeadPhase(self, self.tree),
             "inBody": InBodyPhase(self, self.tree),
-            "inCDataRCData": InCDataRCDataPhase(self, self.tree),
+            "inRCDataRawtext": InRCDataRawtextPhase(self, self.tree),
             "inTable": InTablePhase(self, self.tree),
             "inTableText": InTableTextPhase(self, self.tree),
             "inCaption": InCaptionPhase(self, self.tree),
@@ -126,7 +126,7 @@ def reset(self):
             if self.innerHTML in cdataElements:
                 self.tokenizer.contentModelFlag = tokenizer.contentModelFlags["RCDATA"]
             elif self.innerHTML in rcdataElements:
-                self.tokenizer.contentModelFlag = tokenizer.contentModelFlags["CDATA"]
+                self.tokenizer.contentModelFlag = tokenizer.contentModelFlags["RAWTEXT"]
             elif self.innerHTML == 'plaintext':
                 self.tokenizer.contentModelFlag = tokenizer.contentModelFlags["PLAINTEXT"]
             else:
@@ -391,18 +391,18 @@ def resetInsertionMode(self):
                 self.phase = self.phases["inBody"]
                 break
 
-    def parseRCDataCData(self, token, contentType):
-        """Generic (R)CDATA Parsing algorithm
-        contentType - RCDATA or CDATA
+    def parseRCDataRawtext(self, token, contentType):
+        """Generic RCDATA/RAWTEXT Parsing algorithm
+        contentType - RCDATA or RAWTEXT
         """
-        assert contentType in ("CDATA", "RCDATA")
+        assert contentType in ("RAWTEXT", "RCDATA")
         
         element = self.tree.insertElement(token)
         self.tokenizer.contentModelFlag = contentModelFlags[contentType]
 
         self.originalPhase = self.phase
 
-        self.phase = self.phases["inCDataRCData"]
+        self.phase = self.phases["inRCDataRawtext"]
 
 class Phase(object):
     """Base class for helper object that implements each phase of processing
@@ -746,16 +746,16 @@ def startTagMeta(self, token):
                 self.parser.tokenizer.stream.changeEncoding(codec)
 
     def startTagTitle(self, token):
-        self.parser.parseRCDataCData(token, "RCDATA")
+        self.parser.parseRCDataRawtext(token, "RCDATA")
 
     def startTagNoScriptNoFramesStyle(self, token):
         #Need to decide whether to implement the scripting-disabled case
-        self.parser.parseRCDataCData(token, "CDATA")
+        self.parser.parseRCDataRawtext(token, "RAWTEXT")
 
     def startTagScript(self, token):
-        #I think this is equivalent to the CDATA stuff since we don't execute script
+        #I think this is equivalent to the RAWTEXT stuff since we don't execute script
         #self.tree.insertElement(token)
-        self.parser.parseRCDataCData(token, "CDATA")
+        self.parser.parseRCDataRawtext(token, "RAWTEXT")
 
     def startTagOther(self, token):
         self.anythingElse()
@@ -887,7 +887,7 @@ def __init__(self, parser, tree):
             ("isindex", self.startTagIsIndex),
             ("textarea", self.startTagTextarea),
             ("iframe", self.startTagIFrame),
-            (("noembed", "noframes", "noscript"), self.startTagCdata),
+            (("noembed", "noframes", "noscript"), self.startTagRawtext),
             ("select", self.startTagSelect),
             (("rp", "rt"), self.startTagRpRt),
             (("option", "optgroup"), self.startTagOpt),
@@ -1100,7 +1100,7 @@ def startTagXmp(self, token):
             self.endTagP(impliedTagToken("p"))
         self.tree.reconstructActiveFormattingElements()
         self.parser.framesetOK = False
-        self.parser.parseRCDataCData(token, "CDATA")
+        self.parser.parseRCDataRawtext(token, "RAWTEXT")
 
     def startTagTable(self, token):
         if self.parser.compatMode != "quirks":
@@ -1179,11 +1179,11 @@ def startTagTextarea(self, token):
 
     def startTagIFrame(self, token):
         self.parser.framesetOK = False
-        self.startTagCdata(token)
+        self.startTagRawtext(token)
 
-    def startTagCdata(self, token):
+    def startTagRawtext(self, token):
         """iframe, noembed noframes, noscript(if scripting enabled)"""
-        self.parser.parseRCDataCData(token, "CDATA")
+        self.parser.parseRCDataRawtext(token, "RAWTEXT")
 
     def startTagOpt(self, token):
         if self.tree.elementInScope("option"):
@@ -1520,7 +1520,7 @@ def endTagOther(self, token):
                     self.parser.parseError("unexpected-end-tag", {"name": token["name"]})
                     break
 
-class InCDataRCDataPhase(Phase):
+class InRCDataRawtextPhase(Phase):
     def __init__(self, parser, tree):
         Phase.__init__(self, parser, tree)
         self.startTagHandler = utils.MethodDispatcher([])
@@ -1540,7 +1540,7 @@ def processEOF(self):
         self.parser.phase.processEOF()
 
     def startTagOther(self, token):
-        assert False, "Tried to process start tag %s in (R)CDATA mode"%name
+        assert False, "Tried to process start tag %s in RCDATA/RAWTEXT mode"%name
 
     def endTagScript(self, token):
         node = self.tree.openElements.pop()
diff --git a/src/html5lib/tokenizer.py b/src/html5lib/tokenizer.py
@@ -265,7 +265,7 @@ def dataState(self):
 
         # Keep a charbuffer to handle the escapeFlag
         if (self.contentModelFlag in
-            (contentModelFlags["CDATA"], contentModelFlags["RCDATA"])):
+            (contentModelFlags["RAWTEXT"], contentModelFlags["RCDATA"])):
             if len(self.lastFourChars) == 4:
                 self.lastFourChars.pop(0)
             self.lastFourChars.append(data)
@@ -276,20 +276,20 @@ def dataState(self):
             not self.escapeFlag):
             self.state = self.entityDataState
         elif (data == "-" and self.contentModelFlag in
-              (contentModelFlags["CDATA"], contentModelFlags["RCDATA"]) and 
+              (contentModelFlags["RAWTEXT"], contentModelFlags["RCDATA"]) and 
               not self.escapeFlag and "".join(self.lastFourChars) == "<!--"):
             self.escapeFlag = True
             self.tokenQueue.append({"type": tokenTypes["Characters"], 
                                     "data":data})
         elif (data == "<" and (self.contentModelFlag == 
                                contentModelFlags["PCDATA"]
                                or (self.contentModelFlag in
-                                   (contentModelFlags["CDATA"],
+                                   (contentModelFlags["RAWTEXT"],
                                     contentModelFlags["RCDATA"]) and
                                    self.escapeFlag == False))):
             self.state = self.tagOpenState
         elif (data == ">" and self.contentModelFlag in
-              (contentModelFlags["CDATA"], contentModelFlags["RCDATA"]) and
+              (contentModelFlags["RAWTEXT"], contentModelFlags["RCDATA"]) and
               self.escapeFlag and "".join(self.lastFourChars)[1:] == "-->"):
             self.escapeFlag = False
             self.tokenQueue.append({"type": tokenTypes["Characters"], "data":data})
@@ -308,7 +308,7 @@ def dataState(self):
             # any <!-- or --> sequences
         else:
             if (self.contentModelFlag in
-                (contentModelFlags["CDATA"], contentModelFlags["RCDATA"])):
+                (contentModelFlags["RAWTEXT"], contentModelFlags["RCDATA"])):
                 chars = self.stream.charsUntil((u"&", u"<", u">", u"-"))
                 self.lastFourChars += chars[-4:]
                 self.lastFourChars = self.lastFourChars[-4:]
@@ -358,7 +358,7 @@ def tagOpenState(self):
                 self.stream.unget(data)
                 self.state = self.dataState
         else:
-            # We know the content model flag is set to either RCDATA or CDATA
+            # We know the content model flag is set to either RCDATA or RAWTEXT
             # now because this state can never be entered with the PLAINTEXT
             # flag.
             if data == u"/":
@@ -371,7 +371,7 @@ def tagOpenState(self):
 
     def closeTagOpenState(self):
         if (self.contentModelFlag in (contentModelFlags["RCDATA"],
-            contentModelFlags["CDATA"])):
+            contentModelFlags["RAWTEXT"])):
 
             charStack = []
             if self.currentToken:

Original file line number	Diff line number	Diff line change
`@@ -267,7 +267,7 @@`
`267`	`267`	`contentModelFlags = {`
`268`	`268`	`"PCDATA":0,`
`269`	`269`	`"RCDATA":1,`
`270`		`- "CDATA":2,`
	`270`	`+ "RAWTEXT":2,`
`271`	`271`	`"PLAINTEXT":3`
`272`	`272`	`}`
`273`	`273`