update credits
[LibreOffice.git] / include / svtools / parhtml.hxx
blob7df1d76239bafbe6a4c7a53e4e62b742bbf152b6
1 /* -*- Mode: C++; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 4 -*- */
2 /*
3 * This file is part of the LibreOffice project.
5 * This Source Code Form is subject to the terms of the Mozilla Public
6 * License, v. 2.0. If a copy of the MPL was not distributed with this
7 * file, You can obtain one at http://mozilla.org/MPL/2.0/.
9 * This file incorporates work covered by the following license notice:
11 * Licensed to the Apache Software Foundation (ASF) under one or more
12 * contributor license agreements. See the NOTICE file distributed
13 * with this work for additional information regarding copyright
14 * ownership. The ASF licenses this file to you under the Apache
15 * License, Version 2.0 (the "License"); you may not use this file
16 * except in compliance with the License. You may obtain a copy of
17 * the License at http://www.apache.org/licenses/LICENSE-2.0 .
20 #ifndef _PARHTML_HXX
21 #define _PARHTML_HXX
23 #include "svtools/svtdllapi.h"
24 #include <tools/solar.h>
25 #include <tools/string.hxx>
26 #include <svtools/svparser.hxx>
28 #include <boost/ptr_container/ptr_vector.hpp>
30 namespace com { namespace sun { namespace star {
31 namespace document {
32 class XDocumentProperties;
34 } } }
36 class Color;
37 class SvNumberFormatter;
38 class SvKeyValueIterator;
40 #define HTMLFONTSZ1_DFLT 7
41 #define HTMLFONTSZ2_DFLT 10
42 #define HTMLFONTSZ3_DFLT 12
43 #define HTMLFONTSZ4_DFLT 14
44 #define HTMLFONTSZ5_DFLT 18
45 #define HTMLFONTSZ6_DFLT 24
46 #define HTMLFONTSZ7_DFLT 36
48 enum HTMLTableFrame { HTML_TF_VOID, HTML_TF_ABOVE, HTML_TF_BELOW,
49 HTML_TF_HSIDES, HTML_TF_LHS, HTML_TF_RHS, HTML_TF_VSIDES, HTML_TF_BOX };
51 enum HTMLTableRules { HTML_TR_NONE, HTML_TR_GROUPS, HTML_TR_ROWS,
52 HTML_TR_COLS, HTML_TR_ALL };
54 enum HTMLInputType
56 HTML_IT_TEXT = 0x01,
57 HTML_IT_PASSWORD = 0x02,
58 HTML_IT_CHECKBOX = 0x03,
59 HTML_IT_RADIO = 0x04,
60 HTML_IT_RANGE = 0x05,
61 HTML_IT_SCRIBBLE = 0x06,
62 HTML_IT_FILE = 0x07,
63 HTML_IT_HIDDEN = 0x08,
64 HTML_IT_SUBMIT = 0x09,
65 HTML_IT_IMAGE = 0x0a,
66 HTML_IT_RESET = 0x0b,
67 HTML_IT_BUTTON = 0x0c
70 enum HTMLScriptLanguage
72 HTML_SL_STARBASIC,
73 HTML_SL_JAVASCRIPT,
74 HTML_SL_UNKNOWN
77 struct HTMLOptionEnum
79 const sal_Char *pName; // Wert einer HTML-Option
80 sal_uInt16 nValue; // und der dazugehoerige Wert eines Enums
83 // Repraesentation einer HTML-Option (=Atrribut in einem Start-Tag)
84 // Die Werte der Optionen werden immer als String gespeichert.
85 // Die Methoden GetNumber, ... duerfen nur aufgerufen werden, wenn
86 // die Option auch numerisch, ... ist.
88 class SVT_DLLPUBLIC HTMLOption
90 String aValue; // der Wert der Option (immer als String)
91 String aToken; // der Name der Option als String
92 sal_uInt16 nToken; // und das entsprechende Token
94 public:
96 HTMLOption( sal_uInt16 nTyp, const String& rToken, const String& rValue );
98 // der Name der Option ...
99 sal_uInt16 GetToken() const { return nToken; } // ... als Enum
100 const String& GetTokenString() const { return aToken; } // ... als String
102 // der Wert der Option ...
103 const String& GetString() const { return aValue; } // ... als String
105 sal_uInt32 GetNumber() const; // ... als Zahl
106 sal_Int32 GetSNumber() const; // ... als Zahl
107 void GetNumbers( std::vector<sal_uInt32> &rNumbers, // ... als Zahlen
108 bool bSpaceDelim=false ) const;
109 void GetColor( Color& ) const; // ... als Farbe
111 // ... als Enum pOptEnums ist ein HTMLOptionEnum-Array
112 sal_uInt16 GetEnum( const HTMLOptionEnum *pOptEnums,
113 sal_uInt16 nDflt=0 ) const;
114 bool GetEnum( sal_uInt16 &rEnum, const HTMLOptionEnum *pOptEnums ) const;
116 // ... und als ein par spezielle Enums
117 HTMLInputType GetInputType() const; // <INPUT TYPE=...>
118 HTMLTableFrame GetTableFrame() const; // <TABLE FRAME=...>
119 HTMLTableRules GetTableRules() const; // <TABLE RULES=...>
120 //SvxAdjust GetAdjust() const; // <P,TH,TD ALIGN=>
123 typedef ::boost::ptr_vector<HTMLOption> HTMLOptions;
125 class SVT_DLLPUBLIC HTMLParser : public SvParser
127 private:
128 mutable HTMLOptions maOptions; // die Optionen des Start-Tags
130 bool bNewDoc : 1; // neues Doc lesen ?
131 bool bIsInHeader : 1; // scanne Header-Bereich
132 bool bIsInBody : 1; // scanne Body-Bereich
133 bool bReadListing : 1; // Lese Listings
134 bool bReadXMP : 1; // Lese XMP
135 bool bReadPRE : 1; // Lese preformatted Text
136 bool bReadTextArea : 1; // Lese TEXTAREA
137 bool bReadScript : 1; // Lesen von <SCRIPT>
138 bool bReadStyle : 1; // Lesen von <STYLE>
139 bool bEndTokenFound : 1; // </SCRIPT> oder </STYLE> gefunden
141 bool bPre_IgnoreNewPara : 1; // Flags fuers lesen von PRE-Absaetzen
142 bool bReadNextChar : 1; // true: NextChar nochmals lesen (JavaScript!)
143 bool bReadComment : 1; // true: NextChar nochmals lesen (JavaScript!)
145 sal_uInt32 nPre_LinePos; // Pos in der Line im PRE-Tag
147 int mnPendingOffToken; ///< OFF token pending for a <XX.../> ON/OFF ON token
149 String aEndToken;
151 protected:
152 String sSaveToken; // das gelesene Tag als String
154 int ScanText( const sal_Unicode cBreak = 0U );
156 int _GetNextRawToken();
158 // scanne das naechste Token,
159 virtual int _GetNextToken();
161 virtual ~HTMLParser();
163 void FinishHeader( bool bBody ) { bIsInHeader = false; bIsInBody = bBody; }
165 public:
166 HTMLParser( SvStream& rIn, bool bReadNewDoc = true );
168 virtual SvParserState CallParser(); // Aufruf des Parsers
170 bool IsNewDoc() const { return bNewDoc; }
171 bool IsInHeader() const { return bIsInHeader; }
172 bool IsInBody() const { return bIsInBody; }
173 bool IsValidSyntax() const { return true; }
174 bool IsReadListing() const { return bReadListing; }
175 bool IsReadXMP() const { return bReadXMP; }
176 bool IsReadPRE() const { return bReadPRE; }
177 bool IsReadScript() const { return bReadScript; }
178 bool IsReadStyle() const { return bReadStyle; }
180 void SetReadNextChar() { bReadNextChar = true; }
182 // PRE-/LISTING oder XMP-Modus starten/beenden oder Tags entsprechend
183 // filtern
184 inline void StartPRE( bool bRestart=false );
185 void FinishPRE() { bReadPRE = false; }
186 int FilterPRE( int nToken );
188 inline void StartListing( bool bRestart=false );
189 void FinishListing() { bReadListing = false; }
190 int FilterListing( int nToken );
192 inline void StartXMP( bool bRestart=false );
193 void FinishXMP() { bReadXMP = false; }
194 int FilterXMP( int nToken );
196 void FinishTextArea() { bReadTextArea = false; }
198 // PRE-/LSITING- und XMP-Modus beenden
199 void FinishPREListingXMP() { bReadPRE = bReadListing = bReadXMP = false; }
201 // Das aktuelle Token dem aktuellen Modus (PRE, XMP, ...) entsprechend
202 // Filtern und die Flags setzen. Wird von Continue aufgerufen, bevor
203 // NextToken gerufen wird. Wer eigene Schleifen implementiert bzw.
204 // selbst NextToken aufruft, sollte diese Methode vorher rufen.
205 int FilterToken( int nToken );
207 // Scannen eines Scripts beenden (sollte nur unmittelbar nach dem
208 // Lesen eines <SCRIPT> aufgerufen werden
209 void EndScanScript() { bReadScript = false; }
211 void ReadRawData( const sal_Char *pEndToken ) { aEndToken.AssignAscii(pEndToken); }
213 // Token ohne \-Sequenzen
214 void UnescapeToken();
216 // Ermitteln der Optionen. pNoConvertToken ist das optionale Token
217 // einer Option, fuer die CR/LFs nicht aus dem Wert der Option
218 // geloescht werden.
219 const HTMLOptions& GetOptions( sal_uInt16 *pNoConvertToken=0 ) const;
221 // fuers asynchrone lesen aus dem SvStream
222 virtual void Continue( int nToken );
225 protected:
227 static rtl_TextEncoding GetEncodingByMIME( const String& rMime );
229 /// template method: called when ParseMetaOptions adds a user-defined meta
230 virtual void AddMetaUserDefined( OUString const & i_rMetaName );
232 private:
233 /// parse meta options into XDocumentProperties and encoding
234 bool ParseMetaOptionsImpl( const ::com::sun::star::uno::Reference<
235 ::com::sun::star::document::XDocumentProperties>&,
236 SvKeyValueIterator*,
237 const HTMLOptions&,
238 rtl_TextEncoding& rEnc );
240 public:
241 /// overriding method must call this implementation!
242 virtual bool ParseMetaOptions( const ::com::sun::star::uno::Reference<
243 ::com::sun::star::document::XDocumentProperties>&,
244 SvKeyValueIterator* );
246 // Ist der uebergebene 0-terminierte String (vermutlich) der Anfang
247 // eines HTML-Files? Er sollte mind. 80 Zeichen lang sein.
248 // Mit Ausnahme des Falls, dass SwitchToUCS2==false und
249 // SVPAR_CS_DONTKNOW uebergeben wird muss der String mit zwei(!)
250 // 0-Bytes an einer geraden(!) Position terminiert sein.
251 static bool IsHTMLFormat( const sal_Char* pHeader,
252 bool bSwitchToUCS2 = false,
253 rtl_TextEncoding eEnc=RTL_TEXTENCODING_DONTKNOW );
255 bool ParseScriptOptions( String& rLangString, const String&, HTMLScriptLanguage& rLang,
256 String& rSrc, String& rLibrary, String& rModule );
258 // Einen Kommentar um den Inhalt von <SCRIPT> oder <STYLE> entfernen
259 // Bei 'bFull' wird ggf. die gesammte Zeile hinter einem "<!--"
260 // entfernt (fuer JavaSript)
261 static void RemoveSGMLComment( String &rString, sal_Bool bFull );
263 static bool InternalImgToPrivateURL( String& rURL );
264 static rtl_TextEncoding GetEncodingByHttpHeader( SvKeyValueIterator *pHTTPHeader );
265 bool SetEncodingByHTTPHeader( SvKeyValueIterator *pHTTPHeader );
268 inline void HTMLParser::StartPRE( bool bRestart )
270 bReadPRE = true;
271 bPre_IgnoreNewPara = !bRestart;
272 nPre_LinePos = 0UL;
275 inline void HTMLParser::StartListing( bool bRestart )
277 bReadListing = true;
278 bPre_IgnoreNewPara = !bRestart;
279 nPre_LinePos = 0UL;
282 inline void HTMLParser::StartXMP( bool bRestart )
284 bReadXMP = true;
285 bPre_IgnoreNewPara = !bRestart;
286 nPre_LinePos = 0UL;
289 #endif
291 /* vim:set shiftwidth=4 softtabstop=4 expandtab: */