http urls monitor.

lexer.go 23KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871872873874875876877878879880881882883884885886887888889890891892893894895896897898899900901902903904905906907908909910911912913914915916917918919920921922923924925926927928929930931932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969970971972973974975976977978979980981982983984985986987988989990991992993994995996997998999100010011002100310041005100610071008100910101011101210131014101510161017101810191020102110221023102410251026102710281029103010311032103310341035103610371038103910401041104210431044104510461047104810491050105110521053105410551056105710581059106010611062106310641065106610671068106910701071107210731074107510761077107810791080108110821083108410851086108710881089109010911092109310941095109610971098109911001101110211031104110511061107110811091110111111121113111411151116111711181119112011211122112311241125112611271128112911301131113211331134113511361137113811391140114111421143114411451146114711481149115011511152115311541155115611571158115911601161116211631164116511661167116811691170117111721173117411751176117711781179118011811182
  1. // Package jlexer contains a JSON lexer implementation.
  2. //
  3. // It is expected that it is mostly used with generated parser code, so the interface is tuned
  4. // for a parser that knows what kind of data is expected.
  5. package jlexer
  6. import (
  7. "encoding/base64"
  8. "encoding/json"
  9. "errors"
  10. "fmt"
  11. "io"
  12. "strconv"
  13. "unicode"
  14. "unicode/utf16"
  15. "unicode/utf8"
  16. )
  17. // tokenKind determines type of a token.
  18. type tokenKind byte
  19. const (
  20. tokenUndef tokenKind = iota // No token.
  21. tokenDelim // Delimiter: one of '{', '}', '[' or ']'.
  22. tokenString // A string literal, e.g. "abc\u1234"
  23. tokenNumber // Number literal, e.g. 1.5e5
  24. tokenBool // Boolean literal: true or false.
  25. tokenNull // null keyword.
  26. )
  27. // token describes a single token: type, position in the input and value.
  28. type token struct {
  29. kind tokenKind // Type of a token.
  30. boolValue bool // Value if a boolean literal token.
  31. byteValue []byte // Raw value of a token.
  32. delimValue byte
  33. }
  34. // Lexer is a JSON lexer: it iterates over JSON tokens in a byte slice.
  35. type Lexer struct {
  36. Data []byte // Input data given to the lexer.
  37. start int // Start of the current token.
  38. pos int // Current unscanned position in the input stream.
  39. token token // Last scanned token, if token.kind != tokenUndef.
  40. firstElement bool // Whether current element is the first in array or an object.
  41. wantSep byte // A comma or a colon character, which need to occur before a token.
  42. UseMultipleErrors bool // If we want to use multiple errors.
  43. fatalError error // Fatal error occurred during lexing. It is usually a syntax error.
  44. multipleErrors []*LexerError // Semantic errors occurred during lexing. Marshalling will be continued after finding this errors.
  45. }
  46. // FetchToken scans the input for the next token.
  47. func (r *Lexer) FetchToken() {
  48. r.token.kind = tokenUndef
  49. r.start = r.pos
  50. // Check if r.Data has r.pos element
  51. // If it doesn't, it mean corrupted input data
  52. if len(r.Data) < r.pos {
  53. r.errParse("Unexpected end of data")
  54. return
  55. }
  56. // Determine the type of a token by skipping whitespace and reading the
  57. // first character.
  58. for _, c := range r.Data[r.pos:] {
  59. switch c {
  60. case ':', ',':
  61. if r.wantSep == c {
  62. r.pos++
  63. r.start++
  64. r.wantSep = 0
  65. } else {
  66. r.errSyntax()
  67. }
  68. case ' ', '\t', '\r', '\n':
  69. r.pos++
  70. r.start++
  71. case '"':
  72. if r.wantSep != 0 {
  73. r.errSyntax()
  74. }
  75. r.token.kind = tokenString
  76. r.fetchString()
  77. return
  78. case '{', '[':
  79. if r.wantSep != 0 {
  80. r.errSyntax()
  81. }
  82. r.firstElement = true
  83. r.token.kind = tokenDelim
  84. r.token.delimValue = r.Data[r.pos]
  85. r.pos++
  86. return
  87. case '}', ']':
  88. if !r.firstElement && (r.wantSep != ',') {
  89. r.errSyntax()
  90. }
  91. r.wantSep = 0
  92. r.token.kind = tokenDelim
  93. r.token.delimValue = r.Data[r.pos]
  94. r.pos++
  95. return
  96. case '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-':
  97. if r.wantSep != 0 {
  98. r.errSyntax()
  99. }
  100. r.token.kind = tokenNumber
  101. r.fetchNumber()
  102. return
  103. case 'n':
  104. if r.wantSep != 0 {
  105. r.errSyntax()
  106. }
  107. r.token.kind = tokenNull
  108. r.fetchNull()
  109. return
  110. case 't':
  111. if r.wantSep != 0 {
  112. r.errSyntax()
  113. }
  114. r.token.kind = tokenBool
  115. r.token.boolValue = true
  116. r.fetchTrue()
  117. return
  118. case 'f':
  119. if r.wantSep != 0 {
  120. r.errSyntax()
  121. }
  122. r.token.kind = tokenBool
  123. r.token.boolValue = false
  124. r.fetchFalse()
  125. return
  126. default:
  127. r.errSyntax()
  128. return
  129. }
  130. }
  131. r.fatalError = io.EOF
  132. return
  133. }
  134. // isTokenEnd returns true if the char can follow a non-delimiter token
  135. func isTokenEnd(c byte) bool {
  136. return c == ' ' || c == '\t' || c == '\r' || c == '\n' || c == '[' || c == ']' || c == '{' || c == '}' || c == ',' || c == ':'
  137. }
  138. // fetchNull fetches and checks remaining bytes of null keyword.
  139. func (r *Lexer) fetchNull() {
  140. r.pos += 4
  141. if r.pos > len(r.Data) ||
  142. r.Data[r.pos-3] != 'u' ||
  143. r.Data[r.pos-2] != 'l' ||
  144. r.Data[r.pos-1] != 'l' ||
  145. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  146. r.pos -= 4
  147. r.errSyntax()
  148. }
  149. }
  150. // fetchTrue fetches and checks remaining bytes of true keyword.
  151. func (r *Lexer) fetchTrue() {
  152. r.pos += 4
  153. if r.pos > len(r.Data) ||
  154. r.Data[r.pos-3] != 'r' ||
  155. r.Data[r.pos-2] != 'u' ||
  156. r.Data[r.pos-1] != 'e' ||
  157. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  158. r.pos -= 4
  159. r.errSyntax()
  160. }
  161. }
  162. // fetchFalse fetches and checks remaining bytes of false keyword.
  163. func (r *Lexer) fetchFalse() {
  164. r.pos += 5
  165. if r.pos > len(r.Data) ||
  166. r.Data[r.pos-4] != 'a' ||
  167. r.Data[r.pos-3] != 'l' ||
  168. r.Data[r.pos-2] != 's' ||
  169. r.Data[r.pos-1] != 'e' ||
  170. (r.pos != len(r.Data) && !isTokenEnd(r.Data[r.pos])) {
  171. r.pos -= 5
  172. r.errSyntax()
  173. }
  174. }
  175. // fetchNumber scans a number literal token.
  176. func (r *Lexer) fetchNumber() {
  177. hasE := false
  178. afterE := false
  179. hasDot := false
  180. r.pos++
  181. for i, c := range r.Data[r.pos:] {
  182. switch {
  183. case c >= '0' && c <= '9':
  184. afterE = false
  185. case c == '.' && !hasDot:
  186. hasDot = true
  187. case (c == 'e' || c == 'E') && !hasE:
  188. hasE = true
  189. hasDot = true
  190. afterE = true
  191. case (c == '+' || c == '-') && afterE:
  192. afterE = false
  193. default:
  194. r.pos += i
  195. if !isTokenEnd(c) {
  196. r.errSyntax()
  197. } else {
  198. r.token.byteValue = r.Data[r.start:r.pos]
  199. }
  200. return
  201. }
  202. }
  203. r.pos = len(r.Data)
  204. r.token.byteValue = r.Data[r.start:]
  205. }
  206. // findStringLen tries to scan into the string literal for ending quote char to determine required size.
  207. // The size will be exact if no escapes are present and may be inexact if there are escaped chars.
  208. func findStringLen(data []byte) (isValid, hasEscapes bool, length int) {
  209. delta := 0
  210. for i := 0; i < len(data); i++ {
  211. switch data[i] {
  212. case '\\':
  213. i++
  214. delta++
  215. if i < len(data) && data[i] == 'u' {
  216. delta++
  217. }
  218. case '"':
  219. return true, (delta > 0), (i - delta)
  220. }
  221. }
  222. return false, false, len(data)
  223. }
  224. // getu4 decodes \uXXXX from the beginning of s, returning the hex value,
  225. // or it returns -1.
  226. func getu4(s []byte) rune {
  227. if len(s) < 6 || s[0] != '\\' || s[1] != 'u' {
  228. return -1
  229. }
  230. var val rune
  231. for i := 2; i < len(s) && i < 6; i++ {
  232. var v byte
  233. c := s[i]
  234. switch c {
  235. case '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':
  236. v = c - '0'
  237. case 'a', 'b', 'c', 'd', 'e', 'f':
  238. v = c - 'a' + 10
  239. case 'A', 'B', 'C', 'D', 'E', 'F':
  240. v = c - 'A' + 10
  241. default:
  242. return -1
  243. }
  244. val <<= 4
  245. val |= rune(v)
  246. }
  247. return val
  248. }
  249. // processEscape processes a single escape sequence and returns number of bytes processed.
  250. func (r *Lexer) processEscape(data []byte) (int, error) {
  251. if len(data) < 2 {
  252. return 0, fmt.Errorf("syntax error at %v", string(data))
  253. }
  254. c := data[1]
  255. switch c {
  256. case '"', '/', '\\':
  257. r.token.byteValue = append(r.token.byteValue, c)
  258. return 2, nil
  259. case 'b':
  260. r.token.byteValue = append(r.token.byteValue, '\b')
  261. return 2, nil
  262. case 'f':
  263. r.token.byteValue = append(r.token.byteValue, '\f')
  264. return 2, nil
  265. case 'n':
  266. r.token.byteValue = append(r.token.byteValue, '\n')
  267. return 2, nil
  268. case 'r':
  269. r.token.byteValue = append(r.token.byteValue, '\r')
  270. return 2, nil
  271. case 't':
  272. r.token.byteValue = append(r.token.byteValue, '\t')
  273. return 2, nil
  274. case 'u':
  275. rr := getu4(data)
  276. if rr < 0 {
  277. return 0, errors.New("syntax error")
  278. }
  279. read := 6
  280. if utf16.IsSurrogate(rr) {
  281. rr1 := getu4(data[read:])
  282. if dec := utf16.DecodeRune(rr, rr1); dec != unicode.ReplacementChar {
  283. read += 6
  284. rr = dec
  285. } else {
  286. rr = unicode.ReplacementChar
  287. }
  288. }
  289. var d [4]byte
  290. s := utf8.EncodeRune(d[:], rr)
  291. r.token.byteValue = append(r.token.byteValue, d[:s]...)
  292. return read, nil
  293. }
  294. return 0, errors.New("syntax error")
  295. }
  296. // fetchString scans a string literal token.
  297. func (r *Lexer) fetchString() {
  298. r.pos++
  299. data := r.Data[r.pos:]
  300. isValid, hasEscapes, length := findStringLen(data)
  301. if !isValid {
  302. r.pos += length
  303. r.errParse("unterminated string literal")
  304. return
  305. }
  306. if !hasEscapes {
  307. r.token.byteValue = data[:length]
  308. r.pos += length + 1
  309. return
  310. }
  311. r.token.byteValue = make([]byte, 0, length)
  312. p := 0
  313. for i := 0; i < len(data); {
  314. switch data[i] {
  315. case '"':
  316. r.pos += i + 1
  317. r.token.byteValue = append(r.token.byteValue, data[p:i]...)
  318. i++
  319. return
  320. case '\\':
  321. r.token.byteValue = append(r.token.byteValue, data[p:i]...)
  322. off, err := r.processEscape(data[i:])
  323. if err != nil {
  324. r.errParse(err.Error())
  325. return
  326. }
  327. i += off
  328. p = i
  329. default:
  330. i++
  331. }
  332. }
  333. r.errParse("unterminated string literal")
  334. }
  335. // scanToken scans the next token if no token is currently available in the lexer.
  336. func (r *Lexer) scanToken() {
  337. if r.token.kind != tokenUndef || r.fatalError != nil {
  338. return
  339. }
  340. r.FetchToken()
  341. }
  342. // consume resets the current token to allow scanning the next one.
  343. func (r *Lexer) consume() {
  344. r.token.kind = tokenUndef
  345. r.token.delimValue = 0
  346. }
  347. // Ok returns true if no error (including io.EOF) was encountered during scanning.
  348. func (r *Lexer) Ok() bool {
  349. return r.fatalError == nil
  350. }
  351. const maxErrorContextLen = 13
  352. func (r *Lexer) errParse(what string) {
  353. if r.fatalError == nil {
  354. var str string
  355. if len(r.Data)-r.pos <= maxErrorContextLen {
  356. str = string(r.Data)
  357. } else {
  358. str = string(r.Data[r.pos:r.pos+maxErrorContextLen-3]) + "..."
  359. }
  360. r.fatalError = &LexerError{
  361. Reason: what,
  362. Offset: r.pos,
  363. Data: str,
  364. }
  365. }
  366. }
  367. func (r *Lexer) errSyntax() {
  368. r.errParse("syntax error")
  369. }
  370. func (r *Lexer) errInvalidToken(expected string) {
  371. if r.fatalError != nil {
  372. return
  373. }
  374. if r.UseMultipleErrors {
  375. r.pos = r.start
  376. r.consume()
  377. r.SkipRecursive()
  378. switch expected {
  379. case "[":
  380. r.token.delimValue = ']'
  381. r.token.kind = tokenDelim
  382. case "{":
  383. r.token.delimValue = '}'
  384. r.token.kind = tokenDelim
  385. }
  386. r.addNonfatalError(&LexerError{
  387. Reason: fmt.Sprintf("expected %s", expected),
  388. Offset: r.start,
  389. Data: string(r.Data[r.start:r.pos]),
  390. })
  391. return
  392. }
  393. var str string
  394. if len(r.token.byteValue) <= maxErrorContextLen {
  395. str = string(r.token.byteValue)
  396. } else {
  397. str = string(r.token.byteValue[:maxErrorContextLen-3]) + "..."
  398. }
  399. r.fatalError = &LexerError{
  400. Reason: fmt.Sprintf("expected %s", expected),
  401. Offset: r.pos,
  402. Data: str,
  403. }
  404. }
  405. func (r *Lexer) GetPos() int {
  406. return r.pos
  407. }
  408. // Delim consumes a token and verifies that it is the given delimiter.
  409. func (r *Lexer) Delim(c byte) {
  410. if r.token.kind == tokenUndef && r.Ok() {
  411. r.FetchToken()
  412. }
  413. if !r.Ok() || r.token.delimValue != c {
  414. r.consume() // errInvalidToken can change token if UseMultipleErrors is enabled.
  415. r.errInvalidToken(string([]byte{c}))
  416. } else {
  417. r.consume()
  418. }
  419. }
  420. // IsDelim returns true if there was no scanning error and next token is the given delimiter.
  421. func (r *Lexer) IsDelim(c byte) bool {
  422. if r.token.kind == tokenUndef && r.Ok() {
  423. r.FetchToken()
  424. }
  425. return !r.Ok() || r.token.delimValue == c
  426. }
  427. // Null verifies that the next token is null and consumes it.
  428. func (r *Lexer) Null() {
  429. if r.token.kind == tokenUndef && r.Ok() {
  430. r.FetchToken()
  431. }
  432. if !r.Ok() || r.token.kind != tokenNull {
  433. r.errInvalidToken("null")
  434. }
  435. r.consume()
  436. }
  437. // IsNull returns true if the next token is a null keyword.
  438. func (r *Lexer) IsNull() bool {
  439. if r.token.kind == tokenUndef && r.Ok() {
  440. r.FetchToken()
  441. }
  442. return r.Ok() && r.token.kind == tokenNull
  443. }
  444. // Skip skips a single token.
  445. func (r *Lexer) Skip() {
  446. if r.token.kind == tokenUndef && r.Ok() {
  447. r.FetchToken()
  448. }
  449. r.consume()
  450. }
  451. // SkipRecursive skips next array or object completely, or just skips a single token if not
  452. // an array/object.
  453. //
  454. // Note: no syntax validation is performed on the skipped data.
  455. func (r *Lexer) SkipRecursive() {
  456. r.scanToken()
  457. var start, end byte
  458. if r.token.delimValue == '{' {
  459. start, end = '{', '}'
  460. } else if r.token.delimValue == '[' {
  461. start, end = '[', ']'
  462. } else {
  463. r.consume()
  464. return
  465. }
  466. r.consume()
  467. level := 1
  468. inQuotes := false
  469. wasEscape := false
  470. for i, c := range r.Data[r.pos:] {
  471. switch {
  472. case c == start && !inQuotes:
  473. level++
  474. case c == end && !inQuotes:
  475. level--
  476. if level == 0 {
  477. r.pos += i + 1
  478. return
  479. }
  480. case c == '\\' && inQuotes:
  481. wasEscape = !wasEscape
  482. continue
  483. case c == '"' && inQuotes:
  484. inQuotes = wasEscape
  485. case c == '"':
  486. inQuotes = true
  487. }
  488. wasEscape = false
  489. }
  490. r.pos = len(r.Data)
  491. r.fatalError = &LexerError{
  492. Reason: "EOF reached while skipping array/object or token",
  493. Offset: r.pos,
  494. Data: string(r.Data[r.pos:]),
  495. }
  496. }
  497. // Raw fetches the next item recursively as a data slice
  498. func (r *Lexer) Raw() []byte {
  499. r.SkipRecursive()
  500. if !r.Ok() {
  501. return nil
  502. }
  503. return r.Data[r.start:r.pos]
  504. }
  505. // IsStart returns whether the lexer is positioned at the start
  506. // of an input string.
  507. func (r *Lexer) IsStart() bool {
  508. return r.pos == 0
  509. }
  510. // Consumed reads all remaining bytes from the input, publishing an error if
  511. // there is anything but whitespace remaining.
  512. func (r *Lexer) Consumed() {
  513. if r.pos > len(r.Data) || !r.Ok() {
  514. return
  515. }
  516. for _, c := range r.Data[r.pos:] {
  517. if c != ' ' && c != '\t' && c != '\r' && c != '\n' {
  518. r.AddError(&LexerError{
  519. Reason: "invalid character '" + string(c) + "' after top-level value",
  520. Offset: r.pos,
  521. Data: string(r.Data[r.pos:]),
  522. })
  523. return
  524. }
  525. r.pos++
  526. r.start++
  527. }
  528. }
  529. func (r *Lexer) unsafeString() (string, []byte) {
  530. if r.token.kind == tokenUndef && r.Ok() {
  531. r.FetchToken()
  532. }
  533. if !r.Ok() || r.token.kind != tokenString {
  534. r.errInvalidToken("string")
  535. return "", nil
  536. }
  537. bytes := r.token.byteValue
  538. ret := bytesToStr(r.token.byteValue)
  539. r.consume()
  540. return ret, bytes
  541. }
  542. // UnsafeString returns the string value if the token is a string literal.
  543. //
  544. // Warning: returned string may point to the input buffer, so the string should not outlive
  545. // the input buffer. Intended pattern of usage is as an argument to a switch statement.
  546. func (r *Lexer) UnsafeString() string {
  547. ret, _ := r.unsafeString()
  548. return ret
  549. }
  550. // UnsafeBytes returns the byte slice if the token is a string literal.
  551. func (r *Lexer) UnsafeBytes() []byte {
  552. _, ret := r.unsafeString()
  553. return ret
  554. }
  555. // String reads a string literal.
  556. func (r *Lexer) String() string {
  557. if r.token.kind == tokenUndef && r.Ok() {
  558. r.FetchToken()
  559. }
  560. if !r.Ok() || r.token.kind != tokenString {
  561. r.errInvalidToken("string")
  562. return ""
  563. }
  564. ret := string(r.token.byteValue)
  565. r.consume()
  566. return ret
  567. }
  568. // Bytes reads a string literal and base64 decodes it into a byte slice.
  569. func (r *Lexer) Bytes() []byte {
  570. if r.token.kind == tokenUndef && r.Ok() {
  571. r.FetchToken()
  572. }
  573. if !r.Ok() || r.token.kind != tokenString {
  574. r.errInvalidToken("string")
  575. return nil
  576. }
  577. ret := make([]byte, base64.StdEncoding.DecodedLen(len(r.token.byteValue)))
  578. n, err := base64.StdEncoding.Decode(ret, r.token.byteValue)
  579. if err != nil {
  580. r.fatalError = &LexerError{
  581. Reason: err.Error(),
  582. }
  583. return nil
  584. }
  585. r.consume()
  586. return ret[:n]
  587. }
  588. // Bool reads a true or false boolean keyword.
  589. func (r *Lexer) Bool() bool {
  590. if r.token.kind == tokenUndef && r.Ok() {
  591. r.FetchToken()
  592. }
  593. if !r.Ok() || r.token.kind != tokenBool {
  594. r.errInvalidToken("bool")
  595. return false
  596. }
  597. ret := r.token.boolValue
  598. r.consume()
  599. return ret
  600. }
  601. func (r *Lexer) number() string {
  602. if r.token.kind == tokenUndef && r.Ok() {
  603. r.FetchToken()
  604. }
  605. if !r.Ok() || r.token.kind != tokenNumber {
  606. r.errInvalidToken("number")
  607. return ""
  608. }
  609. ret := bytesToStr(r.token.byteValue)
  610. r.consume()
  611. return ret
  612. }
  613. func (r *Lexer) Uint8() uint8 {
  614. s := r.number()
  615. if !r.Ok() {
  616. return 0
  617. }
  618. n, err := strconv.ParseUint(s, 10, 8)
  619. if err != nil {
  620. r.addNonfatalError(&LexerError{
  621. Offset: r.start,
  622. Reason: err.Error(),
  623. Data: s,
  624. })
  625. }
  626. return uint8(n)
  627. }
  628. func (r *Lexer) Uint16() uint16 {
  629. s := r.number()
  630. if !r.Ok() {
  631. return 0
  632. }
  633. n, err := strconv.ParseUint(s, 10, 16)
  634. if err != nil {
  635. r.addNonfatalError(&LexerError{
  636. Offset: r.start,
  637. Reason: err.Error(),
  638. Data: s,
  639. })
  640. }
  641. return uint16(n)
  642. }
  643. func (r *Lexer) Uint32() uint32 {
  644. s := r.number()
  645. if !r.Ok() {
  646. return 0
  647. }
  648. n, err := strconv.ParseUint(s, 10, 32)
  649. if err != nil {
  650. r.addNonfatalError(&LexerError{
  651. Offset: r.start,
  652. Reason: err.Error(),
  653. Data: s,
  654. })
  655. }
  656. return uint32(n)
  657. }
  658. func (r *Lexer) Uint64() uint64 {
  659. s := r.number()
  660. if !r.Ok() {
  661. return 0
  662. }
  663. n, err := strconv.ParseUint(s, 10, 64)
  664. if err != nil {
  665. r.addNonfatalError(&LexerError{
  666. Offset: r.start,
  667. Reason: err.Error(),
  668. Data: s,
  669. })
  670. }
  671. return n
  672. }
  673. func (r *Lexer) Uint() uint {
  674. return uint(r.Uint64())
  675. }
  676. func (r *Lexer) Int8() int8 {
  677. s := r.number()
  678. if !r.Ok() {
  679. return 0
  680. }
  681. n, err := strconv.ParseInt(s, 10, 8)
  682. if err != nil {
  683. r.addNonfatalError(&LexerError{
  684. Offset: r.start,
  685. Reason: err.Error(),
  686. Data: s,
  687. })
  688. }
  689. return int8(n)
  690. }
  691. func (r *Lexer) Int16() int16 {
  692. s := r.number()
  693. if !r.Ok() {
  694. return 0
  695. }
  696. n, err := strconv.ParseInt(s, 10, 16)
  697. if err != nil {
  698. r.addNonfatalError(&LexerError{
  699. Offset: r.start,
  700. Reason: err.Error(),
  701. Data: s,
  702. })
  703. }
  704. return int16(n)
  705. }
  706. func (r *Lexer) Int32() int32 {
  707. s := r.number()
  708. if !r.Ok() {
  709. return 0
  710. }
  711. n, err := strconv.ParseInt(s, 10, 32)
  712. if err != nil {
  713. r.addNonfatalError(&LexerError{
  714. Offset: r.start,
  715. Reason: err.Error(),
  716. Data: s,
  717. })
  718. }
  719. return int32(n)
  720. }
  721. func (r *Lexer) Int64() int64 {
  722. s := r.number()
  723. if !r.Ok() {
  724. return 0
  725. }
  726. n, err := strconv.ParseInt(s, 10, 64)
  727. if err != nil {
  728. r.addNonfatalError(&LexerError{
  729. Offset: r.start,
  730. Reason: err.Error(),
  731. Data: s,
  732. })
  733. }
  734. return n
  735. }
  736. func (r *Lexer) Int() int {
  737. return int(r.Int64())
  738. }
  739. func (r *Lexer) Uint8Str() uint8 {
  740. s, b := r.unsafeString()
  741. if !r.Ok() {
  742. return 0
  743. }
  744. n, err := strconv.ParseUint(s, 10, 8)
  745. if err != nil {
  746. r.addNonfatalError(&LexerError{
  747. Offset: r.start,
  748. Reason: err.Error(),
  749. Data: string(b),
  750. })
  751. }
  752. return uint8(n)
  753. }
  754. func (r *Lexer) Uint16Str() uint16 {
  755. s, b := r.unsafeString()
  756. if !r.Ok() {
  757. return 0
  758. }
  759. n, err := strconv.ParseUint(s, 10, 16)
  760. if err != nil {
  761. r.addNonfatalError(&LexerError{
  762. Offset: r.start,
  763. Reason: err.Error(),
  764. Data: string(b),
  765. })
  766. }
  767. return uint16(n)
  768. }
  769. func (r *Lexer) Uint32Str() uint32 {
  770. s, b := r.unsafeString()
  771. if !r.Ok() {
  772. return 0
  773. }
  774. n, err := strconv.ParseUint(s, 10, 32)
  775. if err != nil {
  776. r.addNonfatalError(&LexerError{
  777. Offset: r.start,
  778. Reason: err.Error(),
  779. Data: string(b),
  780. })
  781. }
  782. return uint32(n)
  783. }
  784. func (r *Lexer) Uint64Str() uint64 {
  785. s, b := r.unsafeString()
  786. if !r.Ok() {
  787. return 0
  788. }
  789. n, err := strconv.ParseUint(s, 10, 64)
  790. if err != nil {
  791. r.addNonfatalError(&LexerError{
  792. Offset: r.start,
  793. Reason: err.Error(),
  794. Data: string(b),
  795. })
  796. }
  797. return n
  798. }
  799. func (r *Lexer) UintStr() uint {
  800. return uint(r.Uint64Str())
  801. }
  802. func (r *Lexer) UintptrStr() uintptr {
  803. return uintptr(r.Uint64Str())
  804. }
  805. func (r *Lexer) Int8Str() int8 {
  806. s, b := r.unsafeString()
  807. if !r.Ok() {
  808. return 0
  809. }
  810. n, err := strconv.ParseInt(s, 10, 8)
  811. if err != nil {
  812. r.addNonfatalError(&LexerError{
  813. Offset: r.start,
  814. Reason: err.Error(),
  815. Data: string(b),
  816. })
  817. }
  818. return int8(n)
  819. }
  820. func (r *Lexer) Int16Str() int16 {
  821. s, b := r.unsafeString()
  822. if !r.Ok() {
  823. return 0
  824. }
  825. n, err := strconv.ParseInt(s, 10, 16)
  826. if err != nil {
  827. r.addNonfatalError(&LexerError{
  828. Offset: r.start,
  829. Reason: err.Error(),
  830. Data: string(b),
  831. })
  832. }
  833. return int16(n)
  834. }
  835. func (r *Lexer) Int32Str() int32 {
  836. s, b := r.unsafeString()
  837. if !r.Ok() {
  838. return 0
  839. }
  840. n, err := strconv.ParseInt(s, 10, 32)
  841. if err != nil {
  842. r.addNonfatalError(&LexerError{
  843. Offset: r.start,
  844. Reason: err.Error(),
  845. Data: string(b),
  846. })
  847. }
  848. return int32(n)
  849. }
  850. func (r *Lexer) Int64Str() int64 {
  851. s, b := r.unsafeString()
  852. if !r.Ok() {
  853. return 0
  854. }
  855. n, err := strconv.ParseInt(s, 10, 64)
  856. if err != nil {
  857. r.addNonfatalError(&LexerError{
  858. Offset: r.start,
  859. Reason: err.Error(),
  860. Data: string(b),
  861. })
  862. }
  863. return n
  864. }
  865. func (r *Lexer) IntStr() int {
  866. return int(r.Int64Str())
  867. }
  868. func (r *Lexer) Float32() float32 {
  869. s := r.number()
  870. if !r.Ok() {
  871. return 0
  872. }
  873. n, err := strconv.ParseFloat(s, 32)
  874. if err != nil {
  875. r.addNonfatalError(&LexerError{
  876. Offset: r.start,
  877. Reason: err.Error(),
  878. Data: s,
  879. })
  880. }
  881. return float32(n)
  882. }
  883. func (r *Lexer) Float32Str() float32 {
  884. s, b := r.unsafeString()
  885. if !r.Ok() {
  886. return 0
  887. }
  888. n, err := strconv.ParseFloat(s, 32)
  889. if err != nil {
  890. r.addNonfatalError(&LexerError{
  891. Offset: r.start,
  892. Reason: err.Error(),
  893. Data: string(b),
  894. })
  895. }
  896. return float32(n)
  897. }
  898. func (r *Lexer) Float64() float64 {
  899. s := r.number()
  900. if !r.Ok() {
  901. return 0
  902. }
  903. n, err := strconv.ParseFloat(s, 64)
  904. if err != nil {
  905. r.addNonfatalError(&LexerError{
  906. Offset: r.start,
  907. Reason: err.Error(),
  908. Data: s,
  909. })
  910. }
  911. return n
  912. }
  913. func (r *Lexer) Float64Str() float64 {
  914. s, b := r.unsafeString()
  915. if !r.Ok() {
  916. return 0
  917. }
  918. n, err := strconv.ParseFloat(s, 64)
  919. if err != nil {
  920. r.addNonfatalError(&LexerError{
  921. Offset: r.start,
  922. Reason: err.Error(),
  923. Data: string(b),
  924. })
  925. }
  926. return n
  927. }
  928. func (r *Lexer) Error() error {
  929. return r.fatalError
  930. }
  931. func (r *Lexer) AddError(e error) {
  932. if r.fatalError == nil {
  933. r.fatalError = e
  934. }
  935. }
  936. func (r *Lexer) AddNonFatalError(e error) {
  937. r.addNonfatalError(&LexerError{
  938. Offset: r.start,
  939. Data: string(r.Data[r.start:r.pos]),
  940. Reason: e.Error(),
  941. })
  942. }
  943. func (r *Lexer) addNonfatalError(err *LexerError) {
  944. if r.UseMultipleErrors {
  945. // We don't want to add errors with the same offset.
  946. if len(r.multipleErrors) != 0 && r.multipleErrors[len(r.multipleErrors)-1].Offset == err.Offset {
  947. return
  948. }
  949. r.multipleErrors = append(r.multipleErrors, err)
  950. return
  951. }
  952. r.fatalError = err
  953. }
  954. func (r *Lexer) GetNonFatalErrors() []*LexerError {
  955. return r.multipleErrors
  956. }
  957. // JsonNumber fetches and json.Number from 'encoding/json' package.
  958. // Both int, float or string, contains them are valid values
  959. func (r *Lexer) JsonNumber() json.Number {
  960. if r.token.kind == tokenUndef && r.Ok() {
  961. r.FetchToken()
  962. }
  963. if !r.Ok() {
  964. r.errInvalidToken("json.Number")
  965. return json.Number("")
  966. }
  967. switch r.token.kind {
  968. case tokenString:
  969. return json.Number(r.String())
  970. case tokenNumber:
  971. return json.Number(r.Raw())
  972. case tokenNull:
  973. r.Null()
  974. return json.Number("")
  975. default:
  976. r.errSyntax()
  977. return json.Number("")
  978. }
  979. }
  980. // Interface fetches an interface{} analogous to the 'encoding/json' package.
  981. func (r *Lexer) Interface() interface{} {
  982. if r.token.kind == tokenUndef && r.Ok() {
  983. r.FetchToken()
  984. }
  985. if !r.Ok() {
  986. return nil
  987. }
  988. switch r.token.kind {
  989. case tokenString:
  990. return r.String()
  991. case tokenNumber:
  992. return r.Float64()
  993. case tokenBool:
  994. return r.Bool()
  995. case tokenNull:
  996. r.Null()
  997. return nil
  998. }
  999. if r.token.delimValue == '{' {
  1000. r.consume()
  1001. ret := map[string]interface{}{}
  1002. for !r.IsDelim('}') {
  1003. key := r.String()
  1004. r.WantColon()
  1005. ret[key] = r.Interface()
  1006. r.WantComma()
  1007. }
  1008. r.Delim('}')
  1009. if r.Ok() {
  1010. return ret
  1011. } else {
  1012. return nil
  1013. }
  1014. } else if r.token.delimValue == '[' {
  1015. r.consume()
  1016. var ret []interface{}
  1017. for !r.IsDelim(']') {
  1018. ret = append(ret, r.Interface())
  1019. r.WantComma()
  1020. }
  1021. r.Delim(']')
  1022. if r.Ok() {
  1023. return ret
  1024. } else {
  1025. return nil
  1026. }
  1027. }
  1028. r.errSyntax()
  1029. return nil
  1030. }
  1031. // WantComma requires a comma to be present before fetching next token.
  1032. func (r *Lexer) WantComma() {
  1033. r.wantSep = ','
  1034. r.firstElement = false
  1035. }
  1036. // WantColon requires a colon to be present before fetching next token.
  1037. func (r *Lexer) WantColon() {
  1038. r.wantSep = ':'
  1039. r.firstElement = false
  1040. }