Однако, на тестовом utf-8 файле при попытке его вывести, Парсер тихо спотыкается (или что происходит, пока я не понял)

dimolezhkin 20.07.2021 18:53 / 20.07.2021 19:15

и для работы парсера она не существенна.

Вот это я как раз и пытаюсь выяснить боем, и вот во что я _пока_ воткнулся

1) Есть utf-8 стресс-тестовый файл от некоего Dr.Markus Kuhn
https://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

который был создан спровоцировать всякие utf-8 декодеры и валидаторы на всевозможные типы некорректных utf-8 последовательностей

Занимает он примерно 22.7Кб

2) По ссылке выше он прекрасно открывается в актуальном хроме в text/plain (все невалидные бяки выглядят как вопросики или окошечки, как в общем и должно быть)

3) Если же попытаться загрузить его Парсером и отдать, как-то так:

$request:charset[utf-8]
$response:charset[utf-8]
$response:content-type[
	$.value[text/plain]
	$.charset[$response:charset]
]

$f[^file::load[binary;/UTF-8-test.txt]]
-- start --
^untaint{$f.text}
-- end --

То получим только примерно 4кб текста вида:

-- start --
UTF-8 decoder capability and stress test
----------------------------------------

Markus Kuhn <http://www.cl.cam.ac.uk/~mgk25/> - 2015-08-28 - CC BY 4.0

This test file can help you examine, how your UTF-8 decoder handles
various types of correct, malformed, or otherwise interesting UTF-8

...

2.1  First possible sequence of a certain length                              |
                                                                              |
2.1.1  1 byte  (U-00000000):        "
-- end --

Т.е. вывод споткнётся на строчке 2.1.1 стресс-тестового файла

лимит на загружаемый файл проверил (стоит 512Мб как было в корневом
auto.p в default-конфиге)

$LIMITS[
  $.max_file_size(512*0x400*0x400)
...
]

Причем, и в text/html куда нить в тег <pre></pre> или в <textarea></textarea> - эффект одинаковый. Грешить на "неотображение самим браузером не приходится", т.к. и wget выкачивает 4Кб ответ (да и пример файла с домашней страницы автора файла открывается вроде без проблем).

Грузил файл и в binary и в text,
и таинтизмы на всякий случай делал

и

^untaint{$f.text}

и

$str[^taint[as-is][$f.text]]
$str

Результат одинаковый - вывод прерывается на п.2.1.1 этого файла.

Хорошо бы понимать, что происходит, лучше бы ругалось, но оно не ругается, а просто съедает тихо.

P.S.: Т.е. чисто технически задача или вопрос стоит так:
1) Вот есть text/plain файл по ссылке = https://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

2) Как мне Парсером (со встроенным веб-сервером) отдать этот файл так же (полностью) как он отдается веб-сервером домашней страницы автора?

Но в идеале конечно понять ситуацию.

Подскажите невалидную UTF-8 последовательность для чтения файла (и обработку ситуации), dimolezhkin 19.07.2021 17:08
- вызвать match, moko [M] 20.07.2021 01:51
  - Однако, на тестовом utf-8 файле при попытке его вывести, Парсер тихо спотыкается (или что происходит, пока я не понял), dimolezhkin 20.07.2021 18:53 / 20.07.2021 19:15
    - UPD: Съедает оно на стадии чтения в буфер (видимо), т.к. match уже спокойно отрабатывает по этому., dimolezhkin 20.07.2021 19:30 / 20.07.2021 19:54
      - Ответ, moko [M] 21.07.2021 00:41
        Кстати, а что-то при $response:body - при text/plain - заголовок ответа с обозначением кодировки нифига не выставляется., dimolezhkin 21.07.2021 11:19 / 21.07.2021 11:20
        Ответ, moko [M] 21.07.2021 13:27
        Так бы я точно не додумался :) (-), dimolezhkin 21.07.2021 18:50
        Workaround типа втыкания bom-последовательности в начале utf-8 text/plain файла - таки заставляет браузер "переосмыслить" iso в utf-8, dimolezhkin 21.07.2021 12:15
        Да, это я в конце экспериментов понял, жаль что..., dimolezhkin 21.07.2021 10:56 / 21.07.2021 10:57
        С 3.4.6 - можно, moko [M] 21.07.2021 11:36
        Ух ты, прикольно что появилось, для экспериментов все равно хорошо (-), dimolezhkin 21.07.2021 12:16

Новости	FAQ	Авторы	Документация	В действии	Библиотека
Инструменты	Полезные ссылки	Хостинги	Скачать	Примеры	Форум