Вы здесьМожно ли справиться с этой хреновиной?
Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic
Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 48 мин.
Isais RE:Багрепорт - 2 5 часов konst1 RE:Файнридер для Win11 1 день Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день larin RE:Оплатил, но абонемент не отображается 3 дня sem14 RE:Книжная серия «Сlio» издательства "Евразия" 6 дней Isais RE:Национальный конкурс на лучшее литературное произведение... 6 дней Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 6 дней sem14 RE:Современная корейская литература. Книжная серия... 6 дней sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 1 неделя larin RE:Оплатил,но абонемент не отображается 1 неделя larin RE:Оплатил, но абонемент не отображается 1 неделя sd RE:Fishing 1 неделя Алексей111111111111 RE:Оплатила,но абонемент не отображается 1 неделя sd RE:Доступ 27 1 неделя kopak RE:Беженцы с Флибусты 2 недели Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 2 недели Isais RE:Семейственность в литературе 2 недели Впечатления о книгах
Barbud про Ланцов: Железный лев (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
02 08 Тетушки, в первой половине XIX века употребляющие названия "ацетон" и "серная кислота" - явный анахронизм, тогда эти вещества назывались по-другому. А так вообще - типичная махровая ланцовщина. ГГ круче каленых яиц, всяких ……… Оценка: плохо
mysevra про Блэквуд: Вендиго [сборник litres] (Ужасы, Фэнтези, Городское фэнтези)
02 08 Чувствуется несовременность текста: деликатность в описании, сдержанность и отсутствие показной кровожадности. Оценка: хорошо
mysevra про Кинг: Долгая прогулка [The Long Walk ru] (Социальная фантастика)
02 08 Ого, меня проняло. Это же надо уметь так излагать (да и переводить тоже). Хорошая история, заставляет задуматься, не зря включена в список ALA. Оценка: отлично!
mysevra про Пиккирилли: Осколки [The Shards ru] (Ужасы, Триллер)
02 08 С ужасами здесь не густо. Скорее вялотекущий «крутой детектив», в котором главный герой с тёмным прошлым спит с красавицами и мутит – по его же словам – воду. Не хватает многозначительной сцены на пирсе в дождливую ночь под звуки саксофона. Оценка: хорошо
Aleks_Sim про Стопичев: СВО. Босиком по стеклу (Современная проза, Публицистика, О войне)
01 08 Русским, где бы они не жили никто не мешает, а вот бандеровцам мешают - поляки, венгры, сербы и конечно русские... Оценка: отлично!
Perca про Шаргородский: Защитник феи [СИ] (Городское фэнтези, Самиздат, сетевая литература)
01 08 Даже не верится, что Шаргородский закончил хоть одну серию! Щось у лісі здохло... Оценка: хорошо
дядя_Андрей про Крусанов: Совиная тропа [litres] (Историческая проза, Современная проза)
31 07 А, что, разве десятые тоже были "ревущие", как девяностые?
Лысенко Владимир Андреевич про Стопичев: СВО. Босиком по стеклу (Современная проза, Публицистика, О войне)
31 07 Как и во все времена русским весь мир мешает, были бы в мире одни русские все было хорошо, а то весь мир против русских. Оценка: нечитаемо
miri.ness_ про Катаев: Трава забвенья (Биографии и Мемуары)
30 07 Да, "Трава забвения" - отличная книга, как и "Алмазный мой венец", обложка от которого есть, а книги в этой раздаче нет. Как-то непонятно, какую третью повесть кто-то имел в виду: "Святой колодец" или "Уже написан Вертер"? ……… Оценка: отлично!
Олег Макаров. про Илья Городчиков
30 07 Удивительное отсутствие у автора умения согласовывать предложения. Невозможно читать
epoost про Спрингер: Энола Холмс и маркиз в мышеловке [The Case Of The Missing Marquess] (Детская проза)
30 07 Данная книга представлена в формате фото и нуждается в OCR и конвертации в формат FB2.
Никос Костакис про Петр Алмазный
29 07 Nicout, не будем спорить, был ли доступен автору приведенный вами список "гранита науки". Вполне достаточно того, что тост шашлычника из "Кавказской пленницы" ("Так випьем за кибэрнэтикэ!") был услышан каждым обывателем ……… |
Комментарии
RE:Можно ли справиться с этой хреновиной?
Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.
RE:Можно ли справиться с этой хреновиной?
А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
AdnaÃ
UÃ
dÃguin
snádud
dálaigh
degree of ClÃ
RE:Можно ли справиться с этой хреновиной?
А может в другом формате поискать?
RE:Можно ли справиться с этой хреновиной?
Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
RE:Можно ли справиться с этой хреновиной?
Пробовал это дело. Нормального варианта поиск не находит.
RE:Можно ли справиться с этой хреновиной?
Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
RE:Можно ли справиться с этой хреновиной?
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/
RE:Можно ли справиться с этой хреновиной?
Спасибо.
В какой проге лучше менять кодировки?
RE:Можно ли справиться с этой хреновиной?
Штирлицом пробывали?
RE:Можно ли справиться с этой хреновиной?
Не-а. Что за зверь такой?
RE:Можно ли справиться с этой хреновиной?
Shtirlitz IV
специально для исправления сбитых кодировок
RE:Можно ли справиться с этой хреновиной?
Видимо это не мой случай. она ведь работает только с русским языком?
RE:Можно ли справиться с этой хреновиной?
Он работает не с языками, а с со сбившимися кодировками. Пробуйте.
RE:Можно ли справиться с этой хреновиной?
iconv
RE:Можно ли справиться с этой хреновиной?
Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.
RE:Можно ли справиться с этой хреновиной?
Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
RE:Можно ли справиться с этой хреновиной?
Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
RE:Можно ли справиться с этой хреновиной?
Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...
RE:Можно ли справиться с этой хреновиной?
Файл здесь https://yadi.sk/d/mL09juhz3NxVdq
Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени.
RE:Можно ли справиться с этой хреновиной?
UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии)
Смотрим код htm
- следовательно
í
=íAdnaÃ=Adnaíd
Ãguin=díguin
degree of ClÃ=degree of Clí
===
á
=ásnádud=snádud
===
é
=édécor=décor
===
и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm
PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких
Ã
, закройте Блокнот (сохраняя в utf-8)===
http://dropmefiles.com/gqPEU
RE:Можно ли справиться с этой хреновиной?
Да уж...
Значит алгоритм такой
В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь
Например в Rúinid ú = Atilde;ordm; = ù
В результате Rúinid = Rùinid
Так? Поправьте, если нет.
И можно ли как-то без таблиц узнавать, что ú=Atilde;ordm; или é=Atilde;copy; Я везде опустил символы &
--------
Если я привел пример правильно, то мне не ясно почему в Adnaà или dÃguin à обозначается Atilde;shy; Мягкий перенос - это потому-что символ à в данном слове сам по себе и не имеет рядом другой кракозябры?
RE:Можно ли справиться с этой хреновиной?
Еще раз.
Это результат неправильных действий при копировании\вставке.
Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская).
В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним).
Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности.
RE:Можно ли справиться с этой хреновиной?
Так.
Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно).Только если известно точное соответствие, как в U* Echach Cobo = Uí Echach Cobo
Пример: The five kingdoms of *irinn - речь идет о древнем названии Ирландии. *irinn = Éirinn.
É
= É (в таблице этого нет)Остальное Drunkenmunky хорошо объяснил.
Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная.
Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее.
PS: В тексте еще надо поменять -- на Em dash: —
RE:Можно ли справиться с этой хреновиной?
Всем благодарности. Проблема решена.
-----------
Не ругайтесь, если что. Но все-таки, непонятно.
Например,
В слове Rúinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?)
В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?)
В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy;
RE:Можно ли справиться с этой хреновиной?
(с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере-
носом.
Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного.
А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно.
---
Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть.
RE:Можно ли справиться с этой хреновиной?
+++
RE:Можно ли справиться с этой хреновиной?
...я думаю, что мы много мудрим над этим текстом...
...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи )))
RE:Можно ли справиться с этой хреновиной?
..ещё один...
RE:Можно ли справиться с этой хреновиной?
..ещё...
RE:Можно ли справиться с этой хреновиной?
Это ведь половинчатое решение, если вообще таковым можно назвать.
Мы же тексты стараемся делать не приблизительно, а как положено?..
RE:Можно ли справиться с этой хреновиной?
Серьёзно?
Над этим текстом сейчас только вы мудрите.
Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится.
RE:Можно ли справиться с этой хреновиной?
Произвести обратные действия описанным мною выше.
RE:Можно ли справиться с этой хреновиной?
Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия?
RE:Можно ли справиться с этой хреновиной?
Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна.
RE:Можно ли справиться с этой хреновиной?
Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем.
- я не понял, как сделать первый шаг в обратном порядке
RE:Можно ли справиться с этой хреновиной?
Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем.
<?php
header('Content-type: text/html; charset=UTF-8');
$str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу
echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже
//http://php.net/manual/ru/function.html-entity-decode.php
?>
RE:Можно ли справиться с этой хреновиной?
А вот это отлично было бы!
Это же несложно? Для меня, например, тёмный лес.
RE:Можно ли справиться с этой хреновиной?
Побахвалиться, конечно, дорогого стоита вдруг заработаетRE:Можно ли справиться с этой хреновиной?
Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php)
Распакуйте например на флешку.
В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше.
Рядом положите HTML файл под именем "0605EQMM.htm"
Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому)
В вашем любимом браузере наберите "http://localhost/test.php"
RE:Можно ли справиться с этой хреновиной?
Спасибо.
Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой:
Сравнил с исходным файлом - всё исправлено.
Примечания:
Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки.
(mirror) Download USBWebserver V8.6 - работает только вторая ссылка.
RE:Можно ли справиться с этой хреновиной?
Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили.
Но и так тоже ничего.
RE:Можно ли справиться с этой хреновиной?
Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))