Суть такова: Есть файл ms Word. В нём 60% текста написано просто без пробелов. Есть ли какой-нибудь он-лайн инструмент, который расставил бы пробелы в словах? Я бы сделал вручную, но текста там 60 страниц 11-ым кеглем. Да и сам текст выглядит вот так:
"властей,сили средств,специальныхфондов,связи, оповещенияиинформации,обеспечивающихпретворениявжизнь " (Лекции по гражданской обороне)
Фиг с ним со знаками препинания. Целые предложения слиты в одно огромное слово. Читать буквально вырвиглазно.
Копируешь текст частями, а о в ответ пережевывает текст и выплёвывает слова.
Ненамного медленнее вручную текст чистить. Ибо реально 60% текста просто слито воедино.
Кстати да, попробуй через гугл переводчик
Верно, переводчик распознает за раз .5 страницы так точно.
Или делай скриншоты страниц и через распознавалку пропускай.
Тебе все равно читать эту херь, так правь слова во время чтения за компом. А потом уже и в читалку и в шпаргалку, хоть куда.
ЗЫ: Плюс ты так больше запомнишь и меньше раз эту ахинею придется читать.
ЗЫЫ: Думаю препод вам специально в таком формате отдал, что бы хоть как-то прочитали. По крайне мере, я бы так сделал :)
ЗЫ: Плюс ты так больше запомнишь и меньше раз эту ахинею придется читать.
ЗЫЫ: Думаю препод вам специально в таком формате отдал, что бы хоть как-то прочитали. По крайне мере, я бы так сделал :)
Дык это немецкий
Включаешь проверку орфографии и применяешь все замены :D
Когда там 8 слов слиты в одно - проверка орфографии не справляется
Диплом сплющило?
Лекции по Гражданке писал какой-то одарённый.
Ті препод или студент? Если препод отдай студентам пусть расплющиваеют если студент то найди нормальній
Студень. Нормальных нет. Это единственное, что дала староста.
Староста - не единственный источник знаний в универе ;)
Подойди к преподу, скажи что староста дала хуйню, попроси норм вариант.
Скорее всего старосте эту хуйню дал как раз таки препод.
Походу староста на что-то намекает. И с еблей...
Не слышал, чтобы такое было, нужно точно определять начало и конец каждого слова, для этого надо куски текста сравнивать со словарем меняя количество текста в маске поиска и определять из контекста кусок ли это слова или предлог, те нужен сем. анализ.
Это как из фарша обратно собрать корову.
Нет, потому что корова->фарш это необратимое преобразование, а удаление пробелов просто увеличивает энтропию, но сама информация не теряется.
Окей, это как собрать шкаф из Икеи без инструментов и инструкции.
"На глаз"
Делал подобное... Только в икеевских обычно логика есть.
Хорошо, что в русском языке слово само по себе очень даже имеет значение и редко когда контекст меняет что-то.
ну ну, от этой красоты я охуеваю, с твоей тупости я охуеваю, правда от контекста смысл не изменился?
Переведи слово set, run, go, take, stand, get, put, fall с английского без контекста.
И я молчу про омонимы.
В целом изменился ОКРАС, а не значение. В русском языке есть избыточность. И вырывая слово из предложения у слова остаётся свой образ/смысл.
И я молчу про омонимы.
В целом изменился ОКРАС, а не значение. В русском языке есть избыточность. И вырывая слово из предложения у слова остаётся свой образ/смысл.
Мне кажется методом исключения можно большинство случаев вырулить.
включи видимость всяких спецсимволов, может осталось что на местах пробелов, можно будет автозаменой починить
Включил. Мимо.
Вряд ли можно хорошо это сделать автоматом.
ктомукакто
к тому как то
кто мука кто
ктомукакто
к тому как то
кто мука кто
Может ИИ какой-нибудь обучить
Обучи раз предложил идея та хорошая
Я похож на заклинателя ИИ?
Кто мука-то? Я один здесь нахуй!
Попробуй перегнать документ в пдф и засунуть в распознавание от абби
вот это тебе заняться нечем
Мне экзамены сдавать. А лекции в настолько уёбищном виде дали.
Вообще-то, повозившись с таким текстом вручную, ты больше усвоишь, чем если раз-другой прочтёшь нормальный текст.
Да, так и делаю. Из за необходимости сосредотачиваться, запоминается лучше.
По комментам ещё дали совет для английского менять "ing" на "ing " и "the" на " the " и поискать аналогичные паттерны для русского. Находишь какое-нибудь слово, которое гарантированно должно быть отдельным и довольно часто встречается в тексте — делаешь замену на это же слово с пробелами до и после. Или хотя бы часть слова (из-за разных падежей и родов) и пробел перед ним. Несколько таких проходок — и текст станет заметно читаемей.
А в конце замен несколько раз пройдись и поменяй два пробела на один. Ну, это так, для перфекционистов.
А в конце замен несколько раз пройдись и поменяй два пробела на один. Ну, это так, для перфекционистов.
А ты хорош.
Есть ещё такая штука как регулярные выражения, но её ни в двух словах, ни в двух абзацах не объяснишь, а кроме того, в ворде их скорей всего нету. Хотя может быть в LibreOffice, но не гарантирую — я с офисами дел почти не имею.
Регулярка тут не поможет.
Вообще без шансов.
Регулярки серьёзно облегчают жизнь. В каждом конкретном случае нужно смотреть, но мало ли, разные падежи упихать в одну регулярку легче, чем делать несколько проходок. Или такие мелочи, как если слово в начале предложения, то в замене оно должно быть с прописной буквы, а если нет, то со строчной — с этим тоже регулярка справляется без проблем.
Сталкиваюсь с такими "документами" периодически. Файл был создан в ворде 2010 офиса или выше версией, при открытии в 2007 всё слипается. Я бы начал с попытки открыть "ригинальный" файл в другой версией ворда перед поиском разных извращенных способов "разлипания".
Не, ворд тот же. Текст просто печатал какой-то идиот.
Чел тему говорит, тоже сталкивался со слипанием. Но возможно у тебя уже не оригинал а сохраненная копия, так что тут только распознавалка
На кафедре уже лет 10 стоит один и тот же офис. Я сам видел и ковырялся в компах. Так что этот вариант отпадает.
Как уже сказали, автозамена с доставить пробелы к препинаниям, автозамена по окончаниям инфинитивов глаголов иться потом ить и т.д., потом глагола л прошедшего времени ла потом л тоже как бы все варианты. Потом мягкий окончания прилагательных. ой ый и прочие, потом уже проверкой орфографии несколько раз, а потом читай, бери частые слова без окончаний, наречия там и ебашь по ним.
Чувак, у тебя реально пиздец - проблема.
и общепринятого решения у неё просто НЕТ.
но вот попытка её решения с помощью питона https://www.rupython.com/x44-8-1142.html
с вероятностью 5% может сработать следующий финт ушами: входим в режим рецензирования и пытаемся найти тот момент когда "умный" автор заменил пробелы на пустой текст.
и общепринятого решения у неё просто НЕТ.
но вот попытка её решения с помощью питона https://www.rupython.com/x44-8-1142.html
с вероятностью 5% может сработать следующий финт ушами: входим в режим рецензирования и пытаемся найти тот момент когда "умный" автор заменил пробелы на пустой текст.
или импортируй этот текст в кварк, индизайн или вентуру, с вероятностью те-же 5% может что-то получиться.
еще одно решение:
1) восстанавливаем пробелы после знаков препинания,
2) заменяем "и" на " и ". и слитые предложения разваливается на группы поменьше,
3) натравливаем на текст автоматическую проверку перавописания,
4) третий пункт повторить несколько раз
дополнительные фишки: если в тексте есть английские слова, то сразу выделяем заменяем "the" на " the " и "ing" на "ing "
подобные фишки можно поискать для русского текста.
или на границе русского и английского
вобщем макросы тебе в помощь.
1) восстанавливаем пробелы после знаков препинания,
2) заменяем "и" на " и ". и слитые предложения разваливается на группы поменьше,
3) натравливаем на текст автоматическую проверку перавописания,
4) третий пункт повторить несколько раз
дополнительные фишки: если в тексте есть английские слова, то сразу выделяем заменяем "the" на " the " и "ing" на "ing "
подобные фишки можно поискать для русского текста.
или на границе русского и английского
вобщем макросы тебе в помощь.
1) Вывести в PDF.
2) Распознать при помощи FineReader
2) Распознать при помощи FineReader
Лично у меня FineReader и обычный текст не всегда распознает корректно.
Upd. Проверил, не работает, увы.
ты сиди в ручную ставь пока пробелы, а мы подумаем как сделать проще, того и гляди, к тому моменту как ты все исправишь мы чего нибудь придумаем
можешь искать по очевидным окончаниями слов. Для существительных по падежам - -ой, -ая, -ие, -их, -ова (и т.д. по падежам), для глаголов - -ет, -ть, для прилагательных - -ой, -ий. И вручную для каждого совпадающего слова это менять. Тоже вручную - да, но хотя бы какая-то навигация, вместо перечитывания всего этого полотна
У макрасо на хабре другой функционал, проблема по первой ссылке не решена.
удаление пробелов — хороший способ защитить интеллектуальную собственность.
Видимо кто-то кому-то недодал бабла за готовые лекции
Видимо кто-то кому-то недодал бабла за готовые лекции
Не, их писал просто какой-то одарённый. Это гарантировано.
Такого просто не может быть, понимаешь. Их не могли писать без пробелов, ты сам попробуй это сделать, не получится если не отрубить большие пальцы.
Скорее всего это известный глюк 2007 ворда.
Вас вроде группа должна быть, скажи старосте чтобы на несколько человек распределили разбивку эту, все не одному страдать
Живу не в России. И, не смотря на то что обучение на русском, язык знаем только я и староста.
попробуй каждое предложение в гугл вбивать - он разобьет.
у тебя что, друзей - пидоров нет? разошли каждому из своих 60 друзей-пидоров текст
с нормативом - через 30 минут жду исправленную страницу от каждого из вас
PROFIT
с нормативом - через 30 минут жду исправленную страницу от каждого из вас
PROFIT
Что такое "друзья"?
Раз нет друзей, поделите в группе страницы. Или это только тебе нужно?
Русским нормально владеют только я и староста. Остальным вообще насрать что и как написано, ибо читать практически не умеют.
образование
утилиту с микрософта скачать надо
60%...
А сколько всего страниц/символов?
А сколько всего страниц/символов?
60 страниц 11 кеглем. ~25к слов
Многовато
как успехи, анончик? если к вечеру не справишься - попробую наговнокодить тебе решение
Уже около трети) Реактор помог хотя бы не треснуть со скуки.
так, ну я освободился. ещё надо?
Я очень признателен, но сам как-нибудь справлюсь) Большое спасибо)
хорошо, удачи тебе с этим всем)
Копирайтерам. Оплата текстов без пробелов: где справедливость?
Недавно столкнулся с заказчиком, который не только вел себя откровенно по-хамски, но и, как потом оказалось, часто под надуманными предлогами не оплачивал работу. Хотя через пару недель тексты появлялись на его сайтах, практически не изменившись.
Поскольку я работаю по предоплате, со мной вышла немного иная ситуация. Заказчик придрался к оформлению (хотя в данном случае это дело вебмастера), и затребовал поставить 2 пробела в определенных частях текста вместо положенного одного.
Здесь и начинается вопрос темы конференции.
Поскольку просьба была выложена по-хамски (декамерон), я отказался ее выполнять, мотивировав это тем, что оплата идет за знаки б/п (без пробелов). Поскольку заказчик продолжал выражаться нецензурно и потребовал оплату назад, был задан вопрос:
— Мной работа выполнена, но пробелы не оплачиваются, почему я должен их делать?
Ответ:
— "Я не плачу за воздух — пробелы и есть воздух, пустота".
В итоге ему был выслан вместо такого текста:
Коктейль изменчивых страданий размешан пеплом красоты
Такой текст:
Коктейльизменчивыхстраданийразмешанпепломкрасоты
Вывод:
Пробел в тексте — это техническая работа, без которой текст сливается в месиво и не имеет смысла.
Любая работа должна быть оплачена.
Пробелы — тоже.
Недавно столкнулся с заказчиком, который не только вел себя откровенно по-хамски, но и, как потом оказалось, часто под надуманными предлогами не оплачивал работу. Хотя через пару недель тексты появлялись на его сайтах, практически не изменившись.
Поскольку я работаю по предоплате, со мной вышла немного иная ситуация. Заказчик придрался к оформлению (хотя в данном случае это дело вебмастера), и затребовал поставить 2 пробела в определенных частях текста вместо положенного одного.
Здесь и начинается вопрос темы конференции.
Поскольку просьба была выложена по-хамски (декамерон), я отказался ее выполнять, мотивировав это тем, что оплата идет за знаки б/п (без пробелов). Поскольку заказчик продолжал выражаться нецензурно и потребовал оплату назад, был задан вопрос:
— Мной работа выполнена, но пробелы не оплачиваются, почему я должен их делать?
Ответ:
— "Я не плачу за воздух — пробелы и есть воздух, пустота".
В итоге ему был выслан вместо такого текста:
Коктейль изменчивых страданий размешан пеплом красоты
Такой текст:
Коктейльизменчивыхстраданийразмешанпепломкрасоты
Вывод:
Пробел в тексте — это техническая работа, без которой текст сливается в месиво и не имеет смысла.
Любая работа должна быть оплачена.
Пробелы — тоже.
Я щас пишу программу которая что-то подобное делает, но доделаю её только к концу лета.
Могу только пожелать удачи!
запоздалый привет! Хотел поинтересоваться - ты таки вручную всё перебрал, или нашёл способ автоматизации?
Запоздалый ответ :3 Вручную. Я даже алгоритм переборки этого ужаса представить себе не могу, не говоря уже о какой-либо программе.
спасибо за инфу. Жаль, что не нашлось автоматизации. Ты таки героический человечек титанической усидчивости =) Добра тебе
Как говорится: захочешь сдать - и на шпагат сядешь. Спасибо :3 тебе тоже всех плюшек :3
Чтобы написать коммент, необходимо залогиниться
ctrl+f, на вкладку заменить и после указания чего на что - "заменить все"